99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

游戲AI對(duì)自對(duì)弈推理速度提出新要求

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 作者:NVIDIA英偉達(dá) ? 2021-10-22 09:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

騰訊一直積極地推動(dòng)強(qiáng)化學(xué)習(xí)在游戲AI領(lǐng)域的發(fā)展,并在2019年推出了“開(kāi)悟”AI開(kāi)放研究平臺(tái),提供不同游戲的訓(xùn)練場(chǎng)景、支撐AI進(jìn)行強(qiáng)化訓(xùn)練的大規(guī)模算力、統(tǒng)一的強(qiáng)化學(xué)習(xí)框架以加速研發(fā)速度、通用的訓(xùn)練與推理服務(wù),加快AI訓(xùn)練速度。

游戲AI對(duì)自對(duì)弈推理速度提出新要求

和圖像以及語(yǔ)音的訓(xùn)練方式不同,目前在游戲AI訓(xùn)練上表現(xiàn)最好的方式是強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)除了需要大量的算力來(lái)訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò)之外,還需要一個(gè)自對(duì)弈的模塊用來(lái)產(chǎn)生訓(xùn)練數(shù)據(jù)。在自對(duì)弈模塊當(dāng)中,會(huì)模擬游戲環(huán)境,并且選擇不同時(shí)期的模型來(lái)操控游戲內(nèi)的角色,AI對(duì)游戲內(nèi)角色的每一操控都需要對(duì)模型進(jìn)行一次前向推理。由于更新模型的訓(xùn)練數(shù)據(jù)來(lái)自于自對(duì)弈模塊,因此自對(duì)弈的推理速度會(huì)對(duì)整個(gè)模型的訓(xùn)練速度和效果造成非常大的影響。

而自對(duì)弈推理每一次前向推理對(duì)延時(shí)的要求比實(shí)際的線上服務(wù)小,因此常見(jiàn)的方式是通過(guò)CPU來(lái)進(jìn)行自對(duì)弈中的推理,但CPU成本太高。為了提高自對(duì)弈的速度與吞吐,減少推理成本,騰訊希望在“開(kāi)悟”AI開(kāi)放研究平臺(tái)里面充分利用GPU去進(jìn)行自對(duì)弈中的模型前向推理。

TensorRT 助力“開(kāi)悟”AI加速自對(duì)弈推理

為了解決在自對(duì)弈推理當(dāng)中GPU利用率不高的問(wèn)題, 騰訊“開(kāi)悟”AI開(kāi)放研究平臺(tái)選擇使用NVIDIA V100 GPU和NVIDIA TensorRT推理引擎來(lái)加速推理。

為了自動(dòng)化地將模型從TensorFlow轉(zhuǎn)換到TensorRT, 騰訊“開(kāi)悟”AI開(kāi)放研究平臺(tái)一開(kāi)始通過(guò)自行開(kāi)發(fā)parser,將TensorFlow的算子映射到TensorRT的算子。同時(shí),為了支持更廣泛的模型與算子,減少維護(hù)和開(kāi)發(fā)的成本, 騰訊“開(kāi)悟”AI開(kāi)放研究平臺(tái)也積極地與NVIDIA合作,推動(dòng)從TensorFlow轉(zhuǎn)換成ONNX模型,再通過(guò)TensorRT ONNX parser轉(zhuǎn)換到TensorRT的流程。

在自對(duì)弈的過(guò)程中,需要頻繁地更新模型的權(quán)重,讓自對(duì)弈模型始終能保持在較新的狀態(tài)。這個(gè)更新的頻率大概幾分鐘一次,每次必須限制在幾百個(gè)毫秒。如果通過(guò)重新build engine 的方式來(lái)更新模型的話,無(wú)法滿足上述要求。因此 騰訊“開(kāi)悟”AI開(kāi)放研究平臺(tái)采用 TensorRT refit engine的功能來(lái)更新權(quán)重。同時(shí),為了對(duì)更新權(quán)重有更好的支持、以及支持更多的算子, 騰訊“開(kāi)悟”AI開(kāi)放研究平臺(tái)從原本的TensorRT 5 升級(jí)到TensorRT 7。

TensorRT 7雖然在部分算子上支持權(quán)重更新,但并不支持LSTM這個(gè)在游戲AI當(dāng)中很重要的算子。為了解決這個(gè)問(wèn)題, 騰訊“開(kāi)悟”AI開(kāi)放研究平臺(tái)通過(guò)開(kāi)發(fā)TensorRT插件的方式封裝LSTM算子,并在插件當(dāng)中更新權(quán)重。

為了充分利用NVIDIA V100 GPU的Tensor core, 騰訊“開(kāi)悟”AI開(kāi)放研究平臺(tái)希望能夠使用TensorRT FP16精度來(lái)加速推理。由于TensorRT對(duì)FP16的支持非常成熟和簡(jiǎn)便,整個(gè)推理流程很快被切換到FP16,并取得了2倍左右的加速。

尋找模型推理時(shí)的性能瓶頸,通過(guò)開(kāi)發(fā)TensorRT插件進(jìn)行算子融合,進(jìn)一步地提升推理的速度。

在完成以上的工作之后,對(duì)比TensorFlow的基礎(chǔ)版本,TensorRT 7 能提供5倍以上的加速效果。

通過(guò)NVIDIA V100 GPU以及TensorRT推理引擎加速自對(duì)弈訓(xùn)練的推理部分,騰訊“開(kāi)悟”AI開(kāi)放研究平臺(tái)極大地提升了自對(duì)弈推理的吞吐量與速度,進(jìn)一步地提升了整個(gè)模型訓(xùn)練的速度與降低訓(xùn)練成本,加快模型迭代的周期。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5309

    瀏覽量

    106414
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4948

    瀏覽量

    131250
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    279989

原文標(biāo)題:NVIDIA TensorRT助力騰訊加速“開(kāi)悟”AI開(kāi)放研究平臺(tái)

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    AI推理的存儲(chǔ),看好SRAM?

    看到了其前景并提前布局。AI推理也使得存儲(chǔ)HBM不再是唯一熱門,更多存儲(chǔ)芯片與AI推理芯片結(jié)合,擁有了市場(chǎng)機(jī)會(huì)。 ? 已經(jīng)有不少AI
    的頭像 發(fā)表于 03-03 08:51 ?1692次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>的存儲(chǔ),看好SRAM?

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    DeepSeek-R1:強(qiáng)大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司開(kāi)發(fā)的新一代AI大模型。其核心優(yōu)勢(shì)在于強(qiáng)大的推理引擎能力,融合了自然語(yǔ)言處理(
    發(fā)表于 07-16 15:29

    大模型推理顯存和計(jì)算量估計(jì)方法研究

    過(guò)程中需要占用大量顯存,導(dǎo)致推理速度變慢,甚至無(wú)法進(jìn)行。 計(jì)算量過(guò)大:大模型的計(jì)算量較大,導(dǎo)致推理速度慢,難以滿足實(shí)時(shí)性要求。 為了解決這些
    發(fā)表于 07-03 19:43

    Nordic收購(gòu) Neuton.AI 關(guān)于產(chǎn)品技術(shù)的分析

    生成比傳統(tǒng)框架(如 TensorFlow、PyTorch 等)小 10 倍的模型,模型體積可低至個(gè)位數(shù) KB,并且推理速度更快、功耗更低。此次收購(gòu)將 Neuton 的自動(dòng)化 TinyML 平臺(tái)
    發(fā)表于 06-28 14:18

    燈具諧波新要求

    燈具諧波方面的新要求,適合燈具方面的設(shè)計(jì)
    發(fā)表于 05-28 14:11 ?0次下載

    首創(chuàng)開(kāi)源架構(gòu),天璣AI開(kāi)發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    應(yīng)用開(kāi)發(fā)不用“等平臺(tái)”,徹底釋放開(kāi)發(fā)效率和模型接入自由度。 DeepSeek橫空出世以來(lái),這種更適合端側(cè)部署,回答效率更高效的訓(xùn)練模式快速引爆了AI行業(yè),主流大模型紛紛加強(qiáng)了推理能力。天璣A
    發(fā)表于 04-13 19:52

    使用修改后的基準(zhǔn)C++工具推斷灰度圖像時(shí)的推理速度慢怎么解決?

    修改了 基準(zhǔn)測(cè)試 C++ 工具 ,以加載灰度圖像。 獲得的推理速度非常低。
    發(fā)表于 03-06 07:11

    AI變革正在推動(dòng)終端側(cè)推理創(chuàng)新

    尖端AI推理模型DeepSeek R1一經(jīng)問(wèn)世,便在整個(gè)科技行業(yè)引起波瀾。因其性能能夠媲美甚至超越先進(jìn)的同類模型,顛覆了關(guān)于AI發(fā)展的傳統(tǒng)認(rèn)知。
    的頭像 發(fā)表于 02-20 10:54 ?555次閱讀

    使用NVIDIA推理平臺(tái)提高AI推理性能

    NVIDIA推理平臺(tái)提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬(wàn)美元。
    的頭像 發(fā)表于 02-08 09:59 ?722次閱讀
    使用NVIDIA<b class='flag-5'>推理</b>平臺(tái)提高<b class='flag-5'>AI</b><b class='flag-5'>推理</b>性能

    生成式AI推理技術(shù)、市場(chǎng)與未來(lái)

    OpenAI o1、QwQ-32B-Preview、DeepSeek R1-Lite-Preview的相繼發(fā)布,預(yù)示著生成式AI研究正從預(yù)訓(xùn)練轉(zhuǎn)向推理(Inference),以提升AI邏輯推理
    的頭像 發(fā)表于 01-20 11:16 ?846次閱讀
    生成式<b class='flag-5'>AI</b><b class='flag-5'>推理</b>技術(shù)、市場(chǎng)與未來(lái)

    中國(guó)電提出大模型推理加速新范式Falcon

    的 Falcon 方法是一種 增強(qiáng)半回歸投機(jī)解碼框架 ,旨在增強(qiáng) draft model 的并行性和輸出質(zhì)量,以有效提升大模型的推理速度。Falcon 可以實(shí)現(xiàn)約 2.91-3.51 倍的加速比,在多種數(shù)據(jù)集上獲得了很好的結(jié)果
    的頭像 發(fā)表于 01-15 13:49 ?960次閱讀
    中國(guó)電<b class='flag-5'>提出</b>大模型<b class='flag-5'>推理</b>加速新范式Falcon

    高效大模型的推理綜述

    大模型由于其在各種任務(wù)中的出色表現(xiàn)而引起了廣泛的關(guān)注。然而,大模型推理的大量計(jì)算和內(nèi)存需求對(duì)其在資源受限場(chǎng)景的部署提出了挑戰(zhàn)。業(yè)內(nèi)一直在努力開(kāi)發(fā)旨在提高大模型推理效率的技術(shù)。本文對(duì)現(xiàn)有的關(guān)于高效
    的頭像 發(fā)表于 11-15 11:45 ?1461次閱讀
    高效大模型的<b class='flag-5'>推理</b>綜述

    蜂窩式移動(dòng)通信設(shè)備CCC標(biāo)準(zhǔn)換版新要求

    蜂窩式移動(dòng)通信設(shè)備的CCC標(biāo)準(zhǔn)(即中國(guó)強(qiáng)制性產(chǎn)品認(rèn)證標(biāo)準(zhǔn))換版確實(shí)提出新要求,主要涉及YD/T 2583.18-2024《蜂窩式移動(dòng)通信設(shè)備電磁兼容性能要求和測(cè)量方法 第18部分:5G用戶設(shè)備和輔助設(shè)備》(以下簡(jiǎn)稱“新版標(biāo)準(zhǔn)”
    的頭像 發(fā)表于 10-19 10:02 ?940次閱讀
    蜂窩式移動(dòng)通信設(shè)備CCC標(biāo)準(zhǔn)換版<b class='flag-5'>新要求</b>

    當(dāng)前主流的大模型對(duì)于底層推理芯片提出了哪些挑戰(zhàn)

    隨著大模型時(shí)代的到來(lái),AI算力逐漸變成重要的戰(zhàn)略資源,對(duì)現(xiàn)有AI芯片也提出了前所未有的挑戰(zhàn):大算力的需求、高吞吐量與低延時(shí)、高效內(nèi)存管理、能耗等等。
    的頭像 發(fā)表于 09-24 16:57 ?1200次閱讀

    AMD助力HyperAccel開(kāi)發(fā)全新AI推理服務(wù)器

    HyperAccel 是一家成立于 2023 年 1 月的韓國(guó)初創(chuàng)企業(yè),致力于開(kāi)發(fā) AI 推理專用型半導(dǎo)體器件和硬件,最大限度提升推理工作負(fù)載的存儲(chǔ)器帶寬使用,并通過(guò)將此解決方案應(yīng)用于大型語(yǔ)言模型來(lái)
    的頭像 發(fā)表于 09-18 09:37 ?884次閱讀
    AMD助力HyperAccel開(kāi)發(fā)全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服務(wù)器