99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA TensorRT加速打造實(shí)時(shí)數(shù)字化運(yùn)動(dòng)場景

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-05-20 15:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

案例簡介

GALA Sports 的 Arena4D 方案使用多個(gè)高清攝像機(jī),將數(shù)據(jù)傳輸?shù)揭粋€(gè)本地 HPC 中,經(jīng)過一系列的神經(jīng)網(wǎng)絡(luò)流水線,實(shí)時(shí)計(jì)算出每個(gè)運(yùn)動(dòng)員的位置與姿態(tài),從而將整個(gè)比賽場景數(shù)字化。

Arena4D 的中央處理 HPC 需要以 30FPS 的速度處理 4-12 個(gè) 4K 相機(jī)的數(shù)據(jù),流水線包括圖像前處理、運(yùn)動(dòng)員追蹤與識(shí)別、球的追蹤識(shí)別、骨骼關(guān)鍵點(diǎn)識(shí)別,多幀時(shí)間軸降噪等多個(gè)算法模塊,為了達(dá)到實(shí)時(shí)計(jì)算,Arena4D 使用了 NVIDIA A100 GPU 加速神經(jīng)網(wǎng)絡(luò)計(jì)算,并使用 Tensor RT、CUDA 進(jìn)行深度優(yōu)化,經(jīng)過優(yōu)化部署的算法計(jì)算速度相對(duì)于早期算法原型有 10 倍以上的性能提升。

本案例主要應(yīng)用到 NVIDIA A100 GPU、TensorRT和CUDA。

客戶簡介及應(yīng)用背景

望塵科技(GALA Sports)于 2013 年在深圳成立,是一家以技術(shù)為驅(qū)動(dòng)的互聯(lián)網(wǎng)公司,多年來一直專注于體育游戲和賽場數(shù)字化,致力于為用戶提供高品質(zhì)的體育在線娛樂體驗(yàn),目前團(tuán)隊(duì)成員 300 余人,分別于深圳、成都設(shè)有辦公地點(diǎn)。

憑借歷年來在體育游戲市場的深耕與穩(wěn)定的高質(zhì)量產(chǎn)品研發(fā),望塵科技推出了《足球大師》、《NBA 籃球大師》、《最佳 11 人》等多款體育類手游,與 FIFPro、NBA、中超、拜仁、巴薩、曼聯(lián)、皇馬、國米等體育聯(lián)盟及豪門俱樂部保持著長期的合作關(guān)系。目前,擁有全球超過 2000 萬的下載用戶,全球日活躍用戶量超 50 萬人次;在賽場三維重構(gòu)、人體運(yùn)動(dòng)模擬、球類競技 AI、表情與肌肉物理模擬、超寫實(shí)數(shù)字人、大場景渲染等幾個(gè)領(lǐng)域處于國內(nèi)外領(lǐng)先地位。

客戶挑戰(zhàn)

多臺(tái)高清攝像頭每幀圖像需上傳到顯卡進(jìn)行實(shí)時(shí)轉(zhuǎn)碼、降噪等前處理工作,數(shù)據(jù)吞吐量較大。

基于神經(jīng)網(wǎng)絡(luò)的計(jì)算流水線,需要實(shí)時(shí)進(jìn)行多個(gè)視角、多個(gè)運(yùn)動(dòng)員的追蹤、識(shí)別、姿態(tài)估計(jì)與降噪計(jì)算。

在多個(gè) AI 模型級(jí)聯(lián)計(jì)算流水線中,每個(gè) AI 模型之間的數(shù)據(jù)處理與拷貝占用了大量的時(shí)間。

應(yīng)用方案

基于以上挑戰(zhàn),GALA Sports 選擇了 NVIDIA 提供的 AI 加速解決方案——TensorRT。

針對(duì)多相機(jī)從內(nèi)存到顯存大量數(shù)據(jù)拷貝 IO bound 問題,我們使用 CUDA 多流技術(shù)實(shí)現(xiàn)了內(nèi)存拷貝與數(shù)據(jù)處理并行化,降低了 overhead,4 路 4k 相機(jī)數(shù)據(jù)的拷貝與轉(zhuǎn)碼從約 50ms 減少到 30ms。

針對(duì)神經(jīng)網(wǎng)絡(luò)流水線的計(jì)算延遲問題,首先我們根據(jù)體育比賽的使用場景與相機(jī)視角對(duì)模型結(jié)構(gòu)進(jìn)行了優(yōu)化,根據(jù)不同體育類型的相機(jī)機(jī)位和球場尺度,設(shè)計(jì)了專門針對(duì)特定比賽的識(shí)別網(wǎng)絡(luò),大大降低了網(wǎng)絡(luò)的復(fù)雜度;然后使用量化工具對(duì)網(wǎng)絡(luò)進(jìn)行 fp16 量化加速,最后使用 TensorRT 針對(duì) A100 編譯,在 A100 上能達(dá)到最優(yōu)性能的模型。

針對(duì)計(jì)算流水線模型之間數(shù)據(jù)處理耗時(shí)的問題,首先我們通過合并部分神經(jīng)網(wǎng)絡(luò)模型重新訓(xùn)練,然后對(duì)于必須保留的數(shù)據(jù)處理代碼,我們用 CUDA C++ 重寫了大部分?jǐn)?shù)據(jù)處理的 kernel,并針對(duì) A100 的硬件結(jié)構(gòu)對(duì)并行參數(shù)進(jìn)行調(diào)優(yōu),最終將數(shù)據(jù)處理 30ms 的計(jì)算時(shí)間降低到 5ms。

最終,以足球場場景為例,追蹤目標(biāo)為 1 個(gè)足球 + 22 名球員 + 3 名教練的位置與骨骼,在 1 張 A100 設(shè)備上我們實(shí)現(xiàn)了平均 50ms/幀的速度,在 2 張 A100 設(shè)備上能達(dá)到平均 30ms/幀的速度,整個(gè)流水線比原型提升了 18 倍。

方案效果及影響

將整個(gè)推理端算法流水線經(jīng)過上述方法優(yōu)化后,相較于未用 TensorRT 與 CUDA 優(yōu)化的算法原型,我們實(shí)現(xiàn)了 18 倍的性能提升,使超大規(guī)模體育場景的姿態(tài)捕捉與重建的實(shí)時(shí)計(jì)算成為可能,在體育比賽過程中的實(shí)時(shí)計(jì)算產(chǎn)生了許多新的用途,我們的客戶能夠?qū)⑦@些數(shù)字化內(nèi)容用于直播解說、實(shí)時(shí)戰(zhàn)術(shù)分析、自由視角回放、比賽結(jié)果預(yù)測等新場景,提升了系統(tǒng)方案的價(jià)值。

我們的硬件方案也從 4 臺(tái) HPC 縮減到 1 臺(tái) HPC 搭載 2 張 A100 GPU,不僅顯著地降低了成本,也顯著降低了系統(tǒng)維護(hù)和使用的復(fù)雜度,提升了系統(tǒng)可靠度。

后續(xù),我們計(jì)劃:

通過將流水線中部分網(wǎng)絡(luò)使用 Int8 量化以進(jìn)一步提升性能;

將整體流水線遷移到 CUDA C++ 代碼中進(jìn)一步提升性能;

把性能提升空余的計(jì)算資源用于提升網(wǎng)絡(luò)模型的復(fù)雜度以提升精度;

將 CenterNet 與 Dense Sematic 網(wǎng)絡(luò)特征提取部分替換成 Vision Transformer 以提升精度;

使用 Nsight 在 A100 真實(shí)環(huán)境中進(jìn)一步 profile,減少 overhead。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5308

    瀏覽量

    106331
  • 攝像機(jī)
    +關(guān)注

    關(guān)注

    3

    文章

    1702

    瀏覽量

    61385
  • CUDA
    +關(guān)注

    關(guān)注

    0

    文章

    122

    瀏覽量

    14120
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?623次閱讀

    打造數(shù)字化礦山智能監(jiān)測:露天礦邊坡雷達(dá)

    打造數(shù)字化礦山智能監(jiān)測:露天礦邊坡雷達(dá)監(jiān)測系統(tǒng) 礦區(qū)智能管理打造數(shù)字化礦山,為礦區(qū)邊坡安全提
    的頭像 發(fā)表于 06-30 09:22 ?146次閱讀

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對(duì)基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Lovelace
    的頭像 發(fā)表于 06-12 15:37 ?571次閱讀
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS應(yīng)用的最佳實(shí)踐

    LITESTAR 4D應(yīng)用:運(yùn)動(dòng)場照明設(shè)計(jì)流程

    當(dāng)設(shè)計(jì)一個(gè)專業(yè)的足球運(yùn)動(dòng)場時(shí),可以使用LITESTAR 4D中SportPlus進(jìn)行設(shè)計(jì) 1.插入燈具并設(shè)置高度數(shù)量 2.設(shè)置桅桿及燈具瞄準(zhǔn)點(diǎn) 3.計(jì)算結(jié)果 4.最后查看結(jié)果,打印報(bào)表。
    發(fā)表于 06-09 08:49

    運(yùn)動(dòng)場館智慧照明控制系統(tǒng)

    隨著智能技術(shù)的發(fā)展,運(yùn)動(dòng)場館的照明系統(tǒng)正從傳統(tǒng)的手動(dòng)控制向智慧數(shù)字化方向轉(zhuǎn)型。通過對(duì)照明系統(tǒng)進(jìn)行升級(jí),提升場館運(yùn)營效率,優(yōu)化運(yùn)動(dòng)員與觀
    的頭像 發(fā)表于 04-30 14:38 ?236次閱讀

    智慧工廠第6期 實(shí)時(shí)監(jiān)控系統(tǒng)—打造智能數(shù)字化車間

    在工業(yè)4.0和智能制造浪潮的推動(dòng)下,傳統(tǒng)生產(chǎn)模式正加速數(shù)字化、網(wǎng)絡(luò)、智能方向演進(jìn)。實(shí)時(shí)監(jiān)控系統(tǒng)作為智慧工廠的核心支柱,正在重塑制造企業(yè)
    的頭像 發(fā)表于 04-22 09:50 ?287次閱讀
    智慧工廠第6期 <b class='flag-5'>實(shí)時(shí)</b>監(jiān)控系統(tǒng)—<b class='flag-5'>打造</b>智能<b class='flag-5'>數(shù)字化</b>車間

    華宇電子加速先進(jìn)封裝測試數(shù)字化轉(zhuǎn)型

    近日,安徽省工業(yè)和信息廳聯(lián)合安徽省廣播電視臺(tái)打造數(shù)字化轉(zhuǎn)型·安徽時(shí)刻”專欄,聚焦華宇電子數(shù)字化轉(zhuǎn)型典型案例,展示數(shù)字化轉(zhuǎn)型中最有代表性和
    的頭像 發(fā)表于 04-11 13:43 ?355次閱讀

    Altair One? 云端門戶與 NVIDIA Omniverse 實(shí)時(shí)數(shù)字孿生藍(lán)圖完成全面整合

    正式宣布其?Altair One?云端門戶與?NVIDIA Omniverse 實(shí)時(shí)數(shù)字孿生藍(lán)圖實(shí)現(xiàn)技術(shù)融合。通過整合?GPU 加速NVIDIA NIM 微服務(wù)與?Omniverse
    的頭像 發(fā)表于 04-02 14:01 ?262次閱讀

    NVIDIA技術(shù)助力Pantheon Lab數(shù)字實(shí)時(shí)交互解決方案

    本案例中,Pantheon Lab(萬想科技)專注于數(shù)字人技術(shù)解決方案,通過 NVIDIA 技術(shù)實(shí)現(xiàn)數(shù)字實(shí)時(shí)對(duì)話與客戶互動(dòng)交流。借助 NVIDIA
    的頭像 發(fā)表于 01-14 11:19 ?623次閱讀

    智能工廠的數(shù)字化應(yīng)用場景

    本文探討了智能工廠中的數(shù)字化場景,包括設(shè)備互聯(lián)與數(shù)據(jù)采集、生產(chǎn)計(jì)劃與排程優(yōu)化、自動(dòng)立體倉庫和智能物流系統(tǒng)。通過這些數(shù)字化技術(shù),智能工廠實(shí)現(xiàn)了生產(chǎn)效率的提升、資源消耗的降低、決策能力的
    的頭像 發(fā)表于 12-30 09:32 ?913次閱讀
    智能工廠的<b class='flag-5'>數(shù)字化</b>應(yīng)用<b class='flag-5'>場景</b>

    LITESTAR 4D應(yīng)用:運(yùn)動(dòng)場照明設(shè)計(jì)流程

    當(dāng)設(shè)計(jì)一個(gè)專業(yè)的足球運(yùn)動(dòng)場時(shí),可以使用LITESTAR 4D中SportPlus進(jìn)行設(shè)計(jì) 1.插入燈具并設(shè)置高度數(shù)量 2.設(shè)置桅桿及燈具瞄準(zhǔn)點(diǎn) 3.計(jì)算結(jié)果 4.最后查看結(jié)果,打印報(bào)表。
    發(fā)表于 12-10 13:33

    NVIDIA Omniverse加速零售數(shù)字化轉(zhuǎn)型

    大模型、生成式 AI、數(shù)字孿生技術(shù)等前沿科技啟發(fā)了各行各業(yè)的新業(yè)務(wù)模態(tài),在這一時(shí)代背景下 NVIDIA 作為 AI 技術(shù)的耕耘者、加速計(jì)算方面的領(lǐng)導(dǎo)者,看到了數(shù)字化浪潮中前所未有的變革
    的頭像 發(fā)表于 11-09 13:52 ?924次閱讀

    阿爾特汽車借助NVIDIA Omniverse打造全方位數(shù)字化平臺(tái)

    隨著 AI 和工業(yè)數(shù)字化的飛速發(fā)展,汽車行業(yè)正經(jīng)歷著翻天覆地的變化。AI 模型、實(shí)時(shí)仿真和數(shù)字孿生等技術(shù)的應(yīng)用,正在重塑汽車設(shè)計(jì)和研發(fā)的流程,推動(dòng)著產(chǎn)業(yè)向更高效、更智能的方向發(fā)展。
    的頭像 發(fā)表于 10-31 14:40 ?929次閱讀
    阿爾特汽車借助<b class='flag-5'>NVIDIA</b> Omniverse<b class='flag-5'>打造</b>全方位<b class='flag-5'>數(shù)字化</b>平臺(tái)

    實(shí)時(shí)數(shù)據(jù)與數(shù)字孿生的關(guān)系

    實(shí)時(shí)數(shù)據(jù)與數(shù)字孿生是當(dāng)今工業(yè)4.0和智能制造領(lǐng)域中兩個(gè)緊密相連的概念。它們共同推動(dòng)了生產(chǎn)效率的提升、運(yùn)營成本的降低以及產(chǎn)品質(zhì)量的改善。 1. 實(shí)時(shí)數(shù)據(jù)的定義與作用 實(shí)時(shí)數(shù)據(jù)是指在事件發(fā)
    的頭像 發(fā)表于 10-25 14:42 ?983次閱讀

    高速數(shù)字化儀的技術(shù)原理和應(yīng)用場景

    高速數(shù)字化儀是一種用于采集高速模擬信號(hào),并將其轉(zhuǎn)換為數(shù)字信號(hào)進(jìn)行處理和儲(chǔ)存的設(shè)備。以下是對(duì)其技術(shù)原理和應(yīng)用場景的詳細(xì)介紹:一、技術(shù)原理 采樣:高速數(shù)字化儀的采樣率是指每秒鐘采樣多少次,
    發(fā)表于 10-21 14:34