99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA TensorRT的數(shù)據(jù)格式定義

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:Ken He ? 2022-05-20 14:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

TensorRT 支持不同的數(shù)據(jù)格式。有兩個方面需要考慮:數(shù)據(jù)類型和布局。

數(shù)據(jù)類型格式

數(shù)據(jù)類型是每個單獨值的表示。它的大小決定了取值范圍和表示的精度,分別是FP32(32位浮點,或單精度),F(xiàn)P16(16位浮點或半精度),INT32(32位整數(shù)表示),和 INT8(8 位表示)。

布局格式

布局格式確定存儲值的順序。通常,batch 維度是最左邊的維度,其他維度指的是每個數(shù)據(jù)項的方面,例如圖像中的C是通道, H是高度, W是寬度。忽略總是在這些之前的批量大小, C 、 H和W通常被排序為CHW (參見圖 1 )或HWC (參見圖 2 )。

圖1. CHW的布局格式:圖像分為HxW矩陣,每個通道一個,矩陣按順序存儲;通道的所有值都是連續(xù)存儲的。

poYBAGKHOmuAG3jrAABI1Auz45s159.png

圖2. HWC的布局格式:圖像存儲為單個HxW矩陣,其值實際上是 C 元組,每個通道都有一個值;一個點(像素)的所有值都是連續(xù)存儲的。

pYYBAGKHOmSAF4_4AABE_ZAr4MY310.png

為了實現(xiàn)更快的計算,定義了更多格式以將通道值打包在一起并使用降低的精度。因此,TensorRT 還支持NC / 2HW2和NHWC8等格式。

在NC / 2HW2 ( TensorFormat::kCHW2 ) 中,通道值對在每個HxW矩陣中打包在一起(在奇數(shù)通道的情況下為空值)。結(jié)果是一種格式,其中? C/2 ? HxW矩陣的值是兩個連續(xù)通道的值對(參見圖 3 );請注意,如果它們在同一對中,則此排序?qū)⒕S度交錯為具有步長1的通道的值,否則將步長為 2xHxW 。

圖 3. 一對通道值在每個HxW矩陣中打包在一起。結(jié)果是一種格式,其中[C/2] HxW矩陣的值是兩個連續(xù)通道的值對

poYBAGKHOl6AAMv6AABJ1rtP6Z8262.png

在NHWC8 ( TensorFormat::kHWC8 ) 中, HxW矩陣的條目包括所有通道的值。此外,這些值被打包在? C/8 ? 8 元組中,并且C向上舍入到最接近的 8 倍數(shù)。

在這種NHWC8格式中, HxW矩陣的條目包括所有通道的值。

其他TensorFormat遵循與前面提到的TensorFormat::kCHW2和TensorFormat::kHWC8類似的規(guī)則。

關(guān)于作者

Ken He 是 NVIDIA 企業(yè)級開發(fā)者社區(qū)經(jīng)理 & 高級講師,擁有多年的 GPU人工智能開發(fā)經(jīng)驗。自 2017 年加入 NVIDIA 開發(fā)者社區(qū)以來,完成過上百場培訓(xùn),幫助上萬個開發(fā)者了解人工智能和 GPU 編程開發(fā)。在計算機視覺,高性能計算領(lǐng)域完成過多個獨立項目。并且,在機器人無人機領(lǐng)域,有過豐富的研發(fā)經(jīng)驗。對于圖像識別,目標(biāo)的檢測與跟蹤完成過多種解決方案。曾經(jīng)參與 GPU 版氣象模式GRAPES,是其主要研發(fā)者。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    213

    文章

    29748

    瀏覽量

    212887
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5309

    瀏覽量

    106412
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    49028

    瀏覽量

    249514
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Lovelace
    的頭像 發(fā)表于 06-12 15:37 ?603次閱讀
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS應(yīng)用的最佳實踐

    LPC55S28修改音頻數(shù)據(jù)格式后USB Aduio類異常的原因?

    您好 NXP 前輩,我已經(jīng)更改了 LPC55S28 官方 SDK 上的 USB 音頻數(shù)據(jù)格式。 我的主要問題是修改音頻流格式類型描述符。 我的想法是將 USB Aduio 每個通道的數(shù)據(jù)字節(jié)數(shù)從 2
    發(fā)表于 03-20 07:33

    使用RDATAC指令后,ADS131E04傳送的數(shù)據(jù)格式以及內(nèi)容是怎樣的?

    請問使用RDATAC指令后,ADS131E04傳送的數(shù)據(jù)格式以及內(nèi)容是怎樣的,數(shù)據(jù)手冊是按照ADS131E08為例來說明有27個BYTE,不知道ADS131E04是不是只用15個BYTE?
    發(fā)表于 01-10 07:19

    NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

    Recurrent Drafting (簡稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發(fā)并開源的一種新型推測解碼技術(shù),該技術(shù)現(xiàn)在可與 NVIDIA TensorRT-LLM 一起使用。
    的頭像 發(fā)表于 12-25 17:31 ?755次閱讀
    在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM中啟用ReDrafter的一些變化

    解鎖NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一個專為優(yōu)化大語言模型 (LLM) 推理而設(shè)計的庫。它提供了多種先進的優(yōu)化技術(shù),包括自定義 Attention Kernel、Inflight
    的頭像 發(fā)表于 12-17 17:47 ?870次閱讀

    NVIDIA TensorRT-LLM Roadmap現(xiàn)已在GitHub上公開發(fā)布

    感謝眾多用戶及合作伙伴一直以來對NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 現(xiàn)已在 GitHub 上公開發(fā)布!
    的頭像 發(fā)表于 11-28 10:43 ?722次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM Roadmap現(xiàn)已在GitHub上公開發(fā)布

    FP8數(shù)據(jù)格式在大型模型訓(xùn)練中的應(yīng)用

    本文主要介紹了 FP8 數(shù)據(jù)格式在大型模型訓(xùn)練中的應(yīng)用、挑戰(zhàn)及最佳實踐,展示了 FP8 在提升訓(xùn)練速度和效率方面的潛力和實際效果。
    的頭像 發(fā)表于 11-19 14:54 ?1686次閱讀
    FP8<b class='flag-5'>數(shù)據(jù)格式</b>在大型模型訓(xùn)練中的應(yīng)用

    ADC3561轉(zhuǎn)換成什么數(shù)據(jù)格式便于高速實時通過WIFI發(fā)送?

    5MHz的16位采樣率,LVDS格式數(shù)據(jù)輸出,使用串口轉(zhuǎn)WIFI模塊受限于串口波特率無法實現(xiàn)實時發(fā)送,請問轉(zhuǎn)換成什么數(shù)據(jù)格式便于高速實時通過WIFI發(fā)送
    發(fā)表于 11-18 08:06

    PCM2707的S/PDIF輸出的數(shù)據(jù)格式是什么?

    我想問一下PCM2707的S/PDIF輸出的數(shù)據(jù)格式是什么? 在網(wǎng)上查到的資料說是S/PDIF是用來傳輸數(shù)字信號的,可以傳輸PCM形式的信號,那是不是就是說帶有S/PDIF輸出的聲卡(比如說
    發(fā)表于 11-07 06:33

    請問AIC3106怎么設(shè)置成單聲道32位數(shù)據(jù)格式?

    AIC3106 怎樣設(shè)置成單聲道 32位數(shù)據(jù)格式?
    發(fā)表于 11-04 08:17

    SRC4192能否支持輸入TDM格式音頻數(shù)據(jù),輸出I2S,進行數(shù)據(jù)格式轉(zhuǎn)換?

    SRC4192這款芯片能否支持輸入TDM格式音頻數(shù)據(jù),輸出I2S,進行數(shù)據(jù)格式轉(zhuǎn)換。在我看TI這款芯片的datasheet時候管腳描述如下: 我理解是可以TDM輸入的,可是后面關(guān)于輸入輸出
    發(fā)表于 10-25 11:41

    請問TLV320AIC3268的ADC轉(zhuǎn)換后的數(shù)據(jù)格式是什么樣的?

    我在使用TLV320AIC3268,但是不知道ADC轉(zhuǎn)換后的數(shù)據(jù)格式是什么樣的?比如是二進制補碼嗎?轉(zhuǎn)后的數(shù)據(jù)與輸入的模擬信號的電壓值有什么關(guān)系?
    發(fā)表于 10-14 07:48

    NVIDIA Nemotron-4 340B模型幫助開發(fā)者生成合成訓(xùn)練數(shù)據(jù)

    Nemotron-4 340B 是針對 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 優(yōu)化的模型系列,該系列包含最先進的指導(dǎo)和獎勵模型,以及一個用于生成式 AI 訓(xùn)練的數(shù)
    的頭像 發(fā)表于 09-06 14:59 ?738次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron-4 340B模型幫助開發(fā)者生成合成訓(xùn)練<b class='flag-5'>數(shù)據(jù)</b>

    魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區(qū)是中國最具影響力的模型開源社區(qū),致力給開發(fā)者提供模型即服務(wù)的體驗。魔搭社區(qū)利用NVIDIA TensorRT-LLM,大大提高了大語言模型的推理性能,方便了模型應(yīng)用部署,提高了大模型產(chǎn)業(yè)應(yīng)用效率,更大規(guī)模地釋放大模型的應(yīng)用價值。”
    的頭像 發(fā)表于 08-23 15:48 ?1140次閱讀

    KIT_ATV_24GHZ_RADAR是否可以從網(wǎng)口讀取雷達的原始回波數(shù)據(jù),數(shù)據(jù)格式是怎樣的?

    請問有沒有這款開發(fā)板的調(diào)試手冊,是否可以從網(wǎng)口讀取雷達的原始回波數(shù)據(jù)數(shù)據(jù)格式是怎樣的?
    發(fā)表于 07-24 06:10