99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

在 NVIDIA NGC 上搞定模型自動壓縮,YOLOv7 部署加速比 5.90,BERT 部署加速比 6.22

NVIDIA英偉達 ? 來源:未知 ? 2022-11-15 21:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

PaddleSlim 發(fā)布 AI 模型自動壓縮的工具,帶來全新升級 AI 模型一鍵自動壓縮體驗。歡迎廣大開發(fā)者使用 NVIDIA 與飛槳聯合深度適配的 NGC 飛槳容器在 NVIDIA GPU 上體驗!

PaddleSlim 自動壓縮工具,

30+CV、NLP 模型實戰(zhàn)

眾所周知,計算機視覺技術(CV)是企業(yè)人工智能應用比重最高的領域之一。為降低企業(yè)成本,工程師們一直在探索各類模型壓縮技術,來產出“更準、更小、更快”的 AI 模型部署落地。而在自然語言處理領域(NLP)中,隨著模型精度的不斷提升,模型的規(guī)模也越來越大,例如以 BERT、GPT 為代表的預訓練模型等,這成為企業(yè) NLP 模型部署落地的攔路虎。

針對企業(yè)落地模型壓縮迫切的需求,PaddleSlim 團隊開發(fā)了一個低成本、高收益的 AI 模型自動壓縮工具(ACT, Auto Compression Toolkit),無需修改訓練源代碼,通過幾十分鐘量化訓練,保證模型精度的同時,極大的減小模型體積,降低顯存占用,提升模型推理速度,助力 AI 模型的快速落地!

使用 ACT 中的基于知識蒸餾的量化訓練方法訓練 YOLOv7 模型,與原始的 FP32 模型相比,INT8 量化后的模型減小 75%,在 NVIDIA GPU 上推理加速 5.90 倍。

99a61056-64e7-11ed-8abf-dac502259ad0.png ?表1 自動壓縮工具在 CV 模型上的壓縮效果和推理加速

使用 ACT 中的結構化稀疏和蒸餾量化方法訓練 ERNIE3.0 模型,與原始的 FP32 對比,INT8 量化后的模型減小 185%,在 NVIDIA GPU 上推理加速 6.37 倍

99d136b4-64e7-11ed-8abf-dac502259ad0.png

表2 自動壓縮工具在 NLP 模型上的壓縮效果和推理加速

支持如此強大功能的核心技術是來源于 PaddleSlim 團隊自研的自動壓縮工具。自動壓縮相比于傳統(tǒng)手工壓縮,自動化壓縮的“自動”主要體現在 4 個方面:解耦訓練代碼、離線量化超參搜索、算法自動組合和硬件感知。

99fc685c-64e7-11ed-8abf-dac502259ad0.png

圖1 傳統(tǒng)手工壓縮與自動化壓縮工具對比

9a2637b8-64e7-11ed-8abf-dac502259ad0.png

圖2 傳統(tǒng)手工壓縮與自動化壓縮工具代碼量對比

更多詳細文檔,請參考:

https://github.com/PaddlePaddle/PaddleSlim/tree/develop/example/auto_compression

PaddleSlim 研發(fā)團隊詳解自動壓縮工具 CV 模型和NLP模型兩日課回放,可以掃描下方二維碼,加入自動壓縮技術官方交流群獲取。除此之外,入群福利還包括:深度學習學習資料、歷屆頂會壓縮論文、百度架構師詳解自動壓縮等。

9a789fe4-64e7-11ed-8abf-dac502259ad0.png

NGC 飛槳容器介紹

如果您希望體驗自動壓縮工具的新特性,歡迎使用 NGC 飛槳容器。NVIDIA 與百度飛槳聯合開發(fā)了 NGC 飛槳容器,將最新版本的飛槳與最新的 NVIDIA 的軟件棧(如 CUDA)進行了無縫的集成與性能優(yōu)化,最大程度的釋放飛槳框架在 NVIDIA 最新硬件上的計算能力。這樣,用戶不僅可以快速開啟 AI 應用,專注于創(chuàng)新和應用本身,還能夠在 AI 訓練和推理任務上獲得飛槳+NVIDIA 帶來的飛速體驗。

最佳的開發(fā)環(huán)境搭建工具 - 容器技術。

  1. 容器其實是一個開箱即用的服務器。極大降低了深度學習開發(fā)環(huán)境的搭建難度。例如你的開發(fā)環(huán)境中包含其他依賴進程(redis,MySQL,Ngnix,selenium-hub 等等),或者你需要進行跨操作系統(tǒng)級別的遷移。

  2. 容器鏡像方便了開發(fā)者的版本化管理

  3. 容器鏡像是一種易于復現的開發(fā)環(huán)境載體

  4. 容器技術支持多容器同時運行

9a94b31e-64e7-11ed-8abf-dac502259ad0.png

最好的 PaddlePaddle 容器

NGC 飛槳容器針對 NVIDIA GPU 加速進行了優(yōu)化,并包含一組經過驗證的庫,可啟用和優(yōu)化 NVIDIA GPU 性能。此容器還可能包含對 PaddlePaddle 源代碼的修改,以最大限度地提高性能和兼容性。此容器還包含用于加速 ETL(DALI,RAPIDS)、訓練(cuDNN,NCCL)和推理(TensorRT)工作負載的軟件。

PaddlePaddle 容器具有以下優(yōu)點:

  1. 適配最新版本的 NVIDIA 軟件棧(例如最新版本 CUDA),更多功能,更高性能。

  2. 更新的 Ubuntu 操作系統(tǒng),更好的軟件兼容性

  3. 按月更新

  4. 滿足 NVIDIA NGC 開發(fā)及驗證規(guī)范,質量管理

通過飛槳官網快速獲取

9abbeaf6-64e7-11ed-8abf-dac502259ad0.png

環(huán)境準備

使用 NGC 飛槳容器需要主機系統(tǒng)(Linux)安裝以下內容:

  • Docker 引擎

  • NVIDIA GPU 驅動程序

  • NVIDIA 容器工具包

有關支持的版本,請參閱 NVIDIA 框架容器支持矩陣NVIDIA 容器工具包文檔。

不需要其他安裝、編譯或依賴管理。無需安裝 NVIDIA CUDA Toolkit。

NGC 飛槳容器正式安裝:

要運行容器,請按照 NVIDIA Containers For Deep Learning Frameworks User’s Guide 中 Running A Container 一章中的說明發(fā)出適當的命令,并指定注冊表、存儲庫和標簽。有關使用 NGC 的更多信息,請參閱 NGC 容器用戶指南。如果您有 Docker 19.03 或更高版本,啟動容器的典型命令是:

9af1f420-64e7-11ed-8abf-dac502259ad0.png

*詳細安裝介紹 《NGC 飛槳容器安裝指南》

https://www.paddlepaddle.org.cn/documentation/docs/zh/install/install_NGC_PaddlePaddle_ch.html

*詳細產品介紹視頻

【飛槳開發(fā)者說|NGC 飛槳容器全新上線 NVIDIA 產品專家全面解讀】

https://www.bilibili.com/video/BV16B4y1V7ue?share_source=copy_web&vd_source=266ac44430b3656de0c2f4e58b4daf82


原文標題:在 NVIDIA NGC 上搞定模型自動壓縮,YOLOv7 部署加速比 5.90,BERT 部署加速比 6.22

文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 英偉達
    +關注

    關注

    22

    文章

    3953

    瀏覽量

    93800

原文標題:在 NVIDIA NGC 上搞定模型自動壓縮,YOLOv7 部署加速比 5.90,BERT 部署加速比 6.22

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何本地部署NVIDIA Cosmos Reason-1-7B模型

    下一步行動。本文將一步步帶你本地服務器完成該模型部署,并搭建一個直觀的 Web 交互界面,親身體驗前沿 AI 的“思考”過程。
    的頭像 發(fā)表于 07-09 10:17 ?167次閱讀

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應用原型驗證與產品部署。
    的頭像 發(fā)表于 07-04 14:38 ?668次閱讀

    OrinNano yolov11訓練部署教程

    ORinNano yolov11訓練部署教程
    的頭像 發(fā)表于 04-10 15:26 ?836次閱讀
    OrinNano  <b class='flag-5'>yolov</b>11訓練<b class='flag-5'>部署</b>教程

    RK3576 yolov8訓練部署教程

    本章展示yolov8模型EASY EAI Orin nano的部署過程。
    的頭像 發(fā)表于 04-02 16:04 ?468次閱讀
    RK3576 <b class='flag-5'>yolov</b>8訓練<b class='flag-5'>部署</b>教程

    Cognizant將與NVIDIA合作部署神經人工智能平臺,加速企業(yè)人工智能應用

    -Cognizant將與NVIDIA合作部署神經人工智能平臺,加速企業(yè)人工智能應用 Cognizant將在關鍵增長領域提供解決方案,包括企業(yè)級AI智能體、定制化行業(yè)大型語言模型及搭載
    的頭像 發(fā)表于 03-26 14:42 ?317次閱讀
    Cognizant將與<b class='flag-5'>NVIDIA</b>合作<b class='flag-5'>部署</b>神經人工智能平臺,<b class='flag-5'>加速</b>企業(yè)人工智能應用

    請問如何在imx8mplus上部署和運行YOLOv5訓練的模型?

    我正在從事 imx8mplus yocto 項目。我已經自定義數據集YOLOv5 訓練了對象檢測模型。它在 ubuntu 電腦
    發(fā)表于 03-25 07:23

    英偉達GTC2025亮點:NVIDIA認證計劃擴展至企業(yè)存儲領域,加速AI工廠部署

    ,現在已將企業(yè)存儲納入其中,旨在通過加速計算、網絡、軟件和存儲,助力企業(yè)更高效地部署 AI 工廠。 企業(yè)構建 AI 工廠的過程中,獲取高質量數據對于確保 AI 模型的卓越性能和可靠性
    的頭像 發(fā)表于 03-21 19:38 ?1095次閱讀

    K230D部署模型失敗的原因?

    流程中看到MicroPython部署時要選擇第三路串口,但并未成功 補充材料 參考的主要流程如下,這個文件內容是社區(qū)官網的模型訓練結束后生成的文件壓縮包解壓后的結果 確認問題
    發(fā)表于 03-11 06:19

    yolov5轉onnxcubeAI進行部署,部署失敗的原因?

    第一個我是轉onnx時 想把權重文件變小點 就用了半精度 --half,則說17版本不支持半精度 后面則是沒有縮小的單精度 但是顯示哪里溢出了···· 也不說是哪里、、。。。 到底能不能部署yolov5這種東西?。?? 也沒看見幾個部署
    發(fā)表于 03-07 11:38

    添越智創(chuàng)基于 RK3588 開發(fā)板部署測試 DeepSeek 模型全攻略

    和NPU的利用率,可以看到CPU的占用率已經降了下來,并且調用了NPU的3個核心進行加速推理: 通過以上兩種方法,我們掌握了 RK3588 開發(fā)板上部署并測試 DeepSeek 模型
    發(fā)表于 02-14 17:42

    樹莓派上部署YOLOv5進行動物目標檢測的完整流程

    卓越的性能。本文將詳細介紹如何在性能更強的計算機上訓練YOLOv5模型,并將訓練好的模型部署到樹莓派4B,通過樹莓派的攝像頭進行實時動物目
    的頭像 發(fā)表于 11-11 10:38 ?3726次閱讀
    <b class='flag-5'>在</b>樹莓派上<b class='flag-5'>部署</b><b class='flag-5'>YOLOv</b>5進行動物目標檢測的完整流程

    YOLOv6LabVIEW中的推理部署(含源碼)

    YOLOv6 是美團視覺智能部研發(fā)的一款目標檢測框架,致力于工業(yè)應用。如何使用python進行該模型部署,官網已經介紹的很清楚了,但是對于如何在LabVIEW中實現該模型
    的頭像 發(fā)表于 11-06 16:07 ?952次閱讀
    <b class='flag-5'>YOLOv</b>6<b class='flag-5'>在</b>LabVIEW中的推理<b class='flag-5'>部署</b>(含源碼)

    NVIDIA NIM助力企業(yè)高效部署生成式AI模型

    Canonical、Nutanix 和 Red Hat 等廠商的開源 Kubernetes 平臺集成了 NVIDIA NIM,將允許用戶通過 API 調用來大規(guī)模地部署大語言模型。
    的頭像 發(fā)表于 10-10 09:49 ?770次閱讀

    快速部署Tensorflow和TFLITE模型Jacinto7 Soc

    電子發(fā)燒友網站提供《快速部署Tensorflow和TFLITE模型Jacinto7 Soc.pdf》資料免費下載
    發(fā)表于 09-27 11:41 ?0次下載
    快速<b class='flag-5'>部署</b>Tensorflow和TFLITE<b class='flag-5'>模型</b><b class='flag-5'>在</b>Jacinto<b class='flag-5'>7</b> Soc

    Yuan2.0千億大模型通用服務器NF8260G7的推理部署

    巨量模型的智能生產力正在逐步滲透到各行各業(yè),但它們的部署和運行通常需要專用的AI加速卡,能否CPU運行千億大
    的頭像 發(fā)表于 07-30 14:26 ?1198次閱讀
    Yuan2.0千億大<b class='flag-5'>模型</b><b class='flag-5'>在</b>通用服務器NF8260G<b class='flag-5'>7</b><b class='flag-5'>上</b>的推理<b class='flag-5'>部署</b>