99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

機器學習性能誰來評判?

璟琰乀 ? 來源:FPGA開發(fā)圈 ? 作者:FPGA開發(fā)圈 ? 2020-11-05 09:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本期導讀

MLPerf 組織最近發(fā)布了最新一輪機器學習性能測試結果,首次直接參加此次測試的“新力量” 賽靈思(Xilinx), 在最新 MLPerf 推斷基準測試中取得了“圖像分類”最高的性能/峰值(Perf divided by peak TOPS)成績。TOPS(每秒萬億次運算) 是一個衡量性能效率的指標,意味著在給定 X 個硬件峰值計算量的情況下,賽靈思提供了最高的吞吐量性能。機器學習(ML)是支撐當今人工智能AI)技術發(fā)展的核心算法,性能效率關乎各種 AI 應用的實現(xiàn)和落地。然而,玩家們你方唱罷我登場的機器學習性能之爭,紙上公開的數(shù)據(jù)是否可信,效率高低誰來評判、如何評判?

帶著這些問題,Aspencore 首席分析師邵樂峰先生連線賽靈思人工智能高級總監(jiān)姚頌及人工智能高級經(jīng)理羅霖先生,希望通過更深度地了解賽靈思此次參加測試的過程及結果,探索衡量機器學習芯片性能的基準及自適應計算平臺的前景。

1

機器學習性能誰來評判?

當今 AI 芯片的評測標準,主流的有國際上的 MLPerf,國內(nèi)有人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟的 AIIA DNN benchmark(人工智能端側(cè)芯片基準測試評估方案)。

MLPerf 是用于測試機器學習(ML)硬件、軟件以及服務的訓練和推斷性能的一套公開、標準化基準,該行業(yè)基準測試組織自 2018 年 5 月成立以來,得到了亞馬遜、百度、Facebook、谷歌、哈佛大學、英特爾、微軟和斯坦福大學等支持,旨在提供一個共同認可的過程,來衡量不同類型的加速器和系統(tǒng)如何快速有效地執(zhí)行訓練過的神經(jīng)網(wǎng)絡。

作為 AI 芯片領域一個重要的基準測試,MLPerf 主要包括訓練和推斷兩方面的性能測試,并正在迅速成為業(yè)界衡量 ML 性能的事實標準。盡管目前看仍偏重于訓練端,但賽靈思軟件和人工智能高級經(jīng)理羅霖認為未來推斷側(cè)性能測試的比例將會不斷增加,尤其是 MLPerf 今年在測試中增加了新模式和手機/筆記本電腦這兩種新類別。今年的 MLPerf Inference 基準測試(v0.7)的第二個版本,吸引了全球 1,200 多位同行進行評審。

2

從參測過程看 MLPerf 測試有何基準

此次賽靈思與 Mipsology 合作,參加了嚴格的“封閉”基準測試。該測試向廠商提供預訓練網(wǎng)絡和預訓練權重,是一個真正的“Close Deviation”同類測評。羅霖解釋說,同類測評就像是跳水比賽中和自選動作對應的標準動作,是實打?qū)嵉幕谕瑯宇A訓練權重模型的對比。

測試系統(tǒng)使用賽靈思 Alveo U250 加速器卡,該卡以 Mipsology 優(yōu)化的領域?qū)S眉軜嫞―SA)為基礎。基準測試測量了基于 Alveo 的定制 DSA 在離線模式下以 5,011 圖像/秒的速度執(zhí)行基于 ResNet-50 基準的圖像分類任務的效率。ResNet-50 以圖像/秒為單位測量圖像分類性能。結果,賽靈思實現(xiàn)了最高的性能/峰值(TOPS,每秒萬億次運算)。這是一個衡量性能效率的指標,因此也就意味著,在給定 X 個硬件峰值計算量的情況下,賽靈思提供了最高的吞吐量性能。

此外,值得一提的是,MLPerf 的結果還顯示,賽靈思與其在數(shù)據(jù)手冊中公布的性能相比,實現(xiàn)了 100% 的可用 TOPS。而市場上的大多數(shù)廠商只能提供其峰值 TOPS 的一小部分,效率最高通常不超過 40%。這一令人印象深刻的結果表明,并非所有數(shù)據(jù)手冊,或者說紙面上的原始峰值 TOPS,都能準確代表實際性能。

從測試看, 還有一個重要的因素值得關注, ML 應用涉及的不僅僅是 AI 處理。它們通常需要 ML 預處理功能和后處理功能,這兩者會競爭系統(tǒng)帶寬,導致系統(tǒng)級瓶頸。而賽靈思自適應平臺的強大之處就在于,它可以通過加速關鍵型非 AI 功能同時構建應用級數(shù)據(jù)流流水線,來避免系統(tǒng)瓶頸,從而加速整體應用。同時,賽靈思在 TensorFlow 和 Pytorch 框架的支持上也做了很多工作,使 Tensorflow 和 Pytorch 模型的硬件加速變得更容易。

3

Xilinx 首次直接參測意味著什么?

賽靈思首次直接參與 MLPerf 測試,意味著以 FPGA 為基礎的 AI 解決方案已經(jīng)日趨成熟,在推斷應用中達到了業(yè)界領先的水平,日漸成為 AI 應用的主流玩家。在本次數(shù)據(jù)中心類別的封閉分區(qū)(Closed Division)參賽廠商中,除了 Nvidia 和 Intel 之外,賽靈思是唯一提交結果的芯片公司。

羅霖表示:AI 推斷是一個快速增長的市場,例如自動駕駛和基于人工智能的視頻監(jiān)控,需要計算機視覺任務,如圖像分類和目標檢測。這些復雜的計算工作負載需要不同級別的吞吐量、延遲和功率才能高效運行,這就是賽靈思和自適應計算產(chǎn)品的亮點所在。

由于時間的原因,賽靈思在本次 MLPerf 測試中只提交了 3 項測試結果,除了上文提到的使用 U250 加速卡進行“圖像分類”外,還使用 Alveo U280 加速卡進行“目標檢測”,以及使用 Versal ACAP 平臺進行“圖像分類”。 羅霖說,U250 參加的測試是在封閉分區(qū)所有參賽者采用一樣的神經(jīng)網(wǎng)絡模型,一樣的預訓練權重,一樣的預處理和后處理,就像體操比賽里面“標準動作”。相比之下,在開放分區(qū)(Open Division)類別中廠商允許使用自定義的方法對模型進行優(yōu)化,包括重新訓練,屬于“百花齊放”類型。

但實際上,MLPerf Inference 0.7 版的 8 項測試內(nèi)容賽靈思平臺其實都能支持,在公司內(nèi)部運行的一些非圖像類模型,例如語音識別、自然語言處理等測試中,都有不錯的表現(xiàn)。相信今后公司會參加更多類別的測試。

法國初創(chuàng)公司 Mipsology 是賽靈思此次測試的合作伙伴,在利用 FPGA 實現(xiàn)神經(jīng)網(wǎng)絡加速方面頗有建樹。羅霖表示,F(xiàn)PGA 是一個開放的、靈活的計算加速平臺,各種各樣和 Mipsology 一樣有能力的合作伙伴,都可以基于賽靈思相關硬件和工具鏈產(chǎn)品,開發(fā)出極具市場競爭力的產(chǎn)品。

4

TOPS 是衡量機器學習性能的唯一指標?

姚頌表示:機器學習(ML)應用程序不僅僅是 AI 處理,還需要 ML 前后的處理函數(shù),因為這些函數(shù)會競爭系統(tǒng)帶寬并導致系統(tǒng)級瓶頸。因此,最優(yōu)秀的 AI 應用實現(xiàn)方案未必是速度最快的,它需要的是在效率最高的同時保持靈活性,必須是量身定制的,能夠按需交付性能,不多不少。

眾所周知,神經(jīng)網(wǎng)絡中的前一個計算結果通常都作為后一個計算的輸入,AI 推斷效率發(fā)揮不出來的主要原因是要花很多時間去內(nèi)存中讀取數(shù)據(jù)。

姚頌列舉了兩種常見的提升效率模式的做法:

一是通過將計算結果快速存儲下來,避免對內(nèi)存的反復讀取和寫入;

另一種是對神經(jīng)網(wǎng)絡進行分割處理,只調(diào)用與特定區(qū)塊處理相關的數(shù)據(jù),以流水線的方式掩蓋掉內(nèi)存讀取的延時。

而具體到賽靈思的做法,羅霖更強調(diào)“端到端的優(yōu)化”對高計算效率的影響。也就是說,首先要關注底層神經(jīng)網(wǎng)絡處理單元微架構的設計,包括計算乘加、數(shù)據(jù)存儲/搬運、流水線調(diào)度等等;其次是中間層的工具鏈,例如在編譯的時候是否對模型進行了優(yōu)化,是否將與模型相關的計算和對存儲的操作有效映射到微架構上;最后,再對上層應用進行優(yōu)化。這一系列操作并非簡單的硬件堆砌就能達到,而是要在性能、成本、功耗等多因素之間找到微妙的平衡,不能像孩子們玩的蹺蹺板,一邊的升起,往往意味著另一邊的下墜。

羅霖進一步解釋說,一些解決方案非常適合 AI 推斷,但并不適合整體應用處理。GPUASIC 往往能提供在紙面上看上去很高的 TOPS,但是 AI 推斷性能通常需要與系統(tǒng) I/O、預處理性能和后處理性能相匹配。如果非 AI 組件不能高效地在單芯片上實現(xiàn),就需要多芯片解決方案。多芯片方案需要在器件之間傳遞數(shù)據(jù),會降低系統(tǒng)性能并提高功耗。因此,一個能夠高效實現(xiàn)整體應用的單器件在實際 AI 推斷部署中擁有顯著優(yōu)勢。

5

自適應計算平臺有哪些典型應用?

賽靈思 Versal ACAP 自適應計算平臺構建于能在制造后依然可以動態(tài)重配置的硬件上,包括 FPGA 等經(jīng)過長期檢驗的技術,以及賽靈思 AI 引擎等最近的創(chuàng)新。其強大之處在于,不僅可以加速關鍵的人工智能和非人工智能功能,而且還可以構建應用程序級流媒體管道,以避免系統(tǒng)瓶頸,從而實現(xiàn)整個應用程序的加速。

為了能夠更好地理解上述理論,羅霖和姚頌為我們列舉了一些典型的應用場景:

自動駕駛

自動駕駛對超低延時是相當看重的,通常要求每一幀的延時不能超過 33 毫秒,這意味著真正能留給感知和識別的時間只有不到 10 毫秒,F(xiàn)PGA 可以做到幾毫秒之內(nèi)的延時,相比之下,GPU 就很難做到。

智能視頻分析

“數(shù)據(jù)路徑越復雜對 FPGA 越有利”,羅霖說,在智能視頻分析中,不光有 CNN 推斷,還包括檢測、解碼、圖像預處理和后處理等許多工作,F(xiàn)PGA 器件能夠做很多優(yōu)化的、定制化的硬件加速。如果換成 GPU,盡管在處理 YOLOV3 模型時效果不錯,但添加上其他任務后,就會明顯感到“力不從心”,類似現(xiàn)象在語音類、推薦類應用中也很常見。

ResNet-50 Vs YOLOv3

YOLOv3 是用于各類目標檢測與識別的神經(jīng)網(wǎng)絡模型,準確率高。支持者認為,ResNet-50 使用的 224×224 基準圖像像素現(xiàn)在“幾乎無人使用”,而 YOLOv3 使用 608×608,甚至 1440×1440 像素,屬于高清處理,這對自動駕駛、機器人、銀行安全及零售分析領域的客戶來說十分重要。

姚頌不否認 YOLOv3 是在準確率和計算性能上取得不錯平衡的模型,但他不認為這樣就可以取代 ResNet-50 標準,例如在醫(yī)療影像、工業(yè)圖像檢測等領域就使用了包括 SSB 在內(nèi)的其它模型。更重要的是,ResNet-50 的整體架構非常高效,很多互聯(lián)網(wǎng)企業(yè)的神經(jīng)網(wǎng)絡都基于 ResNet-50 模塊搭建。所以,“我們不應該只把眼光聚焦在 YOLOv3 模型上,一顆 AI 芯片,至少應該把 CNN 推斷或者類似的神經(jīng)網(wǎng)絡架構都支持起來,否則人家會認為你只支持 YOLOv3 模型。”他說。

作者:邵樂峰

ASPENCORE 中國區(qū)首席分析師

責任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    459

    文章

    52505

    瀏覽量

    440760
  • AI
    AI
    +關注

    關注

    88

    文章

    35136

    瀏覽量

    279709
  • 人工智能
    +關注

    關注

    1806

    文章

    49014

    瀏覽量

    249410
  • 機器學習
    +關注

    關注

    66

    文章

    8503

    瀏覽量

    134599
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    **【技術干貨】Nordic nRF54系列芯片:傳感器數(shù)據(jù)采集與AI機器學習的完美結合**

    【技術干貨】nRF54系列芯片:傳感器數(shù)據(jù)采集與AI機器學習的完美結合 近期收到不少伙伴咨詢nRF54系列芯片的應用與技術細節(jié),今天我們整理幾個核心問題與解答,帶你快速掌握如何在nRF54上部署AI
    發(fā)表于 04-01 00:00

    機器學習模型市場前景如何

    當今,隨著算法的不斷優(yōu)化、數(shù)據(jù)量的爆炸式增長以及計算能力的飛速提升,機器學習模型的市場前景愈發(fā)廣闊。下面,AI部落小編將探討機器學習模型市場的未來發(fā)展。
    的頭像 發(fā)表于 02-13 09:39 ?359次閱讀

    傳統(tǒng)機器學習方法和應用指導

    在上一篇文章中,我們介紹了機器學習的關鍵概念術語。在本文中,我們會介紹傳統(tǒng)機器學習的基礎知識和多種算法特征,供各位老師選擇。 01 傳統(tǒng)機器
    的頭像 發(fā)表于 12-30 09:16 ?1184次閱讀
    傳統(tǒng)<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法和應用指導

    如何選擇云原生機器學習平臺

    當今,云原生機器學習平臺因其彈性擴展、高效部署、低成本運營等優(yōu)勢,逐漸成為企業(yè)構建和部署機器學習應用的首選。然而,市場上的云原生機器
    的頭像 發(fā)表于 12-25 11:54 ?454次閱讀

    cmp在機器學習中的作用 如何使用cmp進行數(shù)據(jù)對比

    機器學習領域,"cmp"這個術語可能并不是一個常見的術語,它可能是指"比較"(comparison)的縮寫。 比較在機器學習中的作用 模型評估 :比較不同模型的
    的頭像 發(fā)表于 12-17 09:35 ?879次閱讀

    ADS1281怎樣評判采集到的結果是否準確?

    各位專家我按照ADS1281做了一個轉(zhuǎn)換板,目前也能采集到電壓,但是不知道該怎樣評判采集到的結果是否準確,請問各位專家該怎樣判定我的板子是否達到了ADS1281這個芯片標稱的性能呢,非常感激。
    發(fā)表于 12-11 07:17

    ASR和機器學習的關系

    自動語音識別(ASR)技術的發(fā)展一直是人工智能領域的一個重要分支,它使得機器能夠理解和處理人類語言。隨著機器學習(ML)技術的迅猛發(fā)展,ASR系統(tǒng)的性能和準確性得到了顯著提升。 ASR
    的頭像 發(fā)表于 11-18 15:16 ?780次閱讀

    什么是機器學習?通過機器學習方法能解決哪些問題?

    計算機系統(tǒng)自身的性能”。事實上,由于“經(jīng)驗”在計算機系統(tǒng)中主要以數(shù)據(jù)的形式存在,因此機器學習需要設法對數(shù)據(jù)進行分析學習,這就使得它逐漸成為智能數(shù)據(jù)分析技術的創(chuàng)新源之一,
    的頭像 發(fā)表于 11-16 01:07 ?963次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學習</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法能解決哪些問題?

    NPU與機器學習算法的關系

    在人工智能領域,機器學習算法是實現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學習機器
    的頭像 發(fā)表于 11-15 09:19 ?1214次閱讀

    人工智能、機器學習和深度學習存在什么區(qū)別

    人工智能指的是在某種程度上顯示出類似人類智能的設備。AI有很多技術,但其中一個很大的子集是機器學習——讓算法從數(shù)據(jù)中學習。
    發(fā)表于 10-24 17:22 ?2978次閱讀
    人工智能、<b class='flag-5'>機器</b><b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b>存在什么區(qū)別

    如何評判電子煙PCBA方案優(yōu)劣

    如何評判電子煙方案優(yōu)劣
    的頭像 發(fā)表于 10-16 16:21 ?1045次閱讀
    如何<b class='flag-5'>評判</b>電子煙PCBA方案優(yōu)劣

    AI引擎機器學習陣列指南

    云端動態(tài)工作負載以及超高帶寬網(wǎng)絡,同時還可提供高級安全性功能。AI 和數(shù)據(jù)科學家以及軟硬件開發(fā)者均可充分利用高計算密度的優(yōu)勢來加速提升任何應用的性能。AI 引擎機器學習擁有先進的張量計算能力,非常適合用于高度優(yōu)化的 AI 和 M
    的頭像 發(fā)表于 09-18 09:16 ?822次閱讀
    AI引擎<b class='flag-5'>機器</b><b class='flag-5'>學習</b>陣列指南

    【《時間序列與機器學習》閱讀體驗】+ 時間序列的信息提取

    提高機器學習模型效果與性能的過程。 而我對特征工程的理解就是從一堆數(shù)據(jù)里找出能表示這堆數(shù)據(jù)的最小數(shù)據(jù)集,而這個找出特征數(shù)據(jù)的過程就是信息提取。 隨后給出了一系列定義,包括特征的最小最大縮放、特征的標準化
    發(fā)表于 08-14 18:00

    【「時間序列與機器學習」閱讀體驗】+ 簡單建議

    這本書以其系統(tǒng)性的框架和深入淺出的講解,為讀者繪制了一幅時間序列分析與機器學習融合應用的宏偉藍圖。作者不僅扎實地構建了時間序列分析的基礎知識,更巧妙地展示了機器學習如何在這一領域發(fā)揮巨
    發(fā)表于 08-12 11:21

    對于一個放大電路如何評判它的指標性能好壞?

    對于一個放大電路如何評判它的指標性能好壞?比如說利用信噪比、共模抑制比、失調(diào)電壓、頻帶等指標如何去評判一個放大電路的性能好壞呢?是達到datesheet上的指標就可以了嗎?另外,信噪比
    發(fā)表于 08-01 06:09