繼今年早些時(shí)候發(fā)布的訓(xùn)練基準(zhǔn)分?jǐn)?shù)之后,MLPerf 發(fā)布了其推理基準(zhǔn)的第一組基準(zhǔn)分?jǐn)?shù)。
與目前有 5 家公司的 63 份參賽作品的訓(xùn)練輪相比,更多的公司提交了基于 MobileNet、ResNet、Yolo 等神經(jīng)網(wǎng)絡(luò)架構(gòu)的推理結(jié)果??偣灿衼碜?14 個(gè)組織的 500 多個(gè)分?jǐn)?shù)進(jìn)行了驗(yàn)證。這包括來自幾家初創(chuàng)公司的數(shù)據(jù),而一些知名初創(chuàng)公司仍然明顯缺席。
在封閉的部門,其嚴(yán)格的條件可以直接比較系統(tǒng),結(jié)果顯示性能差異為 5 個(gè)數(shù)量級(jí),并且在估計(jì)的功耗方面跨越三個(gè)數(shù)量級(jí)。在開放部門中,提交可以使用一系列模型,包括低精度實(shí)現(xiàn)。
Nvidia 在封閉部門的所有類別中都獲得了商用設(shè)備的第一名。其他領(lǐng)先者包括數(shù)據(jù)中心類別的 Habana Labs、谷歌和英特爾,而 Nvidia 在邊緣類別中與英特爾和高通競(jìng)爭。
英偉達(dá)用于數(shù)據(jù)中心推理的 EGX 平臺(tái)(圖片:英偉達(dá))
Moor Insights and Strategy 分析師 Karl Freund 表示:“Nvidia 是唯一一家擁有生產(chǎn)芯片、軟件、可編程性和人才的公司,可以發(fā)布跨 MLPerf 范圍內(nèi)的基準(zhǔn)測(cè)試,并在幾乎所有類別中獲勝?!?“GPU 的可編程性為未來的 MLPerf 版本提供了獨(dú)特的優(yōu)勢(shì)……我認(rèn)為這展示了 [Nvidia] 實(shí)力的廣度,以及挑戰(zhàn)者的利基性質(zhì)。但隨著時(shí)間的推移,許多挑戰(zhàn)者會(huì)變得成熟,因此英偉達(dá)需要繼續(xù)在硬件和軟件方面進(jìn)行創(chuàng)新?!?/p>
Nvidia 發(fā)布的圖表顯示了其對(duì)結(jié)果的解釋,在商用設(shè)備的封閉部門的所有四個(gè)場(chǎng)景中,它都位居第一。
這些場(chǎng)景代表不同的用例。離線和服務(wù)器場(chǎng)景用于數(shù)據(jù)中心的推理。離線場(chǎng)景可能代表大量圖片的離線照片標(biāo)記并測(cè)量純吞吐量。服務(wù)器場(chǎng)景代表一個(gè)用例,其中包含來自不同用戶的多個(gè)請(qǐng)求,在不可預(yù)測(cè)的時(shí)間提交請(qǐng)求,并在固定時(shí)間測(cè)量吞吐量。邊緣場(chǎng)景是單流,它對(duì)單個(gè)圖像進(jìn)行推理,例如在手機(jī)應(yīng)用程序中,以及多流,它測(cè)量可以同時(shí)推理多少個(gè)圖像流,用于多攝像頭系統(tǒng)。
公司可以為選定的機(jī)器學(xué)習(xí)模型提交結(jié)果,這些模型在四種場(chǎng)景中的每一種中執(zhí)行圖像分類、對(duì)象檢測(cè)和語言翻譯。
數(shù)據(jù)中心結(jié)果
“從數(shù)據(jù)中心的結(jié)果來看,Nvidia 在服務(wù)器和離線類別的所有五個(gè)基準(zhǔn)測(cè)試中均名列前茅,”Nvidia 加速計(jì)算產(chǎn)品管理總監(jiān) Paresh Kharya 說?!霸谏逃媒鉀Q方案中,我們的 Turing GPU 的性能優(yōu)于其他所有人?!?/p>
Kharya 強(qiáng)調(diào)了這樣一個(gè)事實(shí),即英偉達(dá)是唯一一家在數(shù)據(jù)中心類別的所有五個(gè)基準(zhǔn)模型中提交結(jié)果的公司,而對(duì)于服務(wù)器類別(這是更困難的情況),英偉達(dá)的性能相對(duì)于其競(jìng)爭對(duì)手有所提高。
選定的數(shù)據(jù)中心基準(zhǔn)測(cè)試結(jié)果來自封閉部門,在商用設(shè)備類別中處于領(lǐng)先地位。結(jié)果顯示相對(duì)于每個(gè)加速器的 Nvidia 分?jǐn)?shù)。X 代表“未提交結(jié)果”(圖片:Nvidia)
英偉達(dá)在數(shù)據(jù)中心領(lǐng)域最接近的競(jìng)爭對(duì)手是擁有Goya 推理芯片的以色列初創(chuàng)公司 Habana Labs 。
分析師 Karl Freund 表示:“Habana 是唯一一個(gè)全面生產(chǎn)高性能芯片的挑戰(zhàn)者,當(dāng)下一個(gè) MLPerf 套件有望包含功耗數(shù)據(jù)時(shí),它應(yīng)該會(huì)做得很好。”
Habana Labs 在接受 EETimes 采訪時(shí)指出,基準(zhǔn)分?jǐn)?shù)純粹基于性能——功耗不是衡量標(biāo)準(zhǔn),實(shí)用性也不是(例如考慮解決方案是被動(dòng)冷卻還是水冷),成本也不是。
Habana Labs PCIe 卡采用 Goya 推理芯片(圖片:Habana Labs)
Habana 還使用開放分區(qū)來展示其低延遲能力,比封閉分區(qū)進(jìn)一步限制延遲,并為多流場(chǎng)景提交結(jié)果。
邊緣計(jì)算結(jié)果
在邊緣基準(zhǔn)測(cè)試中,Nvidia 贏得了所有四個(gè)在封閉部門提交商用解決方案的類別。高通的 Snapdragon 855 SoC 和英特爾的 Xeon CPU 在單流類別中落后于英偉達(dá),高通和英特爾都沒有提交更困難的多流場(chǎng)景的結(jié)果。
選定的邊緣基準(zhǔn)測(cè)試結(jié)果來自封閉部門,在商用設(shè)備類別中處于領(lǐng)先地位。結(jié)果顯示相對(duì)于每個(gè)加速器的 Nvidia 分?jǐn)?shù)。X 代表“未提交結(jié)果”(圖片:Nvidia)
“預(yù)覽”系統(tǒng)(尚未商業(yè)化)的結(jié)果將阿里巴巴 T-Head 的含光芯片與英特爾的 Nervana NNP-I、Hailo-8和 Centaur Technologies 的參考設(shè)計(jì)進(jìn)行了對(duì)比。與此同時(shí),研發(fā)類別的特色是一家隱秘的韓國初創(chuàng)公司 Furiosa AI,對(duì)此我們知之甚少。
MLPerf 網(wǎng)站上提供了最近的推理分?jǐn)?shù)以及早期的訓(xùn)練分?jǐn)?shù)。
審核編輯 黃昊宇
-
基準(zhǔn)測(cè)試
+關(guān)注
關(guān)注
0文章
21瀏覽量
7705 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8505瀏覽量
134662
發(fā)布評(píng)論請(qǐng)先 登錄
中軟國際智算中心成功完成華為EP方案驗(yàn)證
大模型推理顯存和計(jì)算量估計(jì)方法研究
使用修改后的基準(zhǔn)C++工具推斷灰度圖像時(shí)的推理速度慢怎么解決?
探討DeepSeek-R1滿血版的推理部署與優(yōu)化策略

《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型
NVIDIA Jetson Orin Nano開發(fā)者套件的新功能

利用Arm Kleidi技術(shù)實(shí)現(xiàn)PyTorch優(yōu)化

解鎖NVIDIA TensorRT-LLM的卓越性能
Arm KleidiAI助力提升PyTorch上LLM推理性能

Arm成功將Arm KleidiAI軟件庫集成到騰訊自研的Angel 機(jī)器學(xué)習(xí)框架
澎峰科技高性能大模型推理引擎PerfXLM解析

開箱即用,AISBench測(cè)試展示英特爾至強(qiáng)處理器的卓越推理性能

評(píng)論