在近日深圳召開(kāi)的以 “讓我們攜手重塑未來(lái)” 為主題的“Arm Tech Symposia年度技術(shù)大會(huì)”上,Arm 終端事業(yè)部產(chǎn)品管理副總裁 James McNiven 蒞臨現(xiàn)場(chǎng)發(fā)表了熱情洋溢的講話,并透露了Arm立下的一個(gè)小目標(biāo):到2025 年底,全球?qū)⒂谐^(guò) 1,000 億臺(tái)具備 AI 能力的 Arm 設(shè)備。這個(gè)1000億目標(biāo)可以實(shí)現(xiàn)嗎?

James McNiven 強(qiáng)調(diào)Arm一直深耕算力技術(shù)的發(fā)展,Arm在算力的探索最早可以從ARMv7 架構(gòu)(Cortex-A 系列)中引入的NEON 開(kāi)始,NEON 是 ARM 處理器架構(gòu)中的一個(gè)高級(jí) SIMD(Single Instruction Multiple Data,單指令多數(shù)據(jù))指令集擴(kuò)展,主要用于加速多媒體和信號(hào)處理任務(wù),如圖像處理、音頻解碼、視頻編解碼、以及機(jī)器學(xué)習(xí)推理等工作負(fù)載。

NEON 的設(shè)計(jì)目標(biāo)是提供高能效的向量化計(jì)算能力,使嵌入式設(shè)備能夠高效處理復(fù)雜的多媒體任務(wù),同時(shí)保持較低功耗。到2011年Arm發(fā)布ARMv8架構(gòu),NEON 進(jìn)一步優(yōu)化,用于提升多媒體和信號(hào)處理任務(wù)的性能,如圖像處理、音頻處理、以及 DSP 算法加速。ARMv8 是首個(gè)全面支持 64 位運(yùn)算的架構(gòu)。NEON 指令的寄存器擴(kuò)展為 32 個(gè) 128 位寄存器,適配 64 位數(shù)據(jù)路徑。在 ARMv8 NEON 中,支持更多整數(shù)和浮點(diǎn)操作,使得音頻解碼和視頻編解碼的效率顯著提升。在ARMv8.1-A架構(gòu)上面向 HPC(高性能計(jì)算)和 AI 加速的需求,Arm首次引入 了SVE(Scalable Vector Extension),這是 NEON 之后的一個(gè)重要向量擴(kuò)展。可擴(kuò)展向量長(zhǎng)度支持 128 位到 2048 位的動(dòng)態(tài)向量長(zhǎng)度,適應(yīng)不同算力需求。SVE 針對(duì)矩陣運(yùn)算、機(jī)器學(xué)習(xí)和科學(xué)計(jì)算進(jìn)行了優(yōu)化,特別適合向量密集型任務(wù)。
此外,它還提高了計(jì)算資源的可移植性,從移動(dòng)設(shè)備到云端計(jì)算均有支持。隨著 AI 和機(jī)器學(xué)習(xí)任務(wù)對(duì)計(jì)算需求的增長(zhǎng),2021 年發(fā)布的ARMv9 架構(gòu)加強(qiáng)了向量處理能力,引入 MVE 和 SVE2,MVE(Helium)針對(duì) Cortex-M 系列的向量擴(kuò)展,優(yōu)化了嵌入式低功耗設(shè)備的算力,適用于物聯(lián)網(wǎng)、邊緣計(jì)算中需要高能效的工作負(fù)載。SVE2在 SVE 的基礎(chǔ)上增強(qiáng)了對(duì) AI 和 DSP 的支持。新增支持 bit-manipulation 和矩陣運(yùn)算的指令集,專為 AI 推理和 5G 基站設(shè)計(jì)。這一時(shí)期,ARM 的算力架構(gòu)不僅限于 CPU,還整合了 GPU 計(jì)算加速,如 Mali 系列和最新的 Immortalis 系列,逐漸融合 CPU 和 GPU 算力。與 NEON/SVE 協(xié)同工作,GPU 負(fù)責(zé)并行計(jì)算任務(wù),而 CPU 處理串行任務(wù)。隨著AI 和機(jī)器學(xué)習(xí)的崛起,ARM 針對(duì)數(shù)據(jù)中心推出了 Neoverse 系列(如 Neoverse N2 和 V2),引入增強(qiáng)的矩陣運(yùn)算能力。它專為推理加速設(shè)計(jì),如在邊緣計(jì)算和云服務(wù)中運(yùn)行 AI 模型。在新架構(gòu)中加入對(duì) INT8 和 BF16 的高效支持,顯著提升推理性能。James McNiven 強(qiáng)調(diào)Armv9 作為 Arm 最新的技術(shù)架構(gòu),推出伊始便是為支撐 AI 計(jì)算而設(shè)計(jì),并持續(xù)迭代更新,通過(guò) SVE、SVE2、SME 等關(guān)鍵技術(shù),Arm 以架構(gòu)創(chuàng)新和強(qiáng)大的軟硬件協(xié)同能力不斷優(yōu)化移動(dòng)端 AI 體驗(yàn),賦能開(kāi)發(fā)者實(shí)現(xiàn)卓越的 AI 性能。

在會(huì)后的媒體采訪中,James表示要把握 AI 的發(fā)展機(jī)遇。Arm 通過(guò)采用系統(tǒng)級(jí)設(shè)計(jì)思維,專注硬件與軟件協(xié)同優(yōu)化,面向不同應(yīng)用市場(chǎng)推出計(jì)算子系統(tǒng) (CSS),擴(kuò)展底層技術(shù)并鞏固 AI 計(jì)算需求。與此同時(shí),Arm 持續(xù)投資創(chuàng)新軟件技術(shù),為全球 2,000 萬(wàn)開(kāi)發(fā)者提供從云到端的高效、易用、無(wú)縫開(kāi)發(fā)體驗(yàn)。此外,Arm 還通過(guò)包括全面設(shè)計(jì) (Arm Total Design) 在內(nèi)的眾多生態(tài)項(xiàng)目,協(xié)助合作伙伴加速產(chǎn)品上市進(jìn)程。

據(jù)介紹,目前全球有超過(guò) 2,000 萬(wàn)名軟件開(kāi)發(fā)者在基于 Arm 架構(gòu)的設(shè)備上構(gòu)建應(yīng)用,軟件話題也成為本次年度技術(shù)大會(huì)的焦點(diǎn)之一。Arm 在軟件方面的持續(xù)投入已取得顯著成效,正建立起全球最大的 AI 開(kāi)發(fā)者社區(qū)。本屆大會(huì)首度舉辦的開(kāi)發(fā)者工作坊收獲了參與者的熱烈響應(yīng),圍繞 Windows on Arm 原生應(yīng)用、安卓系統(tǒng)上的 LLM 推理、生成式 AI 加速等開(kāi)發(fā)者最為關(guān)注的主題,工作坊為開(kāi)發(fā)者提供了直觀的技術(shù)體驗(yàn),激發(fā)開(kāi)發(fā)者創(chuàng)新潛力的同時(shí),也為相關(guān)應(yīng)用開(kāi)發(fā)增添了新的動(dòng)力。

筆者注意到現(xiàn)場(chǎng)工程師對(duì)ARM 的 ONELab有濃厚的興趣,據(jù)ARM介紹ONELab是 ARM 針對(duì)開(kāi)發(fā)者和企業(yè)推出的一個(gè)端到端 AI 開(kāi)發(fā)與優(yōu)化平臺(tái),其目標(biāo)是幫助開(kāi)發(fā)者快速、高效地開(kāi)發(fā)、優(yōu)化和部署 AI 應(yīng)用程序,尤其是在 ARM 架構(gòu)上運(yùn)行的設(shè)備中。據(jù)介紹,ONELab 的核心在于提供一套集成工具鏈和開(kāi)發(fā)環(huán)境,專注于 AI 應(yīng)用的優(yōu)化與部署,它可以提供跨平臺(tái)開(kāi)發(fā)支持,涵蓋移動(dòng)端(如智能手機(jī))、嵌入式設(shè)備(如 IoT 設(shè)備)和數(shù)據(jù)中心(如 ARM Neoverse 服務(wù)器)。
支持主流的深度學(xué)習(xí)框架,如 TensorFlow、PyTorch 和 ONNX,通過(guò)兼容性的 API,開(kāi)發(fā)者可以無(wú)縫遷移現(xiàn)有的 AI 模型。它針對(duì) ARM 設(shè)備中的 CPU(Cortex 系列)、GPU(Mali 系列)和 NPU(神經(jīng)網(wǎng)絡(luò)處理單元) 進(jìn)行優(yōu)化。它還可以自動(dòng)調(diào)用底層硬件加速特性,例如 NEON SIMD、SVE2 向量擴(kuò)展,以及 Mali GPU 的并行計(jì)算能力。在多核環(huán)境下分配計(jì)算任務(wù),它可使模型能夠在 CPU、GPU 和 NPU 之間高效運(yùn)行。提供任務(wù)調(diào)度機(jī)制,針對(duì)不同類型的計(jì)算任務(wù)(如卷積、矩陣運(yùn)算)動(dòng)態(tài)分配資源。ONELab 主要專注于以下幾個(gè)領(lǐng)域的 AI 應(yīng)用開(kāi)發(fā):
1、邊緣 AI:物聯(lián)網(wǎng)設(shè)備:通過(guò) Cortex-M 系列低功耗 CPU 和 Helium 向量擴(kuò)展(MVE)加速嵌入式推理。實(shí)時(shí)分析:在攝像頭、傳感器等設(shè)備中,實(shí)現(xiàn)實(shí)時(shí)的視覺(jué)和語(yǔ)音識(shí)別。
2、移動(dòng)設(shè)備:智能手機(jī):通過(guò) Mali GPU 和 CPU 的協(xié)作優(yōu)化,提供高效的圖像分類、增強(qiáng)現(xiàn)實(shí)(AR)和語(yǔ)音助手功能,優(yōu)化設(shè)備端的 AI 模型性能,同時(shí)降低功耗。
3 數(shù)據(jù)中心和高性能計(jì)算:云端推理:結(jié)合 Neoverse 平臺(tái),為 AI 推理任務(wù)提供高吞吐量和低延遲的解決方案。HPC(高性能計(jì)算):支持在超級(jí)計(jì)算機(jī)或集群中部署 AI 應(yīng)用,面向深度學(xué)習(xí)訓(xùn)練和科學(xué)計(jì)算。
4、自動(dòng)駕駛與工業(yè):自動(dòng)駕駛:優(yōu)化感知算法和決策系統(tǒng),利用 ARM 平臺(tái)實(shí)現(xiàn)實(shí)時(shí)推理。工業(yè)自動(dòng)化:為機(jī)器人和工業(yè)設(shè)備中的邊緣推理提供算力支持。未來(lái),在提升算力方面Arm的SVE3 可能會(huì)加入對(duì)更復(fù)雜的 AI 和 HPC 工作負(fù)載的支持。此外,向量計(jì)算擴(kuò)展將繼續(xù)優(yōu)化能效比,為移動(dòng)和服務(wù)器市場(chǎng)服務(wù)。而隨著 AI 和機(jī)器學(xué)習(xí)的重要性增加,ARM 可能推出更多帶有 TPU 類特性的專用單元,進(jìn)一步縮小與競(jìng)爭(zhēng)對(duì)手(如 NVIDIA 和 Intel)的差距,成為多領(lǐng)域算力需求的重要支柱。James表示Arm 通過(guò)將 IP 與開(kāi)源軟件和工具乃至廣泛的行業(yè)領(lǐng)先生態(tài)系統(tǒng)相結(jié)合,讓全球 2,000 萬(wàn)開(kāi)發(fā)者都能夠使用 Arm 計(jì)算平臺(tái)作為 AI 創(chuàng)新基礎(chǔ)。有了生態(tài)伙伴的大力支持因此Arm 敢大膽地預(yù)測(cè)到 2025 年底,全球?qū)⒂谐^(guò) 1,000 億臺(tái)具備 AI 能力的 Arm 設(shè)備。
-
處理器
+關(guān)注
關(guān)注
68文章
19885瀏覽量
235076 -
ARM
+關(guān)注
關(guān)注
134文章
9349瀏覽量
377382 -
AI
+關(guān)注
關(guān)注
88文章
35093瀏覽量
279513
發(fā)布評(píng)論請(qǐng)先 登錄
四川長(zhǎng)虹24年營(yíng)收首破1000億 25年一季度歸母凈利潤(rùn)同比增長(zhǎng)96.68%
AMD一季度營(yíng)收74.4億美元超預(yù)期 AMD公布2025年第一季度財(cái)報(bào)
Arm亮相2025年游戲開(kāi)發(fā)者大會(huì)
Arm 榮登《Fast Company》2025 年度最具創(chuàng)新力AI公司榜單
2025年全球個(gè)人智能音頻市場(chǎng)出貨量將增至5.33億臺(tái)
2025年全球半導(dǎo)體市場(chǎng)將增至7050億美元
電子發(fā)燒友社區(qū)2025年春節(jié)放假通知!
Arm預(yù)測(cè)2025年芯片設(shè)計(jì)發(fā)展趨勢(shì)
Arm 技術(shù)預(yù)測(cè):2025 年及未來(lái)的技術(shù)趨勢(shì)

Arm架構(gòu)PC市場(chǎng)前景堪憂,2025年出貨量預(yù)測(cè)僅占13%
OpenAI公布2025年發(fā)展目標(biāo)
OpenAI公布2025年目標(biāo),AGI位列首位
Arm 年度技術(shù)大會(huì): 預(yù)計(jì)2025 年底,全球?qū)⒂谐^(guò) 1,000 億臺(tái)具備 AI 能力的 Arm 設(shè)備

評(píng)論