隨著AI大模型訓(xùn)推集群的規(guī)模不斷擴大,Scale-up網(wǎng)絡(luò)的重要性已不限于訓(xùn)練集群側(cè),云端推理集群對于多機之間組成超節(jié)點HBD方案的需求正在逐步增加。面對其對互聯(lián)性能的極致追求,目前業(yè)內(nèi)主要采用專門設(shè)計的協(xié)議比如NVIDIA的NVLink及NVSwitch技術(shù)。在今年的GTC大會上,NVIDIA已經(jīng)明確將GPU 的HBD域互聯(lián)從72卡推進到576卡。 然而,NVIDIA的解決方案是基于私有協(xié)議,不僅成本高昂,且不對外開放。為了打破這一局面,AI網(wǎng)絡(luò)產(chǎn)業(yè)鏈在去年共同發(fā)起了UALink 加速器互聯(lián)協(xié)議聯(lián)盟,旨在推動AI網(wǎng)絡(luò)Scale-up互聯(lián)的創(chuàng)新技術(shù)發(fā)展。
奇異摩爾在2024年就加入了UALink(Ultra Accelerator Link ) 加速器間互聯(lián)協(xié)議聯(lián)盟,并積極參與UALink標(biāo)準(zhǔn)的制定。 就在本周,UALink聯(lián)盟終于迎來了1.0標(biāo)準(zhǔn)的正式發(fā)布,這一標(biāo)準(zhǔn)的發(fā)布將進一步加速AI訓(xùn)推基礎(chǔ)設(shè)施的生態(tài)完善,助力AI網(wǎng)絡(luò)的繁榮發(fā)展。
關(guān)于第一版標(biāo)準(zhǔn),UALink 聯(lián)盟董事會主席 Kurtis Bowman 表示:“隨著對 AI 計算的需求不斷增長,我們很高興能夠提供一項必不可少的開放行業(yè)標(biāo)準(zhǔn)技術(shù),使下一代 AI/ML 應(yīng)用能夠推向市場。UALink 是唯一一款針對擴展 AI 的內(nèi)存語義解決方案,它針對降低功耗、延遲和成本進行了優(yōu)化,同時增加了有效帶寬。UALink 200G 1.0 規(guī)范帶來的突破性性能將徹底改變云服務(wù)提供商、系統(tǒng) OEM 和 IP/芯片提供商處理 AI 工作負(fù)載的方式。
UALink 協(xié)議棧包括四個硬件優(yōu)化層:物理層(physical)、數(shù)據(jù)鏈路層(data link)、事務(wù)層(transaction)和協(xié)議層(protocol)。
基于內(nèi)存語義的快速GPU HBM訪問
(圖:UALink Specification 1.0Rev)
和其他Scale-up生態(tài)有所區(qū)別的是UALink從誕生那刻起就是基于內(nèi)存語義。上述表格描述了兩個基于UALink的系統(tǒng)節(jié)點通過UAL交換機實現(xiàn)互聯(lián)。在這個Domain中,CPU Host可通過CXL, PCIe, AMD Infinity Fabric, XGMI等協(xié)議與GPU加速器互聯(lián)?;赨ALink協(xié)議,GPU之間通過UAlink Switch交換機與HBD域內(nèi)的其他GPU互聯(lián)。
圖中特別突出的是紅線所指示的部分,在該HBD Domain中的任意GPU 都可以訪問其他GPU的HBM,從而實現(xiàn)加速器之間的快速讀取和寫入,相較于消息語義,它的通信和互聯(lián)效率是非常高的。
奇異摩爾作為Scale-up網(wǎng)絡(luò)主要芯粒提供商自研的 NDSA-G2G IO Die 未來將支持內(nèi)存語義,通過與UAlink生態(tài)適配,建立更完善的內(nèi)存語義互聯(lián)系統(tǒng)。
物理層特點Physical Layer
(圖:UALink Specification 1.0Rev)
UALink 物理層基于 802.3 以太網(wǎng)物理層。UALink 定義了 1、2 或 4 個串行通道,運行速率為 212.5Gbps(200GBASE-KR1/CR1、400GBASE-KR2/CR2、800GBASE-KR4/CR4)。物理層包括了使用 FEC 減少延遲的修改。該以太網(wǎng)物理層具有標(biāo)準(zhǔn)的前向 (FEC) 并遵循 IEEE P802.3dj 規(guī)范。通過單向和雙向碼字交錯,讓延遲得到改善,并且有一點變化以支持 680 字節(jié)的 flit。(Flit 或流控制單元是鏈路級別的原子數(shù)據(jù)單元)
在 PCI-Express 6.0 中,控制該標(biāo)準(zhǔn)(并且主要由英特爾主導(dǎo))的 PCI-SIG 組織,并沒有僅僅實現(xiàn)標(biāo)準(zhǔn)的 FEC,而新的FEC是轉(zhuǎn)向了一種流量控制和循環(huán)冗余檢查 (CRC) 錯誤檢測的混合方式,實際上提高了信號傳輸?shù)目煽啃?,同時降低了延遲。這樣的一些機制被 UALink 采納,并且許多對于內(nèi)存架構(gòu)來說不必要的東西并沒有包含在其中從而輕量化了該協(xié)議。
數(shù)據(jù)鏈路層特點Data Link Layer
(圖:UALink Specification 1.0Rev)
數(shù)據(jù)鏈路層位于事務(wù)層和物理層之間。數(shù)據(jù)鏈路層將事務(wù)層的 64 字節(jié) Flit 打包成物理層的 640 字節(jié) Flit。數(shù)據(jù)鏈路層還提供鏈接伙伴之間在數(shù)據(jù)鏈路層發(fā)起和終止的消息服務(wù)。消息服務(wù)用于宣傳事務(wù)層速率、查詢連接鏈路伙伴上的設(shè)備和端口 ID 以及其他功能。消息服務(wù)還提供鏈接伙伴之間的 UART 式通信,用于固件通信。鏈路級重放是基于 640 字節(jié) Flit 提供的。計算并檢查 32 位 CRC,并且是 640 字節(jié) Flit 的一部分。此外Link Level Replay的功能確保了物理層 FEC 無法糾正的比特錯誤存在的情況下,DL Flits 的有序傳遞。發(fā)送器保留有效負(fù)載 Flits的副本,直到接收器確認(rèn)它們。
事務(wù)層特點Transaction Layer
(圖:UALink Specification 1.0Rev)
UALink 1.0 Spec實現(xiàn)壓縮尋址,在實際工作負(fù)載下以高達 95% 的協(xié)議效率簡化數(shù)據(jù)傳輸。它支持直接內(nèi)存操作,例如加速器之間的讀取、寫入和原子事務(wù)(atomic transactions),從而保留本地和遠程內(nèi)存空間之間的順序。
協(xié)議層特點Protocol Layer
(圖:UALink Specification 1.0Rev)
UALink 的協(xié)議層稱為 UALink 協(xié)議級接口 (UPLI)。UPLI 定義了一個邏輯信號接口和協(xié)議,通過該協(xié)議,設(shè)備可以通過一組請求和響應(yīng)消息交換數(shù)據(jù)和控制信息。UALink 規(guī)范完全定義了 UPLI 協(xié)議,并期望遵循該協(xié)議的實現(xiàn)將與 UALink 交換機兼容。UPLI 協(xié)議具有內(nèi)置的靈活性,允許供應(yīng)商創(chuàng)建自定義協(xié)議消息,用于相同類型的加速器之間的通信,而無需對 UALink 交換機進行任何修改。UALink 協(xié)議級接口是主要接口,實現(xiàn)可能在此基礎(chǔ)上開發(fā),通常使用第三方供應(yīng)商提供的堆棧其余部分的 IP。
協(xié)議輕量化降低數(shù)據(jù)中心功耗
UALink的一個非常突出的特點就是整體設(shè)計簡單輕量化。據(jù)悉,UALink 的功耗僅為同等以太網(wǎng) ASIC 芯片面積的一半到三分之一(每個端口),并且每個內(nèi)存結(jié)構(gòu)加速器可節(jié)省 150 瓦到 200 瓦的功耗。更小的芯片尺寸意味著更便宜的芯片,更低的功耗意味著更少的電力和冷卻消耗,從而降低整體 TCO。
UALink如何在中國市場落地
UALink國際互聯(lián)系統(tǒng)開發(fā)標(biāo)準(zhǔn)在中國的應(yīng)用落地,需要產(chǎn)業(yè)鏈上下游的協(xié)同配合。因此,聯(lián)盟成員囊括了國內(nèi)芯片制造商、以奇異摩爾為代表的芯粒廠商,以及交換機提供商等關(guān)鍵角色。在今年的ODCC春季全體會議上,ODCC新測組組長郭亮與UALink董事會成員孔陽博士簽署了MOU合作備忘錄,這標(biāo)志著國內(nèi)AI網(wǎng)絡(luò)Scale-up技術(shù)創(chuàng)新與應(yīng)用將步入快車道。
奇異摩爾作為ALS系統(tǒng)及UALink聯(lián)盟的生態(tài)成員,正與阿里云等頭部云廠商、GPU廠商通力合作,通過制定生態(tài)標(biāo)準(zhǔn)、提供GPU IO Die(NDSA-G2G)等解決方案,加速國產(chǎn)大模型訓(xùn)練推理技術(shù)的發(fā)展。
關(guān)于我們
AI網(wǎng)絡(luò)全棧式互聯(lián)架構(gòu)產(chǎn)品及解決方案提供商
奇異摩爾,成立于2021年初,是一家行業(yè)領(lǐng)先的AI網(wǎng)絡(luò)全棧式互聯(lián)產(chǎn)品及解決方案提供商。公司依托于先進的高性能RDMA 和Chiplet技術(shù),創(chuàng)新性地構(gòu)建了統(tǒng)一互聯(lián)架構(gòu)——Kiwi Fabric,專為超大規(guī)模AI計算平臺量身打造,以滿足其對高性能互聯(lián)的嚴(yán)苛需求。
我們的產(chǎn)品線豐富而全面,涵蓋了面向不同層次互聯(lián)需求的關(guān)鍵產(chǎn)品,如面向北向Scale out網(wǎng)絡(luò)的AI原生智能網(wǎng)卡、面向南向Scale up網(wǎng)絡(luò)的GPU片間互聯(lián)芯粒、以及面向芯片內(nèi)算力擴展的2.5D/3D IO Die和UCIe Die2Die IP等。這些產(chǎn)品共同構(gòu)成了全鏈路互聯(lián)解決方案,為AI計算提供了堅實的支撐。
奇異摩爾的核心團隊匯聚了來自全球半導(dǎo)體行業(yè)巨頭如NXP、Intel、Broadcom等公司的精英,他們憑借豐富的AI互聯(lián)產(chǎn)品研發(fā)和管理經(jīng)驗,致力于推動技術(shù)創(chuàng)新和業(yè)務(wù)發(fā)展。團隊擁有超過50個高性能網(wǎng)絡(luò)及Chiplet量產(chǎn)項目的經(jīng)驗,為公司的產(chǎn)品和服務(wù)提供了強有力的技術(shù)保障。我們的使命是支持一個更具創(chuàng)造力的芯世界,愿景是讓計算變得簡單。奇異摩爾以創(chuàng)新為驅(qū)動力,技術(shù)探索新場景,生態(tài)構(gòu)建新的半導(dǎo)體格局,為高性能AI計算奠定穩(wěn)固的基石。
-
加速器
+關(guān)注
關(guān)注
2文章
827瀏覽量
39127 -
AI
+關(guān)注
關(guān)注
88文章
35164瀏覽量
280033 -
奇異摩爾
+關(guān)注
關(guān)注
0文章
61瀏覽量
3739
原文標(biāo)題:生態(tài)共建 | UALink 加速器互聯(lián)協(xié)議聯(lián)盟1.0版本正式發(fā)布
文章出處:【微信號:奇異摩爾,微信公眾號:奇異摩爾】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
奇異摩爾田陌晨榮獲中國半導(dǎo)體行業(yè)領(lǐng)軍人物獎
奇異摩爾邀您相約2025中國AI算力大會
奇異摩爾以互聯(lián)之長推進OISA GPU卡間互聯(lián)生態(tài)適配

奇異摩爾受邀出席第三屆HiPi Chiplet論壇
衢州市領(lǐng)導(dǎo)蒞臨奇異摩爾考察調(diào)研
蘋果加入UALink聯(lián)盟,共推AI加速器新標(biāo)準(zhǔn)
奇異摩爾分享計算芯片Scale Up片間互聯(lián)新途徑

回顧:奇異摩爾@ ISCAS 2024 :聚焦互聯(lián)技術(shù)與創(chuàng)新實踐

評論