99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ETH-X超節(jié)點:開辟AI算力約束突破的新路徑

SDNLAB ? 來源:SDNLAB ? 2024-11-09 10:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

面對人工智能大模型的迅速發(fā)展及其對算力資源的急劇增長需求,單芯片性能提升遭遇瓶頸,同時通過Scale Out策略擴展多機集群以增加算力也遇到了局限性。在此背景下,中國信通院與騰訊攜手GPU、CPU、交換機芯片制造商、服務(wù)器供應(yīng)商、網(wǎng)絡(luò)設(shè)備廠商及互聯(lián)網(wǎng)企業(yè)等多方力量,共同發(fā)起超大帶寬ETH-X(以太網(wǎng))超節(jié)點計劃,旨在通過技術(shù)創(chuàng)新與行業(yè)合作,構(gòu)建開放可擴展的HBD(高帶寬域)超節(jié)點系統(tǒng)樣機,探索AI算力提升新途徑,為構(gòu)建ETH-X超節(jié)點互聯(lián)開放協(xié)作產(chǎn)業(yè)生態(tài)提供支撐。同時,將共同編制相關(guān)技術(shù)規(guī)范,為行業(yè)樹立標(biāo)準(zhǔn),引導(dǎo)超節(jié)點技術(shù)高質(zhì)發(fā)展。

AI大模型發(fā)展與算力需求

AI大模型的發(fā)展依賴于持續(xù)提升算力。根據(jù)Scaling Law(規(guī)模定理),增大模型規(guī)模與增加訓(xùn)練數(shù)據(jù)量是直接提升AI大模型智能水平與性能的關(guān)鍵途徑。但對集群算力需求的將呈指數(shù)級增長。

長序列是AI大模型發(fā)展的另一個重要方向。長序列提高AI大模型回答問題的質(zhì)量、處理復(fù)雜任務(wù)的能力以及更強的記憶力和個性化能力的同時,也會加大對訓(xùn)練和推理算力資源的需求1,尤其是對顯存資源的需求。因此滿足AI大模型發(fā)展需求,算力能力的持續(xù)提升成為一個重要基礎(chǔ)。

f5b523e4-903e-11ef-a511-92fbcf53809c.png

f5d925fa-903e-11ef-a511-92fbcf53809c.png

圖1 長序列帶來的準(zhǔn)確率收益以及顯存需求

單芯片算力提升遇阻、

scale out集群算力提升受限

當(dāng)前,提升集群算力已面臨一些明顯的制約因素。首先,單芯片性能提升受到HBM容量帶寬增長趕不上算力增長速度的限制,內(nèi)存墻問題制約算法發(fā)揮。如在典型模型與并行方式下,Nvidia Hopper一代芯片的有效算力(HFU)明顯低于Ampere一代芯片,如圖2所示。另一種通過Scale out擴展集群規(guī)模提升整體算力的方式也受到GBS(Global Batch Size)不能無限增長的限制,導(dǎo)致在集群規(guī)模增大到一定程度后,HFU出現(xiàn)明顯下降。最后,模型參數(shù)量增大需要更大的模型并行規(guī)模,模型并行中Tensor并行或MOE類型的Expert并行都會在GPU之間產(chǎn)生大量的通信,并且這部分通信很難與計算進行overlap。而當(dāng)前典型一機八卡服務(wù)器限制了Tensor并行的規(guī)模或Expert并行通過機間網(wǎng)絡(luò),這都會導(dǎo)致HFU無法提高。

f60dbb1c-903e-11ef-a511-92fbcf53809c.png

圖2 不同型號GPU以及不同規(guī)模集群對HFU的影響

通過scale up擴大HBD(超帶寬域)的超節(jié)點成為突破方向

HBD(High Bandwidth Domain)是一組以超帶寬(HB)互聯(lián)GPU-GPU的系統(tǒng)2。HBD內(nèi)GPU-GPU通信帶寬是HBD之間GPU-GPU通信帶寬的數(shù)倍。如Nvidia H100 提供900GBps HB帶寬,HBD間GPU-GPU通信帶寬只有100GBps。因此在模型并行中將數(shù)據(jù)量大、無法overlap的部分限制在一個HBD內(nèi)完成。

當(dāng)前,HBD限制在一臺服務(wù)器內(nèi),典型1機8卡服務(wù)器是8張GPU卡之間通過某種HB連接技術(shù)實現(xiàn)互聯(lián),構(gòu)成一個HBD=8的系統(tǒng)。然而更大的參數(shù)規(guī)模、更長的序列長度、更多的MOE專家數(shù)量、更大的集群規(guī)模,都造成了更多的通信數(shù)據(jù)量。HBD=8的情況下,大量的數(shù)據(jù)通信均需經(jīng)過HBD間的scale out網(wǎng)絡(luò),因此通信占比提高、HFU下降的問題凸顯。

通過構(gòu)建更大的HBD系統(tǒng),以scale up方式提升系統(tǒng)算力是解決上述問題的有效途徑之一。如MIT與Meta的研究論文中,通過建模分析3,論證了擴大HBD對訓(xùn)練性能的提升效果。另外,Nvidia也實現(xiàn)了不同規(guī)模HBD系統(tǒng)并進行了部署與驗證4。

f633b646-903e-11ef-a511-92fbcf53809c.png

f65e4974-903e-11ef-a511-92fbcf53809c.png

圖3 HBD超節(jié)點典型代表與業(yè)務(wù)收益舉例

Nvidia將HB互聯(lián)不僅用于GPU-GPU之間,而是將其應(yīng)用到GPU-CPU/Memory的超大帶寬互聯(lián),例如GH200、GB200產(chǎn)品。通過此方式為GPU提供一個超帶寬訪問CPU/Memory的能力。

Nvidia產(chǎn)品具備支持GPU-CPU/Memory的統(tǒng)一內(nèi)存編制以及GPU通過內(nèi)存語義接口read/write直接訪問CPU/Memory的能力,具有更高效、更直接的特點。但其同步操作的方式會對時延進行限制,制約可訪問CPU/Memory的距離與容量。另外,目前的軟件生態(tài)中,未有支持直接通過內(nèi)存語義訪問CPU/Memory的系統(tǒng)。

相反若使用異步的memory offload方式將降低對時延的約束,并發(fā)利用多節(jié)點CPU/Memory,發(fā)揮HB互聯(lián)的帶寬優(yōu)勢。另外,當(dāng)前memory offload已具備一定軟件生態(tài)上的基礎(chǔ),例如Zero offload5。

綜上所述,超節(jié)點是一個以超大帶寬(HB)互聯(lián)16卡以上GPU-GPU以及GPU-CPU/Memory的scale up系統(tǒng),以HBD超節(jié)點為單位,通過傳統(tǒng)scale out擴展方式可形成更大規(guī)模、更高效的算力集群。超節(jié)點Scale Up的核心需求是超大帶寬(HB),但規(guī)模不需要很大。Scale Out的核心需求是超大規(guī)模。因此Scale Up網(wǎng)絡(luò)與Scale Out網(wǎng)絡(luò)更適合是相互獨立共存的兩張網(wǎng)絡(luò)。

f6866990-903e-11ef-a511-92fbcf53809c.png

圖4 Scale Up超大帶寬與Scale Out超大規(guī)模共同構(gòu)建高算力AI集群

ODCC ETH-X計劃構(gòu)建開放超節(jié)點產(chǎn)業(yè)生態(tài)

超節(jié)點的核心是HB互聯(lián)技術(shù),當(dāng)前工業(yè)界已實現(xiàn)的超節(jié)點系統(tǒng)均是采用私有技術(shù)與協(xié)議實現(xiàn)HB互聯(lián),例如Nvidia的NVLINK。但此類私有技術(shù)與協(xié)議由單一企業(yè)進行維護,無法保證技術(shù)長期、高效的發(fā)展。另外,從HBD超節(jié)點產(chǎn)品完善角度也無法保證系統(tǒng)的開放,導(dǎo)致無法形成良性、開放的產(chǎn)業(yè)生態(tài)。

以太網(wǎng)技術(shù)憑借開放的生態(tài)、多樣的產(chǎn)業(yè)鏈環(huán)境,為技術(shù)的長期演進發(fā)展提供支撐。當(dāng)前以太網(wǎng)技術(shù)上從端口帶寬及交換容量方面已具有較強的競爭基礎(chǔ)。如以太網(wǎng)單端口800G MAC標(biāo)準(zhǔn)已成熟并產(chǎn)業(yè)化,以太網(wǎng)單芯片51.2T交換容量 ETH-switch也已在2023年產(chǎn)品化商用。

目前,以太網(wǎng)HB接口GPU產(chǎn)品的日益豐富,HBD超節(jié)點系統(tǒng)正逐步依托于以太網(wǎng)互聯(lián)技術(shù),實現(xiàn)向更為模塊化、多元化的結(jié)構(gòu)轉(zhuǎn)型,有效促進了多方廠商的積極參與,各廠商專精于系統(tǒng)內(nèi)的不同組件或子系統(tǒng)開發(fā),顯著提升了HBD超節(jié)點產(chǎn)品化的多樣性和方案的豐富度,為HBD超節(jié)點技術(shù)長期演進奠定穩(wěn)固基石,確保其在應(yīng)對未來挑戰(zhàn)時能夠持續(xù)進化,保持領(lǐng)先的技術(shù)競爭力與生態(tài)活力。

f6c070b8-903e-11ef-a511-92fbcf53809c.png

f6f73b34-903e-11ef-a511-92fbcf53809c.png

圖5 ETH-X超節(jié)點參考架構(gòu)與預(yù)期收益評估

f721f7d4-903e-11ef-a511-92fbcf53809c.png

圖6 ETH-X技術(shù)規(guī)范構(gòu)成與項目計劃

為推動算力產(chǎn)業(yè)的發(fā)展,ODCC網(wǎng)絡(luò)組啟動了ETH-X超節(jié)點系列項目。該項目由中國信通院、騰訊聯(lián)合快手科技、燧原科技、壁仞科技、華勤技術(shù)、銳捷網(wǎng)絡(luò)、新華三、云豹智能、云合智網(wǎng)、盛科通信、立訊精密、光迅科技等合作伙伴共同推動,以產(chǎn)品化樣機以及相關(guān)技術(shù)規(guī)范為目標(biāo),打造大型多GPU互聯(lián)算力集群系統(tǒng)。該項目計劃在2025年秋季前完成ETH-X超節(jié)點樣機軟硬件研發(fā)與相關(guān)業(yè)務(wù)系統(tǒng)驗證測試,同時發(fā)布ETH-X超節(jié)點技術(shù)規(guī)范1.0。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35165

    瀏覽量

    280076
  • 人工智能
    +關(guān)注

    關(guān)注

    1807

    文章

    49029

    瀏覽量

    249617
  • 算力
    +關(guān)注

    關(guān)注

    2

    文章

    1201

    瀏覽量

    15660

原文標(biāo)題:ETH-X超節(jié)點:探索突破AI算力約束的新途徑

文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    立訊技術(shù)解讀ETH-X節(jié)點高速互連技術(shù)的現(xiàn)狀與未來

    當(dāng)前,人工智能技術(shù)驅(qū)動全球數(shù)據(jù)中心向智中心加速演進,傳統(tǒng)架構(gòu)在承載AI大模型訓(xùn)練時暴露出顯著瓶頸--資源調(diào)度碎片化、異構(gòu)協(xié)同低效、能源利用率不足等問題。在此背景下,行業(yè)亟需通過技
    的頭像 發(fā)表于 07-03 09:44 ?564次閱讀
    立訊技術(shù)解讀<b class='flag-5'>ETH-X</b><b class='flag-5'>超</b><b class='flag-5'>節(jié)點</b>高速互連技術(shù)的現(xiàn)狀與未來

    云XR(AR/VR)底座關(guān)鍵特征與技術(shù)路徑

    據(jù)處理,依托AIDC(人工智能數(shù)據(jù)中心)提供智能,2024年中國智能增速65%。 邊緣節(jié)點
    的頭像 發(fā)表于 06-19 08:10 ?153次閱讀
    云XR(AR/VR)<b class='flag-5'>算</b><b class='flag-5'>力</b>底座關(guān)鍵特征與技術(shù)<b class='flag-5'>路徑</b>

    軟通智完成億級A輪融資,加速AI產(chǎn)業(yè)布局

    北京 2025年6月18日 /美通社/ -- 近日,軟通動力旗下軟通智科技(廣東)集團有限公司(以下簡稱"軟通智")完成億級A輪融資,本輪融資由盛景嘉成創(chuàng)投領(lǐng)投,廣發(fā)信德、毅達資本等多家知名
    的頭像 發(fā)表于 06-18 15:37 ?169次閱讀

    奇異摩爾邀您相約2025中國AI大會

    在2025中國AI大會上,奇異摩爾首席網(wǎng)絡(luò)架構(gòu)專家葉棟將帶來“AI原生時代 —共筑節(jié)點的網(wǎng)
    的頭像 發(fā)表于 06-17 17:49 ?701次閱讀

    華為云黃瑾:昇騰云CloudMatrix 384節(jié)點六大科技創(chuàng)新,定義下一代AI基礎(chǔ)設(shè)施

    難以支撐 AI 技術(shù)的代際躍遷,節(jié)點架構(gòu)的誕生不僅是技術(shù)的突破,更是以工程化創(chuàng)新開辟 AI 產(chǎn)
    的頭像 發(fā)表于 05-17 10:31 ?1096次閱讀

    華為云節(jié)點創(chuàng)新基礎(chǔ)設(shè)施,推動千行萬業(yè)AI應(yīng)用開發(fā)落地

    近日,“逐光向新·智領(lǐng)未來”華為云 AI 峰會于北京成功舉辦。大會期間,華為云面向客戶伙伴詳細介紹了 CloudMartix 384 節(jié)點的創(chuàng)新技術(shù)優(yōu)勢,并與在場嘉賓共同探討如何加速 AI
    的頭像 發(fā)表于 05-17 10:30 ?1027次閱讀

    DeepSeek推動AI需求:800G光模塊的關(guān)鍵作用

    集群的部署過程中,帶寬瓶頸成為制約發(fā)揮的關(guān)鍵因素,而光模塊的速率躍升成為突破這一瓶頸的核心驅(qū)動力。 光模塊速率躍升 隨著
    發(fā)表于 03-25 12:00

    接棒,慧榮科技以主控技術(shù)突破AI存儲極限

    電子發(fā)燒友網(wǎng)報道(文/黃山明)在AI的高速增長下,尤其是以DeepSeek為代表的AI大模型推動存儲需求激增,增長倒逼存升級。而存儲是
    的頭像 發(fā)表于 03-19 01:29 ?1797次閱讀
    存<b class='flag-5'>力</b>接棒<b class='flag-5'>算</b><b class='flag-5'>力</b>,慧榮科技以主控技術(shù)<b class='flag-5'>突破</b><b class='flag-5'>AI</b>存儲極限

    信而泰CCL仿真:解鎖AI極限,智中心網(wǎng)絡(luò)性能躍升之道

    中心RoCE網(wǎng)絡(luò)提供精準(zhǔn)評估方案,助力企業(yè)突破瓶頸,釋放AI澎湃動力! 什么是智中心 智
    的頭像 發(fā)表于 02-24 17:34 ?452次閱讀
    信而泰CCL仿真:解鎖<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>極限,智<b class='flag-5'>算</b>中心網(wǎng)絡(luò)性能躍升之道

    大模型遭遇墻,探索超級應(yīng)用的發(fā)展路徑

    最近,開源中國 OSCHINA、Gitee 與 Gitee AI? 全文如下: 大模型撞上 “墻”,超級應(yīng)用的探尋之路 文 / 傅聰 近日,大模型教父 Sam Altman 在 Reddit 上
    的頭像 發(fā)表于 02-10 17:24 ?1184次閱讀
    大模型遭遇<b class='flag-5'>算</b><b class='flag-5'>力</b>墻,探索超級應(yīng)用的發(fā)展<b class='flag-5'>路徑</b>

    寧暢AI服務(wù)器全面支持DeepSeek大模型

    DeepSeek憑“以小博大”火爆全球,為AI大模型賽道開辟了一條低成本實現(xiàn)高性能訓(xùn)練的新路徑,撬動巨大的模型推訓(xùn)需求。縱觀力戰(zhàn)場,不同段位玩家需求各有不同。
    的頭像 發(fā)表于 02-10 10:34 ?959次閱讀

    企業(yè)AI租賃模式的好處

    構(gòu)建和維護一個高效、可擴展的AI基礎(chǔ)設(shè)施,不僅需要巨額的初期投資,還涉及復(fù)雜的運維管理和持續(xù)的技術(shù)升級。而AI
    的頭像 發(fā)表于 12-24 10:49 ?1217次閱讀

    奇異摩爾分享計算芯片Scale Up片間互聯(lián)新途徑

    開放數(shù)據(jù)中心委員會ODCC冬季全員會議于12月4日-6日在春暖花開的昆明舉行。奇異摩爾首席系統(tǒng)架構(gòu)師朱琛作為網(wǎng)絡(luò)工作組ETH-X節(jié)點項目的核心成員分享了AI Networking S
    的頭像 發(fā)表于 12-09 09:36 ?1516次閱讀
    奇異摩爾分享計算芯片Scale Up片間互聯(lián)新途徑

    企業(yè)AI租賃是什么

    企業(yè)AI租賃是指企業(yè)通過互聯(lián)網(wǎng)向?qū)I(yè)的提供商租用所需的計算資源,以滿足其AI應(yīng)用的需求。
    的頭像 發(fā)表于 11-14 09:30 ?2411次閱讀