2022年7月,在山東濟南舉行的2022中國算力大會上,紫金山實驗室研究員高新平作了“基于無損數(shù)據(jù)中心的AI訓練網(wǎng)絡均衡技術實踐”的主題演講。
紫金山實驗室是江蘇省和南京市共同推進建設的重大科技創(chuàng)新平臺。紫金山實驗室面向網(wǎng)絡通信與安全領域國家重大戰(zhàn)略需求,以引領全球信息科技發(fā)展方向、解決行業(yè)重大科技問題為使命,通過聚集全球高端人才,開展前瞻性、基礎性研究,力圖突破關鍵核心技術,開展重大示范應用,促進成果在國家經濟建設中落地。紫金山實驗室力圖成為國家科技創(chuàng)新的重要力量,建成具有世界一流水平的戰(zhàn)略科技創(chuàng)新基地。
紫金山實驗室與華為依托紫金山實驗室無損數(shù)據(jù)中心展開面向AI訓練場景的網(wǎng)絡均衡技術的聯(lián)合創(chuàng)新,解決AI集群中網(wǎng)絡負載不均而導致的AI訓練任務性能下降的問題。
高新平研究員指出AI訓練使用的集合通信算法,當前主流的有Ring算法、Tree算法和Halving Doubling算法等,在運行時通信流量都呈現(xiàn)出了共同的特征:周期性、流數(shù)量少、長連接,并行任務間有強實時同步性要求,通信效率取決于最慢的節(jié)點。同時,AI訓練時,各節(jié)點之間傳輸?shù)臄?shù)據(jù)量大。以上這些流量特性使計算集群網(wǎng)絡容易出現(xiàn)負載不均導致AI訓練任務性能下降的問題。
現(xiàn)有網(wǎng)絡均衡的主流技術大體分為三種,逐流ECMP均衡、基于子流flowlet均衡和逐包的負載分擔均衡。逐流ECMP均衡技術,是當前最為常用的負載均衡算法,適用于流鏈接較多場景,它優(yōu)勢在于無亂序,劣勢在于流數(shù)量較少時,例如AI訓練場景下,存在HASH沖突問題,網(wǎng)絡均衡效果不佳。基于子流flowlet均衡技術,它依賴于子流之間的時間間隔GAP值的正確配置來實現(xiàn)均衡,但全局路徑級時延信息不可知、無法配置,且存在接收端側亂序的問題。逐包的負載分擔均衡技術,理論均衡度最好,但實際在接收端側存在大量報文亂序問題,現(xiàn)實中幾乎無使用案例。
發(fā)表“基于無損數(shù)據(jù)中心的AI訓練網(wǎng)絡均衡技術實踐”主題演講
在紫金山實驗室無損數(shù)據(jù)中心AI訓練集群中驗證了華為創(chuàng)新的網(wǎng)絡均衡技術NSLB(Network Service Load Balance)。基于華為交換芯片高精度telemetry能力,采集流量矩陣作為路由算法輸入,用以控制AI流量的轉發(fā)路徑,避免負載不均,提升AI訓練效率。
Ring算法場景,運行單個計算任務下,使用NSLB技術對比典型ECMP負載分擔技術,網(wǎng)絡實現(xiàn)100%均衡、平均鏈路利用率34%、比ECMP提升35%,AI訓練集性能最高提升113.41%;
Ring算法場景,同時運行兩個計算任務下,使用NSLB技術對比典型ECMP負載分擔技術,網(wǎng)絡實現(xiàn)100%均衡、平均鏈路利用率29%、比ECMP提升15.6%,AI訓練集性能最高提升57.29%;
Tree算法場景下,運行單個計算任務下,使用NSLB技術對比典型ECMP負載分擔技術,網(wǎng)絡實現(xiàn)100%均衡、平均鏈路利用率13.8%、比ECMP提升1%,AI訓練集性能最高提升6.50%;
Tree算法場景下,運行兩個計算任務下,使用NSLB技術對比典型ECMP負載分擔技術,網(wǎng)絡實現(xiàn)100%均衡、平均鏈路利用率14%、比ECMP提升10.5%,AI訓練集性能最高提升15.81%。
未來,紫金山實驗將與華為在無損數(shù)據(jù)中心網(wǎng)絡領域就網(wǎng)絡新拓撲、DCN高性能互聯(lián)等方向展開持續(xù)的聯(lián)合創(chuàng)新,推動無損數(shù)據(jù)中心網(wǎng)絡在低時延、高吞吐等方向進一步的發(fā)展,為高算力提供強有力的底座。
-
數(shù)據(jù)中心
+關注
關注
16文章
5228瀏覽量
73511 -
AI
+關注
關注
88文章
35117瀏覽量
279667 -
網(wǎng)絡通信
+關注
關注
4文章
825瀏覽量
31048
原文標題:2022中國算力大會 | 基于無損數(shù)據(jù)中心的AI訓練網(wǎng)絡均衡技術實踐
文章出處:【微信號:Huawei_Fixed,微信公眾號:華為數(shù)據(jù)通信】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
智能路徑調度:AI驅動負載均衡的異常路徑治理實踐

中型數(shù)據(jù)中心中的差分晶體振蕩器應用與匹配方案
數(shù)據(jù)中心和通信網(wǎng)絡有什么區(qū)別

華為面向亞太地區(qū)發(fā)布全新星河AI數(shù)據(jù)中心網(wǎng)絡方案
華為面向中東中亞地區(qū)發(fā)布全新星河AI數(shù)據(jù)中心網(wǎng)絡
是德科技推出AI數(shù)據(jù)中心構建器以驗證和優(yōu)化網(wǎng)絡架構和主機設計
是德科技推出AI數(shù)據(jù)中心構建器
適用于數(shù)據(jù)中心和AI時代的800G網(wǎng)絡
華為攜手中控技術打造全國數(shù)據(jù)中心網(wǎng)絡創(chuàng)新示范項目
華為全新升級星河AI數(shù)據(jù)中心網(wǎng)絡
優(yōu)化800G數(shù)據(jù)中心:高速線纜、有源光纜和光纖跳線解決方案
Cadence顛覆AI數(shù)據(jù)中心設計
NIDA發(fā)布《智算數(shù)據(jù)中心網(wǎng)絡建設技術要求》
Meta AI數(shù)據(jù)中心網(wǎng)絡用了哪家的芯片

評論