智算中心運(yùn)維團(tuán)隊(duì)常陷入兩難:手動配置ECMP路徑雖能緩解哈希極化,但面對萬端口級交換機(jī)集群,單次策略調(diào)整需數(shù)百人時(shí);而動態(tài)負(fù)載均衡方案又帶來協(xié)議兼容性與部署復(fù)雜度新挑戰(zhàn)。在“精準(zhǔn)控制”與“敏捷運(yùn)維”之間尋求平衡點(diǎn),成為規(guī)模組網(wǎng)落地RoCE無損網(wǎng)絡(luò)的決勝關(guān)鍵。
什么是哈希極化?
哈希極化(Hash Polarization),亦稱哈希分布不均,本質(zhì)上是靜態(tài)哈希算法的局限性與網(wǎng)絡(luò)拓?fù)涮匦约傲髁糠植继卣鞴餐饔玫慕Y(jié)果:
1. 算法同質(zhì)化:網(wǎng)絡(luò)設(shè)備普遍采用相同或高度相似的哈希算法(如標(biāo)準(zhǔn)五元組哈希),導(dǎo)致路徑選擇缺乏隨機(jī)性;
2. 流量特征集中:當(dāng)大量數(shù)據(jù)流具有相似關(guān)鍵特征(如共享相同源/目的IP),且該特征被用作哈希主輸入時(shí),這些流會以極高概率被映射到相同路徑;
3. 拓?fù)浞糯笮?yīng):在多層ECMP架構(gòu)(如Leaf-Spine)中:
- Leaf層初步分散的流量
- 經(jīng)Spine層時(shí)因相同哈希邏輯重新聚合,形成二次極化,使流量向少數(shù)路徑傾斜;
4. 大流干擾:少數(shù)主導(dǎo)性大流量(Elephant Flows)進(jìn)一步加劇路徑負(fù)載失衡。
主動路徑規(guī)劃配置邏輯
在不引入動態(tài)負(fù)載均衡技術(shù)的情況下,我們可以通過增加參與哈希計(jì)算的因子,以及主動規(guī)范流量路徑的方式來應(yīng)對 AI 算力集群規(guī)?;渴鸬耐袋c(diǎn)(例如負(fù)載均衡和租戶隔離等),主動路徑規(guī)劃需要網(wǎng)絡(luò)工程師按照如下轉(zhuǎn)發(fā)邏輯去配置 RoCE 交換機(jī):
1. 智算服務(wù)器上每張網(wǎng)卡都對應(yīng)一個(gè)接口,服務(wù)器產(chǎn)生跨 Spine 的上行流量會在Leaf交換機(jī)判定并執(zhí)行策略路由轉(zhuǎn)發(fā)給對應(yīng) Spine
- 在1:1無收斂的情況下,Leaf 交換機(jī)的每個(gè)下行端口綁定一個(gè)上行端口
- 在 n:1 的情況下,上下行端口以倍數(shù)關(guān)系(向上取整) 形成 n:1 的映射

2. 跨 Spine 上行流量在 Spine 上按照標(biāo)準(zhǔn) L3 邏輯轉(zhuǎn)發(fā)在智算環(huán)境下的軌道組網(wǎng)中,多數(shù)流量僅在軌道內(nèi)傳輸,跨軌傳輸流量較小,網(wǎng)絡(luò)方案可以暫不考慮在 Spine 上擁塞的情況;
3. 跨 Spine 下行流量進(jìn)入 Leaf 后根據(jù) default 路由表指導(dǎo)轉(zhuǎn)發(fā)。
可以看到,以上配置邏輯若完全以手動輸入命令行的方式下發(fā)到所有交換機(jī),會是一件相當(dāng)繁瑣且耗時(shí)的事情,也容易引入配置失誤。
借助 EasyRoCE 工具配置
為加速智算場景下的路由優(yōu)化配置,此前我們有介紹過 PPD 工具(主動路徑規(guī)劃,Proactive Path Definer)的1.0 版本。如今經(jīng)過一段時(shí)間的實(shí)踐打磨,PPD 工具迎來了一輪迭代,升級到2.0版本,其主要運(yùn)行步驟如下:
1. 從 AID 工具(AI基礎(chǔ)設(shè)施藍(lán)圖規(guī)劃,AI Infrastructure Descriptor)讀取網(wǎng)絡(luò)基礎(chǔ)配置信息。
2. 運(yùn)行 PPD 工具,生成路由配置文件。
3. 在 UG 工具 (統(tǒng)一監(jiān)控面板,Unified Glancer)中展示配置文件,用戶核對并確認(rèn)配置下發(fā)。
作為 EasyRoCE 工具套件的構(gòu)成部分,PPD 可以獨(dú)立運(yùn)行在服務(wù)器上,也可以代碼形式被集成到第三方管理軟件中。
EasyRoCE Toolkit 是星融元依托開源、開放的網(wǎng)絡(luò)架構(gòu)與技術(shù),為AI 智算、超算等場景的RoCE網(wǎng)絡(luò)提供的一系列實(shí)用特性和小工具,如一鍵配置RoCE,高精度流量監(jiān)控等…所有功能對簽約客戶免費(fèi)開放。
PPD 2.0 升級了什么?
- 改善 AID 與 PPD 工具的對接流程,完全實(shí)現(xiàn)網(wǎng)絡(luò)基礎(chǔ)信息的自動化填充
- 優(yōu)化 PPD 工具的圖形界面操作體驗(yàn),配置下發(fā)進(jìn)度和結(jié)果可即時(shí)呈現(xiàn),便于管理員快速排查異常原因
- 自動集成到統(tǒng)一監(jiān)控面板(UG),與其他 RDMA 網(wǎng)絡(luò)配置信息在一處集中查看和管理
使用演示
第一步:導(dǎo)入基礎(chǔ)網(wǎng)絡(luò)信息
AID 工具是 PPD 的“數(shù)據(jù)源”,其中有一個(gè)專門的工作表存儲了 PPD 工具所依賴的所有基礎(chǔ)網(wǎng)絡(luò)信息,主要是 GPU server 各網(wǎng)卡的 IP 地址、交換機(jī)接口互聯(lián)關(guān)系和其對應(yīng)的 IP 地址等,以上都支持一鍵自動填充;此外,該工作表內(nèi)還預(yù)留有與多租戶網(wǎng)絡(luò)配置相關(guān)的標(biāo)識信息(InstanceID和 Description),管理員可按需手動填寫以便于后續(xù)管理、使用。
第二步:運(yùn)行PPD工具生成路由配置
上傳PPD相關(guān)工具到管理服務(wù)器,解壓后程序結(jié)構(gòu)如下:

運(yùn)行 start_ppd.sh 命令即可啟動PPD。
第三步:選擇下發(fā)配置
此時(shí),所有與主動路由規(guī)劃相關(guān)的信息已經(jīng)自動集成到了統(tǒng)一監(jiān)控面板,管理員登錄UG面板可以看到 PDD 工具界面。
點(diǎn)擊左上配置生成按鈕,會出現(xiàn)設(shè)備可用的配置文件(XXXX.cfg)。管理員可以查看生成配置文件詳情二次核對,確認(rèn)勾選,再點(diǎn)擊上方批量下發(fā)即可等待工具自動下發(fā)配置。
待配置全部下發(fā)完成,界面即時(shí)顯示設(shè)備當(dāng)前部署結(jié)果,失敗設(shè)備提供報(bào)錯信息,排障后可嘗試二次下發(fā)。

-
Hash
+關(guān)注
關(guān)注
0文章
33瀏覽量
13489 -
負(fù)載均衡
+關(guān)注
關(guān)注
0文章
123瀏覽量
12614 -
路徑規(guī)劃
+關(guān)注
關(guān)注
0文章
79瀏覽量
15483
發(fā)布評論請先 登錄
主動隊(duì)列管理建模及最優(yōu)控制策略
鋰電池保護(hù)板被動均衡和主動均衡
EQM系列主動均衡模塊,被動均衡輕松變主動均衡
什么是服務(wù)器網(wǎng)絡(luò)負(fù)載均衡
基于數(shù)據(jù)中心網(wǎng)絡(luò)拓?fù)涓兄?b class='flag-5'>擁塞控制算法
基于流量矩陣的負(fù)載均衡路由機(jī)制
面向SRIO網(wǎng)絡(luò)的負(fù)載均衡最短路徑路由算法
解密負(fù)載均衡技術(shù)和負(fù)載均衡算法
浮動靜態(tài)路由及負(fù)載均衡

負(fù)載均衡的策略有哪些? 負(fù)載均衡的三種方式?
如何確定適合的負(fù)載均衡比例
如何利用traceroute命令發(fā)現(xiàn)網(wǎng)絡(luò)中的負(fù)載均衡

常見網(wǎng)絡(luò)負(fù)載均衡的幾種方式
智能路徑調(diào)度:AI驅(qū)動負(fù)載均衡的異常路徑治理實(shí)踐

評論