99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

從哈希極化到零擁塞:主動路徑規(guī)劃在RoCE網(wǎng)絡(luò)中的負(fù)載均衡實(shí)踐

星融元Asterfusion ? 2025-07-21 17:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

智算中心運(yùn)維團(tuán)隊(duì)常陷入兩難:手動配置ECMP路徑雖能緩解哈希極化,但面對萬端口級交換機(jī)集群,單次策略調(diào)整需數(shù)百人時(shí);而動態(tài)負(fù)載均衡方案又帶來協(xié)議兼容性與部署復(fù)雜度新挑戰(zhàn)。在“精準(zhǔn)控制”與“敏捷運(yùn)維”之間尋求平衡點(diǎn),成為規(guī)模組網(wǎng)落地RoCE無損網(wǎng)絡(luò)的決勝關(guān)鍵。

什么是哈希極化?

哈希極化(Hash Polarization),亦稱哈希分布不均,本質(zhì)上是靜態(tài)哈希算法的局限性與網(wǎng)絡(luò)拓?fù)涮匦约傲髁糠植继卣鞴餐饔玫慕Y(jié)果:

1. 算法同質(zhì)化:網(wǎng)絡(luò)設(shè)備普遍采用相同或高度相似的哈希算法(如標(biāo)準(zhǔn)五元組哈希),導(dǎo)致路徑選擇缺乏隨機(jī)性;

2. 流量特征集中:當(dāng)大量數(shù)據(jù)流具有相似關(guān)鍵特征(如共享相同源/目的IP),且該特征被用作哈希主輸入時(shí),這些流會以極高概率被映射到相同路徑;

3. 拓?fù)浞糯笮?yīng):在多層ECMP架構(gòu)(如Leaf-Spine)中:

  • Leaf層初步分散的流量
  • 經(jīng)Spine層時(shí)因相同哈希邏輯重新聚合,形成二次極化,使流量向少數(shù)路徑傾斜;

4. 大流干擾:少數(shù)主導(dǎo)性大流量(Elephant Flows)進(jìn)一步加劇路徑負(fù)載失衡。

主動路徑規(guī)劃配置邏輯

在不引入動態(tài)負(fù)載均衡技術(shù)的情況下,我們可以通過增加參與哈希計(jì)算的因子,以及主動規(guī)范流量路徑的方式來應(yīng)對 AI 算力集群規(guī)?;渴鸬耐袋c(diǎn)(例如負(fù)載均衡和租戶隔離等),主動路徑規(guī)劃需要網(wǎng)絡(luò)工程師按照如下轉(zhuǎn)發(fā)邏輯去配置 RoCE 交換機(jī):

1. 智算服務(wù)器上每張網(wǎng)卡都對應(yīng)一個(gè)接口,服務(wù)器產(chǎn)生跨 Spine 的上行流量會在Leaf交換機(jī)判定并執(zhí)行策略路由轉(zhuǎn)發(fā)給對應(yīng) Spine

  • 在1:1無收斂的情況下,Leaf 交換機(jī)的每個(gè)下行端口綁定一個(gè)上行端口
  • 在 n:1 的情況下,上下行端口以倍數(shù)關(guān)系(向上取整) 形成 n:1 的映射
wKgZO2h-BfGAYnpWAABsNuOSh8I737.png

2. 跨 Spine 上行流量在 Spine 上按照標(biāo)準(zhǔn) L3 邏輯轉(zhuǎn)發(fā)在智算環(huán)境下的軌道組網(wǎng)中,多數(shù)流量僅在軌道內(nèi)傳輸,跨軌傳輸流量較小,網(wǎng)絡(luò)方案可以暫不考慮在 Spine 上擁塞的情況;
3. 跨 Spine 下行流量進(jìn)入 Leaf 后根據(jù) default 路由表指導(dǎo)轉(zhuǎn)發(fā)。
可以看到,以上配置邏輯若完全以手動輸入命令行的方式下發(fā)到所有交換機(jī),會是一件相當(dāng)繁瑣且耗時(shí)的事情,也容易引入配置失誤。

借助 EasyRoCE 工具配置

為加速智算場景下的路由優(yōu)化配置,此前我們有介紹過 PPD 工具(主動路徑規(guī)劃,Proactive Path Definer)的1.0 版本。如今經(jīng)過一段時(shí)間的實(shí)踐打磨,PPD 工具迎來了一輪迭代,升級到2.0版本,其主要運(yùn)行步驟如下:

1. 從 AID 工具(AI基礎(chǔ)設(shè)施藍(lán)圖規(guī)劃,AI Infrastructure Descriptor)讀取網(wǎng)絡(luò)基礎(chǔ)配置信息。

2. 運(yùn)行 PPD 工具,生成路由配置文件。

3. 在 UG 工具 (統(tǒng)一監(jiān)控面板,Unified Glancer)中展示配置文件,用戶核對并確認(rèn)配置下發(fā)。

作為 EasyRoCE 工具套件的構(gòu)成部分,PPD 可以獨(dú)立運(yùn)行在服務(wù)器上,也可以代碼形式被集成到第三方管理軟件中。
EasyRoCE Toolkit 是星融元依托開源、開放的網(wǎng)絡(luò)架構(gòu)與技術(shù),為AI 智算、超算等場景的RoCE網(wǎng)絡(luò)提供的一系列實(shí)用特性和小工具,如一鍵配置RoCE,高精度流量監(jiān)控等…所有功能對簽約客戶免費(fèi)開放。

PPD 2.0 升級了什么?

  • 改善 AID 與 PPD 工具的對接流程,完全實(shí)現(xiàn)網(wǎng)絡(luò)基礎(chǔ)信息的自動化填充
  • 優(yōu)化 PPD 工具的圖形界面操作體驗(yàn),配置下發(fā)進(jìn)度和結(jié)果可即時(shí)呈現(xiàn),便于管理員快速排查異常原因
  • 自動集成到統(tǒng)一監(jiān)控面板(UG),與其他 RDMA 網(wǎng)絡(luò)配置信息在一處集中查看和管理

使用演示

第一步:導(dǎo)入基礎(chǔ)網(wǎng)絡(luò)信息

AID 工具是 PPD 的“數(shù)據(jù)源”,其中有一個(gè)專門的工作表存儲了 PPD 工具所依賴的所有基礎(chǔ)網(wǎng)絡(luò)信息,主要是 GPU server 各網(wǎng)卡的 IP 地址、交換機(jī)接口互聯(lián)關(guān)系和其對應(yīng)的 IP 地址等,以上都支持一鍵自動填充;此外,該工作表內(nèi)還預(yù)留有與多租戶網(wǎng)絡(luò)配置相關(guān)的標(biāo)識信息(InstanceID和 Description),管理員可按需手動填寫以便于后續(xù)管理、使用。

第二步:運(yùn)行PPD工具生成路由配置

上傳PPD相關(guān)工具到管理服務(wù)器,解壓后程序結(jié)構(gòu)如下:

wKgZO2h-BlaAI6N3AACrVLqNgkA455.png

運(yùn)行 start_ppd.sh 命令即可啟動PPD。

第三步:選擇下發(fā)配置

此時(shí),所有與主動路由規(guī)劃相關(guān)的信息已經(jīng)自動集成到了統(tǒng)一監(jiān)控面板,管理員登錄UG面板可以看到 PDD 工具界面。
點(diǎn)擊左上配置生成按鈕,會出現(xiàn)設(shè)備可用的配置文件(XXXX.cfg)。管理員可以查看生成配置文件詳情二次核對,確認(rèn)勾選,再點(diǎn)擊上方批量下發(fā)即可等待工具自動下發(fā)配置。
待配置全部下發(fā)完成,界面即時(shí)顯示設(shè)備當(dāng)前部署結(jié)果,失敗設(shè)備提供報(bào)錯信息,排障后可嘗試二次下發(fā)。

wKgZO2h-BneAA2R_AAYcX50EPiw687.pngEasyRoCE-PPD 工具界面概覽
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • Hash
    +關(guān)注

    關(guān)注

    0

    文章

    33

    瀏覽量

    13489
  • 負(fù)載均衡
    +關(guān)注

    關(guān)注

    0

    文章

    123

    瀏覽量

    12614
  • 路徑規(guī)劃
    +關(guān)注

    關(guān)注

    0

    文章

    79

    瀏覽量

    15483
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    主動隊(duì)列管理建模及最優(yōu)控制策略

    的變化;給定目標(biāo)函數(shù),以分組丟棄概率為控制變量,將主動隊(duì)列管理的優(yōu)化問題轉(zhuǎn)化為動態(tài)規(guī)劃問題,給出優(yōu)化策略。關(guān) 鍵 詞 主動隊(duì)列管理; 最優(yōu)控制; 路由器; 動態(tài)規(guī)劃在IP
    發(fā)表于 06-14 00:14

    鋰電池保護(hù)板被動均衡主動均衡

    。 主動均衡是以電量轉(zhuǎn)移的方式進(jìn)行均衡,效率高,損失小。不同廠家的方法不同,均衡電流也1~10?A不等。目前市場上出現(xiàn)的很多
    發(fā)表于 12-05 10:49

    EQM系列主動均衡模塊,被動均衡輕松變主動均衡

    `EQM系列主動均衡模塊是華熒技術(shù)推出的一款應(yīng)用在電池管理系統(tǒng)上的核心部件,它采用全新架構(gòu)設(shè)計(jì)實(shí)現(xiàn)電池管理的主動均衡功能。在被動
    發(fā)表于 04-26 20:02

    什么是服務(wù)器網(wǎng)絡(luò)負(fù)載均衡

    什么是服務(wù)器網(wǎng)絡(luò)負(fù)載均衡 什么是負(fù)載均衡
    發(fā)表于 01-11 10:58 ?1854次閱讀

    基于數(shù)據(jù)中心網(wǎng)絡(luò)拓?fù)涓兄?b class='flag-5'>擁塞控制算法

    分布流量請求的不相交路徑策略;然后,根據(jù)帶寬需求自適應(yīng)選取不相交路徑;最后,利用已選取路徑的剩余帶寬為權(quán)重動態(tài)調(diào)整每條路徑的流量分配比例,從而達(dá)到緩解
    發(fā)表于 12-12 13:55 ?0次下載

    基于流量矩陣的負(fù)載均衡路由機(jī)制

    基于流量矩陣的負(fù)載均衡路由(TM-LB,traffic matrix based lo ad b alanc ing)算法,供控制層根據(jù)實(shí)時(shí)網(wǎng)絡(luò)情況為后續(xù)流規(guī)劃傳輸
    發(fā)表于 02-12 11:18 ?0次下載

    面向SRIO網(wǎng)絡(luò)負(fù)載均衡最短路徑路由算法

    對SRIO網(wǎng)絡(luò)的節(jié)點(diǎn)進(jìn)行枚舉并建立網(wǎng)絡(luò)拓?fù)湫畔?,以路由跳?shù)定義路由的成本,根據(jù)改進(jìn) Floyd- Marshal算法計(jì)算并保存交換節(jié)點(diǎn)間的K最短路徑。給岀預(yù)期
    發(fā)表于 05-11 14:47 ?9次下載

    解密負(fù)載均衡技術(shù)和負(fù)載均衡算法

    負(fù)載均衡器是一種軟件或硬件設(shè)備,它起到了將網(wǎng)絡(luò)流量分散一組服務(wù)器的作用,可以防止任何一臺服務(wù)器過載。負(fù)載
    的頭像 發(fā)表于 11-12 09:16 ?1527次閱讀

    浮動靜態(tài)路由及負(fù)載均衡

    負(fù)載均衡:當(dāng)數(shù)據(jù)有多條可選路徑前往同一目的網(wǎng)絡(luò),可以通過配置相同優(yōu)先級和開銷的靜態(tài)路由來實(shí)現(xiàn)負(fù)載均衡
    的頭像 發(fā)表于 02-27 15:26 ?1836次閱讀
    浮動靜態(tài)路由及<b class='flag-5'>負(fù)載</b><b class='flag-5'>均衡</b>

    負(fù)載均衡的策略有哪些? 負(fù)載均衡的三種方式?

    請求的數(shù)量。 IP哈希(IP Hash):根據(jù)客戶端的IP地址計(jì)算哈希值,將請求分配給特定的服務(wù)器,保證相同IP的客戶端請求始終發(fā)送到同一臺服務(wù)器。 最少連接(Least Connections):將請求分配給當(dāng)前連接數(shù)最少的服務(wù)器,以實(shí)現(xiàn)
    的頭像 發(fā)表于 07-25 14:13 ?3006次閱讀

    路徑負(fù)載均衡的建議

    電子發(fā)燒友網(wǎng)站提供《多路徑負(fù)載均衡的建議.pdf》資料免費(fèi)下載
    發(fā)表于 09-01 15:31 ?0次下載
    多<b class='flag-5'>路徑</b><b class='flag-5'>負(fù)載</b><b class='flag-5'>均衡</b>的建議

    如何確定適合的負(fù)載均衡比例

    其影響以及相關(guān)策略。 什么是負(fù)載均衡比例? 在網(wǎng)絡(luò),路由器通常連接著多個(gè)網(wǎng)絡(luò)設(shè)備和服務(wù)器。當(dāng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 12-15 10:36 ?2296次閱讀

    如何利用traceroute命令發(fā)現(xiàn)網(wǎng)絡(luò)負(fù)載均衡

    網(wǎng)絡(luò)管理和故障排除,了解數(shù)據(jù)包的路徑和識別負(fù)載均衡節(jié)點(diǎn)是非常重要的。traceroute 命令是一個(gè)用于跟蹤數(shù)據(jù)包在
    的頭像 發(fā)表于 08-07 15:13 ?932次閱讀
    如何利用traceroute命令發(fā)現(xiàn)<b class='flag-5'>網(wǎng)絡(luò)</b><b class='flag-5'>中</b>的<b class='flag-5'>負(fù)載</b><b class='flag-5'>均衡</b>

    常見網(wǎng)絡(luò)負(fù)載均衡的幾種方式

    常見網(wǎng)絡(luò)負(fù)載均衡的幾種方式包括:DNS負(fù)載均衡、反向代理負(fù)載
    的頭像 發(fā)表于 03-06 11:14 ?544次閱讀

    智能路徑調(diào)度:AI驅(qū)動負(fù)載均衡的異常路徑治理實(shí)踐

    在AI驅(qū)動的數(shù)據(jù)中心網(wǎng)絡(luò)環(huán)境,傳統(tǒng)的“盡力而為”和“無差別均分”負(fù)載均衡策略已力不從心。基于路徑綜合質(zhì)量的動態(tài)WCMP機(jī)制,通過實(shí)時(shí)感知
    的頭像 發(fā)表于 07-03 16:26 ?767次閱讀
    智能<b class='flag-5'>路徑</b>調(diào)度:AI驅(qū)動<b class='flag-5'>負(fù)載</b><b class='flag-5'>均衡</b>的異常<b class='flag-5'>路徑</b>治理<b class='flag-5'>實(shí)踐</b>