想象一下,在AI訓(xùn)練、高性能計(jì)算、分布式存儲(chǔ)的“心臟”——數(shù)據(jù)中心網(wǎng)絡(luò)里,RoCEv2(RDMA over Converged Ethernet v2)正以驚人的速度傳輸著海量數(shù)據(jù)。它繞過(guò)了操作系統(tǒng)內(nèi)核,讓?xiě)?yīng)用直通網(wǎng)卡,速度飆升!但高速也伴隨著風(fēng)險(xiǎn):網(wǎng)絡(luò)一旦擁塞,數(shù)據(jù)包丟失,整個(gè)高性能應(yīng)用就可能“翻車(chē)”。這時(shí),一個(gè)低調(diào)卻至關(guān)重要的守護(hù)者站了出來(lái): PFC(Priority-based Flow Control,基于優(yōu)先級(jí)的流量控制) 。它就像網(wǎng)絡(luò)流量的“精密剎車(chē)系統(tǒng)”,確保關(guān)鍵數(shù)據(jù)永不丟失。今天,就讓我們一起揭開(kāi)PFC的神秘面紗!
什么是PFC?
PFC是一種以Ethernet為基礎(chǔ)的流控機(jī)制,它允許以優(yōu)先級(jí)(Priority)為單位,控制特定優(yōu)先級(jí)類(lèi)別的網(wǎng)絡(luò)流量。簡(jiǎn)單來(lái)說(shuō),當(dāng)某個(gè)優(yōu)先級(jí)的流量出現(xiàn)擁堵或包溢出時(shí),PFC可以暫停對(duì)應(yīng)優(yōu)先級(jí)的流量,避免數(shù)據(jù)丟失,確保關(guān)鍵數(shù)據(jù)的穩(wěn)定傳輸。
PFC如何工作?一場(chǎng)精妙的“反壓”對(duì)話
PFC的交互本質(zhì)是接收方(Rx)向發(fā)送方(Tx)發(fā)送“暫停(Pause)” 或“恢復(fù)(Resume)” 指令。讓我們分解這個(gè)過(guò)程:
- 場(chǎng)景: 接收端交換機(jī)端口(或網(wǎng)卡)的特定優(yōu)先級(jí)隊(duì)列的緩沖區(qū)即將被填滿(達(dá)到預(yù)設(shè)閾值)。
- 發(fā)出警報(bào)(Pause):
- 接收端檢測(cè)到擁塞的優(yōu)先級(jí)隊(duì)列。
- 立即構(gòu)造一個(gè) PFC Pause Frame。
- 在報(bào)文中明確指定需要暫停的優(yōu)先級(jí)(如優(yōu)先級(jí)3) 以及需要暫停的時(shí)間長(zhǎng)度(Pause Time)。
- 將這個(gè)Pause Frame發(fā)送給直接相連的上游設(shè)備(發(fā)送端交換機(jī)或服務(wù)器網(wǎng)卡)。
- 執(zhí)行剎車(chē)(Hold):
- 上游設(shè)備(Tx)收到PFC Pause Frame。
- 解析報(bào)文,得知需要暫停哪個(gè)優(yōu)先級(jí)(如優(yōu)先級(jí)3)的流量發(fā)送。
- 立即停止發(fā)送該優(yōu)先級(jí)的數(shù)據(jù)幀。
- 暫停的持續(xù)時(shí)間由報(bào)文中的Pause Time字段指定(單位是512 bit time,可換算成時(shí)間)。
- 緩解與恢復(fù)(Resume):
- 接收端緩沖區(qū)被排空,擁塞解除。
- 接收端可以發(fā)送一個(gè)新的PFC Pause Frame,將對(duì)應(yīng)優(yōu)先級(jí)的Pause Time設(shè)置為0。這就是“恢復(fù)(Resume)”信號(hào)。
- 上游設(shè)備(Tx)收到Pause Time = 0的報(bào)文后,立即恢復(fù)發(fā)送該優(yōu)先級(jí)的數(shù)據(jù)幀。
PFC Pause Frame報(bào)文長(zhǎng)啥樣?
理解了交互,我們?cè)賮?lái)看看這個(gè)關(guān)鍵的“剎車(chē)指令”——PFC Pause Frame的報(bào)文結(jié)構(gòu)(基于IEEE 802.1Qbb標(biāo)準(zhǔn)):
關(guān)鍵字段解析:
- Priority Enable Vector (2字節(jié)): 這是控制開(kāi)關(guān)。例如,它的值是 0x04 (二進(jìn)制 0000 0100),表示只對(duì) 優(yōu)先級(jí)2 (因?yàn)锽it2=1) 進(jìn)行流量控制。其他優(yōu)先級(jí)不受影響。
- Pause Time (每個(gè)優(yōu)先級(jí)2字節(jié)): 這是剎車(chē)時(shí)長(zhǎng)。對(duì)于Priority Enable Vector中啟用的優(yōu)先級(jí),其對(duì)應(yīng)的Time字段值表示請(qǐng)求發(fā)送方暫停該優(yōu)先級(jí)流量的時(shí)長(zhǎng)。Time = 0 表示“立即恢復(fù)”發(fā)送該優(yōu)先級(jí)流量。 Time > 0 表示暫停的時(shí)長(zhǎng)(單位是512 bit time,在10Gbps鏈路上,1個(gè)512 bit time = 51.2 ns)。
- Opcode (01-01): 明確這是PFC幀,而不是普通的PAUSE幀(Opcode為00-01)
它的應(yīng)用場(chǎng)景如何呢
PFC在實(shí)際數(shù)據(jù)中心環(huán)境中的應(yīng)用場(chǎng)景極為廣泛,主要包括:
- AI/ML訓(xùn)練集群: 保障GPU間高速RDMA通信不丟包、低延遲。
- 超融合基礎(chǔ)架構(gòu)/HCI: 保證虛擬化存儲(chǔ)(vSAN, Ceph等)后端網(wǎng)絡(luò)穩(wěn)定高效。
- 高性能分布式存儲(chǔ): 確保存儲(chǔ)節(jié)點(diǎn)間數(shù)據(jù)同步的可靠性。
- 金融交易系統(tǒng): 滿足微秒級(jí)交易延遲要求。
PFC實(shí)戰(zhàn)測(cè)試:如何驗(yàn)證你的“剎車(chē)系統(tǒng)”可靠?
為了確保PFC功能的正確性和有效性,測(cè)試是非常重要的一環(huán)。以下使用信而泰測(cè)試儀表X5-400G設(shè)備對(duì)PFC功能進(jìn)行測(cè)試:
測(cè)試拓?fù)浜椭饕渲萌缦滤荆?br />
如上圖所示,測(cè)試儀模擬兩端口向一個(gè)端口發(fā)流的擁塞場(chǎng)景,從而來(lái)驗(yàn)證DUT的PFC功能,被測(cè)設(shè)備使用華三的s9825-8C-G;
- 占用3個(gè)端口,port1和port2用于發(fā)送QP流量,port3用于接收,使用RoCEv2向?qū)?,使能PFC,以Priority 5 為例:
- 配置RoCEv2 Server:配置DSCP值:40,配置ipv4地址與DUT對(duì)應(yīng),阻塞端口port3的QP Block數(shù)量設(shè)置為2:(需要保證源QP Block數(shù)量與目標(biāo)QP Block數(shù)量一致)
- 選擇流端點(diǎn):勾選上server1和server2打向server3的QP block,點(diǎn)擊完成即可:
- 在流模板處查看,使用向?qū)瓿膳浜蠛竽J(rèn)是生成雙向流量,去使能port3發(fā)送的流量即可:
- 先將Port 1和Port2打往Port3的線速流量運(yùn)行起來(lái),此時(shí)可以觀察到port1和port2的發(fā)送速率為100%,然后將DUT使能PFC功能后,可以觀察到兩端口流量的發(fā)送速率降速至50%:
- 測(cè)試儀PFC報(bào)文統(tǒng)計(jì)查看,可統(tǒng)計(jì)到DUT發(fā)送的第5優(yōu)先級(jí)的PFC報(bào)文:
- Port 1和Port2上啟動(dòng)捕獲,其中pause time包含0和65535的PFC報(bào)文:
DarYu-X/E系列網(wǎng)絡(luò)測(cè)試儀
信而泰公司已推出X2-100G-12QSFP28、X5-400G高密度以及E2-100G-4QSFP28-Q測(cè)試模塊,均支持測(cè)試RoCEv2協(xié)議,支持100G/200G/400G的多速率以太網(wǎng)測(cè)試,信而泰的RoCEv2深度測(cè)試,為網(wǎng)絡(luò)設(shè)備商、云服務(wù)商及企業(yè)用戶提供了不可或缺的工具,有效識(shí)別瓶頸、優(yōu)化配置,極大提升RoCEv2部署信心,是推動(dòng)高性能無(wú)損網(wǎng)絡(luò)從架構(gòu)設(shè)計(jì)走向大規(guī)模、高效率實(shí)際應(yīng)用的關(guān)鍵環(huán)節(jié)。
審核編輯 黃宇
-
網(wǎng)絡(luò)安全
+關(guān)注
關(guān)注
11文章
3343瀏覽量
61498 -
PFC
+關(guān)注
關(guān)注
47文章
1021瀏覽量
108274 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
5230瀏覽量
73534
發(fā)布評(píng)論請(qǐng)先 登錄
易燃易爆環(huán)境的氣象“守護(hù)者”:防爆自動(dòng)氣象監(jiān)測(cè)設(shè)備揭秘
通信設(shè)備“隱形守護(hù)者”:高頻濾波器的加工難點(diǎn)與突破
高精度激光測(cè)距傳感器:工業(yè)精密測(cè)量的“隱形守護(hù)者”
光耦合器:隱形守護(hù)者,拓展無(wú)限應(yīng)用
電力設(shè)備局放監(jiān)測(cè)傳感器:電網(wǎng)安全的“隱形守護(hù)者”

精密儀器儀表背后的“隱形守護(hù)者”:交流單相濾波器
拉線式編碼器原理:工業(yè)精密測(cè)量的“隱形守護(hù)者”
BNC 射頻連接器:信號(hào)傳輸?shù)?b class='flag-5'>隱形守護(hù)者,深度解析其工作原理

解鎖工業(yè)網(wǎng)關(guān)通訊測(cè)試:工業(yè)運(yùn)轉(zhuǎn)的隱形守護(hù)者

評(píng)論