市場(chǎng)上存在多種計(jì)算光模塊與GPU比例的方法,導(dǎo)致結(jié)果不相同。造成這些差異的主要原因是不同網(wǎng)絡(luò)結(jié)構(gòu)中光模塊數(shù)量的波動(dòng)。所需的光模塊的準(zhǔn)確數(shù)量主要取決于幾個(gè)關(guān)鍵因素。
網(wǎng)卡型號(hào)
主要包括兩個(gè)網(wǎng)卡,ConnectX-6 (200Gb/s,主要用于A100)和ConnectX-7 (400Gb/s,主要用于H100)。
同時(shí),下一代ConnectX-8800Gb/s預(yù)計(jì)將于2024年發(fā)布。
交換機(jī)型號(hào)
主要包括兩種類(lèi)型的交換機(jī),QM 9700交換機(jī)(32口OSFP 2x400Gb/s),共64通道400Gb/s傳輸速率,總吞吐率達(dá)到51.2Tb/s。
而QM8700交換機(jī)(40口QSFP56,共40個(gè)通道,傳輸速率為200Gb/s,總吞吐率為16Tb/s)。
單元數(shù)量(可擴(kuò)展單元)
單元數(shù)量決定了交換機(jī)網(wǎng)絡(luò)架構(gòu)的配置。小批量采用兩層結(jié)構(gòu),而大批量采用三層結(jié)構(gòu)。 H100 SuperPOD:每臺(tái)由32個(gè)節(jié)點(diǎn)(DGX H100服務(wù)器)組成,最多支持4臺(tái)組成集群,采用雙層交換架構(gòu)。 A100 SuperPOD:每臺(tái)由20個(gè)節(jié)點(diǎn)(DGX A100服務(wù)器)組成,最多支持7臺(tái)組成集群。如果單元數(shù)超過(guò)5個(gè),則需要三層交換架構(gòu)。
四大網(wǎng)絡(luò)配置下的光模塊需求
A100+ConnectX6+QM8700三層網(wǎng)絡(luò):比例1:6,全部采用200G光模塊。 A100+ConnectX6+QM9700兩層網(wǎng)絡(luò):1:0.75的800G光模塊+1:1的200G光模塊。 H100+ConnectX7+QM9700兩層網(wǎng)絡(luò):1:1.5的800G光模塊+1:1的400G光模塊。 H100+ConnectX8(尚未發(fā)布)+QM9700三層網(wǎng)絡(luò):比例1:6,全部采用800G光模塊。 光模塊市場(chǎng)逐步增長(zhǎng): 假設(shè)2023年H100出貨量為30萬(wàn)臺(tái),A100出貨量為90萬(wàn)臺(tái),總需求量為315萬(wàn)臺(tái)200G、30萬(wàn)臺(tái)400G、787.5萬(wàn)臺(tái)800G光模塊。這會(huì)導(dǎo)致人工智能市場(chǎng)的顯著增長(zhǎng),預(yù)計(jì)規(guī)模將達(dá)到13.8億美元 以2024年出貨150萬(wàn)臺(tái)H100和150萬(wàn)臺(tái)A100為例,200G總需求量為75萬(wàn)臺(tái),400G光模塊75萬(wàn)臺(tái),800G光模塊675萬(wàn)臺(tái)。這將導(dǎo)致人工智能市場(chǎng)的顯著增長(zhǎng),預(yù)計(jì)規(guī)模將達(dá)到49.7億美元,大約相當(dāng)于2021年光模塊行業(yè)的總市場(chǎng)規(guī)模。 以下是上述每種情況的細(xì)致計(jì)算分解:
第一種情況:A100+ConnectX6+QM8700三層網(wǎng)絡(luò)
A100 GPU設(shè)計(jì)有8個(gè)計(jì)算接口,如圖所示,左側(cè)有4個(gè)接口,右側(cè)有4個(gè)接口。目前,A100 GPU的大部分出貨量都是與ConnectX-6配合使用,以實(shí)現(xiàn)高達(dá)200Gb/s的連接速率。
在首層架構(gòu)中,每個(gè)節(jié)點(diǎn)有8個(gè)接口(端口),節(jié)點(diǎn)連接8個(gè)葉交換機(jī)。每20個(gè)節(jié)點(diǎn)組成一個(gè)單元(SU)。因此,在第一層中,總共需要8xSU臺(tái)葉交換機(jī),以及8xSUx20根線(xiàn)纜和2x8xSUx20個(gè)200G光模塊。
在第二層架構(gòu)中,由于采用了無(wú)阻塞設(shè)計(jì),上行速率等于下行速率。在第一層中,總單向傳輸速率為200G乘以線(xiàn)纜數(shù)量。由于第二層也采用單纜200G傳輸速率,因此第二層的線(xiàn)纜數(shù)量應(yīng)與第一層相同,需要8xSUx20線(xiàn)纜和2x8xSUx20 200G光模塊。所需脊交換機(jī)的數(shù)量是通過(guò)將線(xiàn)纜數(shù)量除以葉交換機(jī)數(shù)量來(lái)計(jì)算的,得出所需的(8xSUx200)/(8xSU)脊交換機(jī)。但是,當(dāng)沒(méi)有足夠的葉交換機(jī)時(shí),為了節(jié)省脊交換機(jī)的數(shù)量,可以在葉和脊交換機(jī)之間建立多個(gè)連接(只要不超過(guò)40個(gè)接口的限制)。因此,當(dāng)單元數(shù)為1/2/4/5時(shí),所需的脊交換機(jī)數(shù)量為4/10/20/20,所需的光模塊數(shù)量為320/640/1280/1600。脊交換機(jī)的數(shù)量不會(huì)成比例增加,但光模塊的數(shù)量會(huì)按相同比例增加。 當(dāng)系統(tǒng)擴(kuò)展到七個(gè)單元時(shí),實(shí)施第三層架構(gòu)變得至關(guān)重要。由于其非阻塞配置,第三層中所需的線(xiàn)纜數(shù)量與第二層的線(xiàn)纜數(shù)量保持不變。 英偉達(dá)(NVIDIA)建議的SuperPOD藍(lán)圖需要在七個(gè)單元之間集成網(wǎng)絡(luò),采用第三層架構(gòu)及核心交換機(jī)。詳細(xì)的圖表說(shuō)明了不同層的不同數(shù)量的交換機(jī)以及不同單元數(shù)所需的相關(guān)布線(xiàn)。
配置140臺(tái)服務(wù)器,參與的A100 GPU總數(shù)為1120,計(jì)算方式為服務(wù)器數(shù)量140乘以8。為了支持此配置,需要部署了140臺(tái)QM8790交換機(jī)以及3360根線(xiàn)纜。此外,該配置需要使用6720個(gè)200G光模塊?。A100 GPU與200G光模塊的比例為1:6,具體數(shù)量為1120個(gè)GPU對(duì)應(yīng)6720個(gè)光模塊。
第二種情況:A100+ConnectX6+QM9700兩層網(wǎng)絡(luò)
目前,該配置方案并不是建議配置的一種。盡管如此,隨著時(shí)間的推移,越來(lái)越多的A100 GPU可能會(huì)選擇通過(guò)QM9700交換機(jī)進(jìn)行連接。這種轉(zhuǎn)變將減少所需光模塊數(shù)量,但會(huì)產(chǎn)生對(duì)800G光模塊的需求。主要區(qū)別可以在第一層的連接中看到,目前使用8根獨(dú)立200G線(xiàn)纜的方法將被使用QSFP轉(zhuǎn)OSFP適配器替代,每個(gè)適配器能夠進(jìn)行兩個(gè)連接,從而實(shí)現(xiàn)1對(duì)4的連接。
在第一層中:對(duì)于具有7個(gè)單元和140個(gè)服務(wù)器的集群,總共有140x8=1120個(gè)接口。這相當(dāng)于280根1-4線(xiàn)纜,因此需要280個(gè)800G和1120個(gè)200G光模塊??偣残枰?2臺(tái)QM9700交換機(jī)。 在第二層:僅使用800G連接時(shí),需要280x2=5600個(gè)800G光模塊以及9臺(tái)QM 9700交換機(jī)。 因此,對(duì)于140臺(tái)服務(wù)器和1120臺(tái)A100 GPU配置,總共需要21臺(tái)交換機(jī)(12+9),以及840個(gè)800G光模塊和1120個(gè)200G光模塊。 A100 GPU與800G光模塊的比例為1120:840,簡(jiǎn)化為1:0.75。A1000 GPU和200G光模塊的比例為1:1。
第三種情況:H100+ConnectX7+QM9700兩層網(wǎng)絡(luò)
H100架構(gòu)的一個(gè)顯著特點(diǎn)是,盡管該卡包含8個(gè)GPU,但配備了8個(gè)400G網(wǎng)卡,這些網(wǎng)卡組合成4個(gè)800G接口。這種融合帶來(lái)了對(duì)800G光模塊的巨大需求。 在第一層中,根據(jù)英偉達(dá)(NVIDIA)推薦的配置,建議在服務(wù)器接口連接1個(gè)800G光模塊。這可以通過(guò)使用帶有兩根光纜(MPO)的雙端口連接來(lái)實(shí)現(xiàn),其中每根光纜都插入單獨(dú)的交換機(jī)。
因此,在第一層中,每個(gè)單元由32臺(tái)服務(wù)器組成,每臺(tái)服務(wù)器連接2x4=8臺(tái)交換機(jī)。在具有4個(gè)單元的SuperkPOD中,第一層總共需要4x8=32臺(tái)葉交換機(jī)。 英偉達(dá)(NVIDIA)建議為管理目的(UFM)保留一個(gè)節(jié)點(diǎn)。由于對(duì)光模塊的使用影響有限,因此我們以4臺(tái)設(shè)備、總共128臺(tái)服務(wù)器為基準(zhǔn)進(jìn)行近似計(jì)算。 第一層共需要4x128=512個(gè)800G光模塊和2x4x128=1024個(gè)400G光模塊。
在第二層,交換機(jī)使用800G光模塊直接連接。每個(gè)葉交換機(jī)都以32x400G的單向速率向下連接。為保證上行和下行速率一致,上行連接需要16x800G的單向速率。這需要16個(gè)脊交換機(jī),因此總共需要4x8x162=1024個(gè)800G光模塊。 在這種架構(gòu)中,基礎(chǔ)設(shè)施總共需要1536個(gè)800G光模塊和1024個(gè)400G光模塊??紤]到SuperPOD的完整組成,其中包括128臺(tái)(4x32)服務(wù)器,每臺(tái)服務(wù)器配備8個(gè)H100 GPU,總共有1024個(gè)H100 GPU。GPU與800G光模塊的比例為1:1.5,相當(dāng)于1024個(gè)GPU需要1536個(gè)光模塊。GPU與400G光模塊的比例為1:1,1024個(gè)GPU與1024個(gè)光模塊的數(shù)量相等。
第四種情況:H100+ConnectX8(暫未發(fā)布)+QM9700三層網(wǎng)絡(luò)
在假設(shè)的情景中,如果H100GPU的網(wǎng)卡升級(jí)到800G,那么外部接口就需要從四個(gè)擴(kuò)展到八個(gè)OSFP接口。因此,層間連接也將使用800G光模塊。基本網(wǎng)絡(luò)設(shè)計(jì)與初始方案保持一致,唯一的變化是將200G光模塊替換為800G光模塊。在此網(wǎng)絡(luò)架構(gòu)內(nèi),GPU數(shù)量與所需光模塊保持1:65的比例,與初始場(chǎng)景相同。 基于上述情況整理,假如2023年H100 GPU的出貨量為300000個(gè),A100 GPU的出貨量為900000個(gè),將產(chǎn)生315萬(wàn)個(gè)200G光模塊、300000個(gè)400G光模塊和787500個(gè)800G光模塊的總需求。展望2024年,預(yù)計(jì)交付150萬(wàn)臺(tái)H100 GPU和150萬(wàn)臺(tái)A100 GPU,產(chǎn)生需求將包括75萬(wàn)臺(tái)200G光模塊、75萬(wàn)臺(tái)400G光模塊和675萬(wàn)臺(tái)800G光模塊。 對(duì)于A100 GPU,其連接均勻分配在200G交換機(jī)和400G交換機(jī)之間。 對(duì)于H100 GPU,其連接均勻分配在200G交換機(jī)和400G交換機(jī)之間。
綜上所述
隨著技術(shù)的不斷進(jìn)步和發(fā)展,網(wǎng)絡(luò)領(lǐng)域見(jiàn)證了400G多模光模塊、AOC和DAC的出現(xiàn)。預(yù)計(jì)這些將引領(lǐng)高速解決方案進(jìn)一步的發(fā)展,為數(shù)字時(shí)代的網(wǎng)絡(luò)需求提供強(qiáng)大的支持。
審核編輯:黃飛
?
評(píng)論