超級(jí)計(jì)算機(jī)是一項(xiàng)重要的投資,但對(duì)于研究人員和科學(xué)家來(lái)說(shuō),它們是極其寶貴的工具。為了有效和安全地共享這些數(shù)據(jù)中心的計(jì)算能力, NVIDIA 引入了云本地超級(jí)計(jì)算架構(gòu)。它結(jié)合了裸機(jī)性能、多租戶(hù)和超級(jí)計(jì)算的性能隔離。
Magnum IO是數(shù)據(jù)中心的 I / O 子系統(tǒng),它引入了新的增強(qiáng)功能,以加速支持多租戶(hù)數(shù)據(jù)中心的 I / O 和通信。我們將這些增強(qiáng)功能稱(chēng)為 Magnum IO ,用于云本機(jī)超級(jí)計(jì)算架構(gòu)。
它們由 NVIDIA Quantum-2 InfiniBand 平臺(tái)提供,該平臺(tái)包括 NVIDIA Quantum-2 交換機(jī)系列、BlueField-3 DPU 和 ConnectX-7 網(wǎng)絡(luò)適配器。
這種進(jìn)化環(huán)境的挑戰(zhàn)是什么?
基于 GPU 的高性能計(jì)算已經(jīng)通過(guò)機(jī)器學(xué)習(xí)和模擬改變了科學(xué)并增強(qiáng)了實(shí)驗(yàn)。運(yùn)行這些深度學(xué)習(xí)框架和模擬工具的 GPU 會(huì)消耗數(shù) PB 的數(shù)據(jù),并在整個(gè)數(shù)據(jù)中心造成擁塞和瓶頸。使事情進(jìn)一步復(fù)雜化的是,這些應(yīng)用程序的多個(gè)實(shí)例在共享超級(jí)計(jì)算基礎(chǔ)設(shè)施中同時(shí)運(yùn)行會(huì)對(duì)每個(gè)應(yīng)用程序的性能產(chǎn)生不利影響,從而導(dǎo)致無(wú)法預(yù)測(cè)的運(yùn)行時(shí)間。
Magnum IO for Cloud 本機(jī)超級(jí)計(jì)算體系結(jié)構(gòu)具有新的和改進(jìn)的功能,以減輕在多租戶(hù)環(huán)境中運(yùn)行對(duì)最終用戶(hù)性能的負(fù)面影響。它提供確定性的性能級(jí)別,就好像它們的應(yīng)用程序是網(wǎng)絡(luò)上唯一運(yùn)行的應(yīng)用程序一樣。
第三代 NVIDIA SHARP (可擴(kuò)展分層聚合和縮減協(xié)議)
夏普技術(shù)通過(guò)消除端點(diǎn)之間多次發(fā)送數(shù)據(jù)的需要,將集合操作從主機(jī) CPU 卸載到交換機(jī)網(wǎng)絡(luò),從而提高了 MPI 操作的性能。這種方法減少了到達(dá)聚合節(jié)點(diǎn)時(shí)通過(guò)網(wǎng)絡(luò)的數(shù)據(jù)量,并顯著減少了 MPI 操作時(shí)間。
在網(wǎng)絡(luò)中實(shí)現(xiàn)集體通信算法還有其他好處,例如釋放寶貴的 CPU 資源用于計(jì)算,而不是使用它們來(lái)處理通信。
圖 1 NVIDIA SHARP 聚合架構(gòu)框圖。
最近發(fā)布的 NVIDIA Quantum-2 InfiniBand 交換機(jī)為通過(guò)網(wǎng)絡(luò)的大型數(shù)據(jù)聚合提供了幾乎無(wú)限的可擴(kuò)展性。由于支持無(wú)限的小消息縮減和每個(gè)交換機(jī)的多個(gè)大消息縮減流,跨共享系統(tǒng)運(yùn)行應(yīng)用程序的多個(gè)租戶(hù)現(xiàn)在可以充分利用 SHARP 的優(yōu)勢(shì)。
Watch the In-Network Computing with NVIDIA SHARP Video.
性能隔離
多租戶(hù)超級(jí)計(jì)算涉及許多在共享基礎(chǔ)設(shè)施上運(yùn)行的用戶(hù)應(yīng)用程序,可能會(huì)重復(fù)使用物理服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)以及這些應(yīng)用程序生成的 I / O 流量模式。
NVIDIA Quantum InfiniBand 在檢測(cè)到網(wǎng)絡(luò)擁塞時(shí)管理網(wǎng)絡(luò)擁塞,并在源位置實(shí)施控制以減少網(wǎng)絡(luò)擁塞。但使用多租戶(hù),用戶(hù)應(yīng)用程序可能不知道對(duì)相鄰應(yīng)用程序流量的任意干擾,因此需要隔離以提供預(yù)期的性能級(jí)別。
借助最新的 NVIDIA Quantum-2 InfiniBand 平臺(tái)和 Magnum IO ,創(chuàng)新的主動(dòng)監(jiān)控和擁塞管理提供了所需的流量隔離。這幾乎消除了性能抖動(dòng),并確保了預(yù)期的預(yù)測(cè)性能,就像應(yīng)用程序在專(zhuān)用系統(tǒng)上運(yùn)行一樣。
圖 2 性能隔離的好處。
專(zhuān)為安全、多租戶(hù)、裸機(jī)性能而打造
NVIDIA Cloud-Native Supercomputing體系結(jié)構(gòu)使用 Magnum IO 在多租戶(hù)環(huán)境中實(shí)現(xiàn)最高性能、安全性和編排。
圖 3 使用 DPU 遷移到云本機(jī)超級(jí)計(jì)算體系結(jié)構(gòu)。
此外,實(shí)現(xiàn)這種架構(gòu)轉(zhuǎn)換的另一個(gè)核心元素是數(shù)據(jù)處理單元( DPU ),也稱(chēng)為 BlueField 。作為一個(gè)完全集成的片上數(shù)據(jù)中心平臺(tái), BlueField 卸載和管理數(shù)據(jù)中心基礎(chǔ)設(shè)施,而不是主機(jī)處理器,實(shí)現(xiàn)超級(jí)計(jì)算機(jī)的安全和協(xié)調(diào)。它還能夠提供額外的通信框架卸載,產(chǎn)生 100% 的通信計(jì)算重疊,同時(shí)實(shí)現(xiàn) MPI _ Alltoall 44% 的性能提升和 MPI _ iAllgather 36% 的性能提升。當(dāng)結(jié)合 NVIDIA Quantum-2 的最新進(jìn)展時(shí),該體系結(jié)構(gòu)在安全的多節(jié)點(diǎn)體系結(jié)構(gòu)中展示了裸機(jī)性能的性能隔離。
Magnum IO 消除了 I / O 瓶頸,并公開(kāi)了硬件級(jí)加速引擎、網(wǎng)絡(luò)計(jì)算和擁塞控制方面的最新技術(shù),這些技術(shù)是支持當(dāng)今具有裸機(jī)性能的多租戶(hù)數(shù)據(jù)中心所必需的。
關(guān)于作者
Scot Schultz 是 HPC 技術(shù)專(zhuān)家,專(zhuān)注于人工智能和機(jī)器學(xué)習(xí)系統(tǒng)。 Scot 在分布式計(jì)算、操作系統(tǒng)、人工智能框架、高速互連和處理器技術(shù)方面擁有廣泛的知識(shí)。在他的整個(gè)職業(yè)生涯中,擁有超過(guò) 25 年的高性能計(jì)算系統(tǒng)經(jīng)驗(yàn),他的職責(zé)包括各種工程和領(lǐng)導(dǎo)角色,包括戰(zhàn)略 HPC 技術(shù)生態(tài)系統(tǒng)支持。 Scot 在眾多行業(yè)標(biāo)準(zhǔn)組織的成長(zhǎng)和發(fā)展中發(fā)揮了重要作用。
Harry Petty 是一位經(jīng)驗(yàn)豐富的數(shù)據(jù)中心營(yíng)銷(xiāo)人員和技術(shù)專(zhuān)家,曾在大型科技公司擔(dān)任領(lǐng)導(dǎo)職務(wù),為混合云、存儲(chǔ)解決方案、網(wǎng)絡(luò)處理器和服務(wù)器產(chǎn)品線推廣 SDN 產(chǎn)品。他曾與許多客戶(hù)合作,在多個(gè)數(shù)據(jù)中心部署應(yīng)用程序。當(dāng) Harry 不討論 HPC 數(shù)據(jù)中心的 IO 子系統(tǒng)時(shí),他喜歡在北加利福尼亞州附近的 Sierra 山麓和湖泊中進(jìn)行戶(hù)外活動(dòng)。
審核編輯:郭婷
-
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
5232瀏覽量
73544 -
人工智能
+關(guān)注
關(guān)注
1807文章
49035瀏覽量
249775 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8505瀏覽量
134677
發(fā)布評(píng)論請(qǐng)先 登錄
Blue Lion超級(jí)計(jì)算機(jī)將在NVIDIA Vera Rubin上運(yùn)行
揭秘云計(jì)算架構(gòu)的分層奧秘
HPC云計(jì)算的技術(shù)架構(gòu)
物聯(lián)網(wǎng)云IO模塊是什么
什么是云計(jì)算平臺(tái)?搭建云計(jì)算平臺(tái)需要什么條件
聯(lián)發(fā)科與NVIDIA合作 為NVIDIA 個(gè)人AI超級(jí)計(jì)算機(jī)設(shè)計(jì)NVIDIA GB10超級(jí)芯片
云計(jì)算HPC軟件關(guān)鍵技術(shù)
云端超級(jí)計(jì)算機(jī)使用教程
云計(jì)算和HPC的關(guān)系
λ-IO:存儲(chǔ)計(jì)算下的IO棧設(shè)計(jì)

NVIDIA助力丹麥發(fā)布首臺(tái)AI超級(jí)計(jì)算機(jī)
云端超級(jí)計(jì)算機(jī)怎么用
AI云平臺(tái)與傳統(tǒng)云計(jì)算的區(qū)別
解析一體式IO與分布式IO:從架構(gòu)到應(yīng)用

評(píng)論