NVIDIA為全球最快的10臺超級計算機(jī)中的8臺提供加速。 NVIDIA Selene成為美國速度最快的工業(yè)系統(tǒng),同時具有領(lǐng)先水平的能效表現(xiàn)。
最新TOP500超級計算機(jī)榜單展現(xiàn)了現(xiàn)代科學(xué)計算的整體情況:通過AI和數(shù)據(jù)分析進(jìn)行擴(kuò)展并使用NVIDIA技術(shù)提供加速。
目前,全球排名前十的超級計算機(jī)中有8臺采用了NVIDIA GPU、InfiniBand網(wǎng)絡(luò)技術(shù),或同時采用了兩種技術(shù)。其中包括美國、歐洲和中國最強(qiáng)大的超級計算機(jī)系統(tǒng)。
在TOP500榜單的所有系統(tǒng)中,有三分之二的系統(tǒng)(333套)采用了NVIDIA(現(xiàn)已與Mellanox合并)為其賦力。而在2017年6月發(fā)布的榜單上,采用兩家公司的系統(tǒng)占比總和還不到一半(203套)。
如今,榜單上有將近四分之三(74%)的全新InfiniBand系統(tǒng)采用了NVIDIA Mellanox HDR 200G InfiniBand,這也展現(xiàn)了該最新智能高速數(shù)據(jù)互連技術(shù)的迅速普及。
自2019年11月以來,榜單上使用HDR InfiniBand的TOP500系統(tǒng)數(shù)量幾乎增加了一倍。共有141臺超級計算機(jī)使用了InfiniBand,自2019年6月以來增長了12%。
越來越多TOP500系統(tǒng)采用了NVIDIA GPU、Mellanox網(wǎng)絡(luò)技術(shù),或同時采用了這兩種技術(shù)。
在TOP500超級計算機(jī)中,有305套系統(tǒng)使用了NVIDIA Mellanox InfiniBand和Ethernet網(wǎng)絡(luò)(占61%),包括所有141套InfiniBand系統(tǒng)和164套(占63%)使用Ethernet的系統(tǒng)。
在能效方面,使用NVIDIA GPU的系統(tǒng)表現(xiàn)也都脫穎而出。與不使用NVIDIA GPU的系統(tǒng)相比,其能效(以gigaflops/watt為單位)平均高出2.8倍。
這也是為何排在TOP500榜單前25的超級計算機(jī)中有20臺系統(tǒng)都選擇采用NVIDIA GPU的原因之一。
NVIDIA GPU提高了TOP500超級計算機(jī)的能效。
最能夠證明此能效表現(xiàn)的是NVIDIA內(nèi)部研究集群的新成員—— Selene(如上圖所示)。該系統(tǒng)在Linpack基準(zhǔn)測試中以27.5 petaflops的性能表現(xiàn),在最新Green500榜單中排名第二,在整個TOP500榜單中排名第七。
Selene的功耗為20.5 gigaflops/watt,與Green500榜單上的第一名相差甚微,但排名第一的系統(tǒng)體積更小,其性能表現(xiàn)僅排在第394位。
Selene是排名前100系統(tǒng)中唯一突破20 gigaflops/watt能效表現(xiàn)大關(guān)的系統(tǒng),同時也是全球性能排名第二的工業(yè)超級計算機(jī),僅次于意大利能源巨頭Eni S.p.A.的NO. 6 系統(tǒng)(同樣使用了NVIDIA GPU)。
在能效方面,相比于未使用NVIDIA GPU的其它TOP500系統(tǒng)的平均能效表現(xiàn),Selene的能效高出了6.8倍。Selene的優(yōu)異性能和能效均要?dú)w功于NVIDIA A100 GPU中的第三代Tensor Core核心。該核心可以為傳統(tǒng)的64位數(shù)學(xué)模擬及精度較低的AI工作提供加速。
Selene所取得的名次對于它來說已經(jīng)是一項(xiàng)了不起的成就了,畢竟該系統(tǒng)只用了不到4周的時間就構(gòu)建完成了。工程師們可以使用NVIDIA的模塊化參照架構(gòu),快速構(gòu)建Selene。
該參考架構(gòu)既NVIDIA的DGX SuperPOD。該系統(tǒng)基于強(qiáng)大而靈活的現(xiàn)代數(shù)據(jù)中心構(gòu)建模塊 —— NVIDIA DGX A100系統(tǒng)。
高度靈活的DGX A100系統(tǒng)現(xiàn)已上市。該系統(tǒng)在一臺6U服務(wù)器中集成了8顆A100 GPU以及NVIDIA Mellanox HDR InfiniBand網(wǎng)絡(luò)技術(shù),可以為高性能計算、數(shù)據(jù)分析和AI工作(包括訓(xùn)練和推理)等多種組合提供加速,并實(shí)現(xiàn)快速部署。
從系統(tǒng)擴(kuò)展至SuperPOD
參照該參考架構(gòu)設(shè)計,任何企業(yè)機(jī)構(gòu)都可以快速搭建屬于其自己的世界級計算集群。參照設(shè)計展示了如何像搭積木一樣使用高性能NVIDIA Mellanox InfiniBand交換機(jī)連接20臺DGX A100系統(tǒng)。
InfiniBand為排名前10的超級計算機(jī)中的7臺提速,其中包括中國、歐洲和美國性能最強(qiáng)大的系統(tǒng)。
4名操作人員僅需不到1個小時,就能組裝起一套由20臺系統(tǒng)組成的DGX A100集群,創(chuàng)建出一套性能可以達(dá)到2-petaflops的系統(tǒng),如此性能表現(xiàn)足以被列入TOP500榜單當(dāng)中了。此類系統(tǒng)能夠在標(biāo)準(zhǔn)數(shù)據(jù)中心的功率和散熱能力承擔(dān)范圍內(nèi)輕松運(yùn)行。
通過添加NVIDIA Mellanox InfiniBand交換機(jī)層,工程師將14套分別配置有20臺DGXA100系統(tǒng)的模塊組的相連接,從而創(chuàng)造出了Selene。Selene系統(tǒng)具有:
·280臺 DGX A100系統(tǒng)
·2240顆NVIDIA A100 GPU
·494臺NVIDIA Mellanox Quantum 200G InfiniBand交換機(jī)
·56 TB/s的網(wǎng)絡(luò)架構(gòu)
·7PB的高性能全閃存
Selene最重要的性能規(guī)格之一是可以提供超過1 exaflops的AI性能。此外,在TPCx-BB關(guān)鍵數(shù)據(jù)分析基準(zhǔn)測試中,其僅使用了16臺DGX A100系統(tǒng)就創(chuàng)造了新紀(jì)錄,其性能表現(xiàn)高出其他系統(tǒng)20倍。
如今,AI和分析已成為科學(xué)計算中的新需求,因此這些結(jié)果也顯得格外重要。
在全球各地,研究者正在使用深度學(xué)習(xí)和數(shù)據(jù)分析預(yù)測各種最具潛力的領(lǐng)域,并進(jìn)而開展實(shí)驗(yàn)。這一方法能夠幫助研究者減少成本高昂且費(fèi)時的實(shí)驗(yàn)量,從而加快取得科學(xué)成果的速度。
例如,目前有6臺在建系統(tǒng)雖然沒有出現(xiàn)在此次TOP500榜單中,但它們都采用了NVIDIA于上月發(fā)布的A100 GPU。這些系統(tǒng)將被用于加速HPC和AI的融合,開辟科學(xué)研究的新時代。
TOP500擴(kuò)展科學(xué)計算應(yīng)用
在這些系統(tǒng)當(dāng)中,其中一臺位于美國阿貢國家實(shí)驗(yàn)室(Argonne National Laboratory)。該機(jī)構(gòu)的研究者將使用24臺NVIDIA DGX A100系統(tǒng)組成的集群對數(shù)十億種藥物進(jìn)行掃描,以尋找COVID-19的治療方法。
阿貢國家實(shí)驗(yàn)室的計算生物學(xué)家Arvind Ramanathan在有關(guān)A100 GPU的首批用戶報告中表示:“這項(xiàng)工作中的一大難點(diǎn)在于在計算機(jī)上進(jìn)行模擬,因此我們運(yùn)用AI來指導(dǎo)下一步的采樣地點(diǎn)和時間。”
美國國家能源研究科學(xué)計算中心(NERSC)正在將AI應(yīng)用于幾個針對Perlmutter的項(xiàng)目中,Perlmutter是該中心的pre-exascale系統(tǒng),擁有6200顆A100 GPU。
例如,其中一個項(xiàng)目將使用強(qiáng)化學(xué)習(xí)來控制光源實(shí)驗(yàn),另有一個項(xiàng)目將使用生成模型在高能物理探測器上重現(xiàn)復(fù)雜的模擬。
為了加快新冠病毒蛋白的分析速度,慕尼黑的研究者們正在依靠Summit超級計算機(jī)中的6000顆GPU訓(xùn)練自然語言模型。有跡象表明,領(lǐng)先的TOP500系統(tǒng)正在超越使用雙精度數(shù)學(xué)運(yùn)行的傳統(tǒng)模擬。
AI、數(shù)據(jù)分析和邊緣串流正在重新定義科學(xué)計算。
隨著向深度學(xué)習(xí)和分析的擴(kuò)展,科學(xué)家們也在運(yùn)用云計算服務(wù),甚至運(yùn)用來自于網(wǎng)絡(luò)邊緣的遠(yuǎn)程儀器的流式數(shù)據(jù)。這些要素共同構(gòu)成了NVIDIA所加速的現(xiàn)代科學(xué)計算的四個支柱:
·模擬:在抗擊新冠病毒的過程中,橡樹嶺國家實(shí)驗(yàn)室(Oak Ridge National Laboratory)的研究者使用Summit超級計算機(jī)的內(nèi)置GPU運(yùn)行AutoDock,在24小時內(nèi)模擬了20億種化合物。
·AI和數(shù)據(jù)分析:Spark 3.0 為關(guān)鍵且耗時的機(jī)器學(xué)習(xí)處理流程前端提供GPU加速。
·科學(xué)邊緣串流:歐洲核子研究所(CERN)最近宣布,NVIDIA GPU將使其大型強(qiáng)子對撞機(jī)內(nèi)粒子碰撞事件產(chǎn)生的數(shù)據(jù)量減少500倍。
·可視化:NVIDIA的IndeX和Magnum IO軟件幫助增強(qiáng)火星登陸者號的可視化功能,這是全球規(guī)模最大的交互式實(shí)時立體可視化項(xiàng)目。
這些都表明研究者和企業(yè)都迫切需要從云到網(wǎng)絡(luò)邊緣的AI和分析加速,這也是為什么全球最大的云服務(wù)提供商以及全球頂尖的OEM廠商們都在采用NVIDIA GPU的原因。
此外,最新的TOP500榜單也以另一這種方式說明了NVIDIA為實(shí)現(xiàn)AI和HPC民主化所付出的努力。任何想要在計算能力上領(lǐng)先一步的公司都可以使用NVIDIA技術(shù),如為全球最強(qiáng)大的系統(tǒng)提供支持的DGX系統(tǒng)。
最后,NVIDIA要向排名第一的日本Fugaku超級計算機(jī)的幕后工程師們表示祝賀,這表明Arm正在變得日益實(shí)用并且已經(jīng)成為高性能計算的可行選擇。這也是NVIDIA在去年宣布為Arm處理器架構(gòu)提供CUDA加速計算軟件的原因之一。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5309瀏覽量
106434 -
gpu
+關(guān)注
關(guān)注
28文章
4948瀏覽量
131266 -
超級計算機(jī)
+關(guān)注
關(guān)注
2文章
472瀏覽量
42479 -
工業(yè)系統(tǒng)
+關(guān)注
關(guān)注
0文章
64瀏覽量
16750
發(fā)布評論請先 登錄
NVIDIA驅(qū)動的現(xiàn)代超級計算機(jī)如何突破速度極限并推動科學(xué)發(fā)展

Blue Lion超級計算機(jī)將在NVIDIA Vera Rubin上運(yùn)行
NVIDIA技術(shù)賦能歐洲最快超級計算機(jī)JUPITER
NVIDIA助力全球最大量子研究超級計算機(jī)
NVIDIA GTC2025 亮點(diǎn) NVIDIA推出 DGX Spark個人AI計算機(jī)

NVIDIA 宣布推出 DGX Spark 個人 AI 計算機(jī)

NVIDIA推出個人AI超級計算機(jī)Project DIGITS
聯(lián)發(fā)科與NVIDIA合作 為NVIDIA 個人AI超級計算機(jī)設(shè)計NVIDIA GB10超級芯片
云端超級計算機(jī)使用教程
NVIDIA加速全球大多數(shù)超級計算機(jī)推動科技進(jìn)步

NVIDIA助力xAI打造全球最大AI超級計算機(jī)
NVIDIA 以太網(wǎng)加速 xAI 構(gòu)建的全球最大 AI 超級計算機(jī)

評論