3 月 28 日(北京時間),NVIDIA 在美國圣何塞召開了 GTC 2018(GPU Technology Conference 2018)大會,并發(fā)布了 Quadro 系列和 DGX 系列的兩款新品。
Quadro GV 100 是 NVIDIA 「專業(yè)圖形顯卡」系列的最新成員,公司 CEO 黃仁勛稱其為「世界上體積最大的 GPU」。
Quadro GV 100 擁有 5120 顆 CUDA 流處理器,640 顆 Tensor 處理器,最高可提供 14.8TFLOPS 的單精度浮點性能, 7.4TFLOPS 雙精度浮點性能;采用 32GB HBM2 顯存,顯存帶寬為 870GB/s;能夠提供 118T 的深度學(xué)習(xí)性能。
接口方面,Quadro GV 100 配備 4 個 Display 1.4 接口,可以對接最多 4 個 4096 x 2160 分辨率,120Hz 刷新率的顯示器;或 4 個 5120 x 2880 分辨率, 60Hz 刷新率的顯示器;或 2 個 7680 x 4320 分辨率,60Hz 刷新率的顯示器。
DGX-2 是一臺專門用于人工智能訓(xùn)練和/或推理任務(wù)的桌面計算機,是 NVIDIA 的第二代 DGX「小型超級計算機」,采用新的 NVSwitch 技術(shù)并聯(lián) 16 塊 32GB 顯存的 Tesla V100 計算卡,以及兩枚英特爾 Xeon Platinum 處理器 ,擁有 1.5TB 系統(tǒng)內(nèi)存,與 30TB 的 NVMe SSD 作為存儲空間,顯存容量則為 512GB HBM2,可以提供最高 2petaFLOPS 的浮點性能。
這是它的內(nèi)部結(jié)構(gòu):
你可以看到,在圖中 1 和 2 的位置看起來是很多塊芯片。其實他們是英偉達的 Tesla V100 Volta 架構(gòu) GPGPU,單枚算力達到雙精度 7.8 TFLOPS(萬億次浮點計算)、單精度 15.7TFLOPS、深度學(xué)習(xí) 125TFLOPS。
而DGX-2 單機箱安裝了 16 枚 V100,總體性能達到了驚人的 2PFLOPS——業(yè)界第一臺超過千萬億次浮點計算能力的單機箱計算機——稱它為超算或許并不浮夸。
但 DGX-2 的算力并非靠堆疊出來,如果它們之間不能實現(xiàn)高帶寬的數(shù)據(jù)互通則無意義。
時間倒回兩年前,英偉達有意在深度學(xué)習(xí)的設(shè)備市場上對英特爾發(fā)起直接挑戰(zhàn),推出了 Pascal 架構(gòu)的 P100 GPGPU。在當(dāng)時,主流服務(wù)器 PCIe 總線接口的帶寬和時延,已經(jīng)無法滿足英偉達的需求。于是它們開發(fā)出了一個新的設(shè)備內(nèi)互聯(lián)標準,叫做 NVLink,使得帶寬達到了 300 GB/s。一個 8 枚 GPGPU 的系統(tǒng)里,NVLink 大概長這樣:
然而 NVLink 的標準拓撲結(jié)構(gòu)在理論上最多支持 8 枚 顯卡,仍不足以滿足英偉達對于新系統(tǒng)內(nèi)置更多顯卡的需要。于是在 NVLink 的基礎(chǔ)上,英偉達開發(fā)出了一個名專門在顯卡之間管理 NVLink 任務(wù)的協(xié)處理器,命名為 NVSwitch。這個元件在 DGX-2 上,讓 16 枚 GPGPU 中兩兩之間實現(xiàn) NVLink 互通,總帶寬超過了 14.4 TB。
這一數(shù)字創(chuàng)造了桌面級電腦內(nèi)總線接口帶寬的新高,但實現(xiàn)它的目的并非跑分,而在于 DGX-2 可以 1)更快速地訓(xùn)練一個高復(fù)雜度的神經(jīng)網(wǎng)絡(luò),或 2)同時訓(xùn)練大量不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)。
N 卡之所以被稱為核彈有一種另類的解釋方式:它的多核心架構(gòu)在這個依核心數(shù)量論高下的時代顯得超凡脫俗——動輒幾百、上千個 CUDA 核心,令人不明覺厲。而在 DGX-2 上,16 枚 V100 的 CUDA 核數(shù)達到了瘋狂的 81,920 核心。這一事實,結(jié)合 NVSwitch 技術(shù)、512GB 現(xiàn)存、30TB NVMe 固態(tài)硬盤、兩枚至強 Platimum CPU 和高達 1.5TB 的主機內(nèi)存——
黃仁勛用 GPU 深度學(xué)習(xí)里程碑式的杰作 AlexNet 來舉例。研究者 Alex Krizhevsk 用了 6 天,在英偉達 GPU 上訓(xùn)練 AlexNet,這個研究首次利用梯度下降法和卷積神經(jīng)網(wǎng)絡(luò)進行計算機圖像識別,顯著優(yōu)于此前的手調(diào)參數(shù)法,拿下了 ImageNet 圖像識別競賽冠軍。AlexNet 讓 Alex 世界聞名,這 6 天可以說值了。
然而,“同樣的 8 層卷積神經(jīng)網(wǎng)絡(luò),我用 DGX-2 跑了一下,只用 18 分鐘就達到了同樣的結(jié)果,”黃仁勛說,“五年,500倍的進步。”
這說明了很多東西。其中有一條:在這五年里,英偉達的技術(shù)進步節(jié)奏已經(jīng)無法用摩爾定律來描述了。
Nvidia DGX-2 可提供 10 倍于上一代 Nvidia DGX-1 的深度學(xué)習(xí)性能,整體功耗為為 10KW,重 350 磅,售價僅為 39.9 萬美元(約合 250 萬人民幣)。
除了上述兩款重磅產(chǎn)品外,在今天的GTC 2018上,黃仁勛還宣布了英偉達的以下進展:
1、推出光線追蹤RTX技術(shù)(ray-tracing),能夠提供電影級畫質(zhì)的實時渲染,渲染出逼真的反射、折射和陰影畫面。這一技術(shù)由英偉達在前不久的GDC全球游戲開發(fā)者大會上展示過;
2、推出了第一款專用于醫(yī)療圖像處理的超級電腦Clara;
3、推出新版機器學(xué)習(xí)應(yīng)用平臺TensorRT 4,支持INT8與FP16精度,并與谷歌合作,將其整合進AI開源框架谷歌TensorFlow 1.7中;
4、宣布打造下一代名為DRIVE Orin的自動駕駛芯片,但除了名字外沒有透露更多信息;
5、正式推出3D仿真自動駕駛測試平臺DRIVE Constellation,這一測試平臺英偉達在CES上展示過,能夠幫助自動駕駛系統(tǒng)提升“姿勢水平”;
6、推出ISAAC機器人仿真訓(xùn)練平臺SDK,將訓(xùn)練機器人的技術(shù)開放出去;
此外英偉達還宣布將把它的開源深度學(xué)習(xí)架構(gòu)(NVDLA)帶到ARM即將推出的項目 Trillium 平臺上,NVDLA將幫助開發(fā)人員加速推理過程。英偉達通常依賴于自己的封閉平臺,不過,要想在移動物聯(lián)網(wǎng)設(shè)備方面發(fā)揮影響,英偉達有必要和在該領(lǐng)域占主導(dǎo)地位的ARM合作。
黃仁勛演講內(nèi)容:
重現(xiàn)照相質(zhì)量的3D世界一直以來是3D圖學(xué)的終極目標,真實世界中光線來自四面八方,為了要重現(xiàn)真實世界,就必須把各個光線的來源綜合計算,復(fù)雜度極高,傳統(tǒng)GPU可能一秒只能計算一格畫面,但我們今天利用新技術(shù),可以達到每秒60張畫面,這是非常不可思議的突破。
我們過去利用了許多不同的圖學(xué)技巧,不論是要降低計算負擔(dān),或者是加速執(zhí)行,但仍然很難真實重現(xiàn)照片畫質(zhì)。
圖丨黃仁勛演講現(xiàn)場(圖片來源:DT君)
但決定畫面真實與否的最終條件,往往是畫面中的小細節(jié),比如說光線和物件之間的折射、散射、漫射、透射與反射等等,通過光線追蹤技術(shù),我們可以把真實世界的畫面成像原理搬到3D圖學(xué)當(dāng)中,并且利用我們的GPU技術(shù)架構(gòu)來完成。
要考慮到不同的物件會吸收光線、折射光線的程度不同,比如說玻璃、塑膠,甚至我們的皮膚,都會一定程度的吸收光線,因此我們利用了subsurface scattering來達到這樣的效果,這在一般計算機圖學(xué)中是非常難以達到的效果,但通過光線追蹤技術(shù),我們可以輕易的達到。
黃仁勛用一段星際大戰(zhàn)影片來展示光線追蹤的效果,其效果幾乎和真實的電影畫面毫無差異,用肉眼幾乎看不出來是計算機計算的影片。尤其是在帝國士兵身上的鎧甲效果,反射光源后,和周圍環(huán)境進行多次折射和反射,以及光線的吸收,最終形成非常真實的畫面,幾乎和電影畫面沒有差別。
圖丨黃仁勛用星際大戰(zhàn)影片來展示光線追蹤的效果(來源:DT君)
這樣的畫面是在DGX超級計算平臺,通過2塊Volta繪圖卡達成。這是世界首次以實時呈現(xiàn)光線追蹤的效果。
在電影產(chǎn)業(yè)中,其實相關(guān)與光線處理相關(guān)的圖學(xué)技術(shù)都被使用,當(dāng)你看到廣告、影片中,很多憑空創(chuàng)造出來的產(chǎn)物,基本上都是利用GPU創(chuàng)造出來的,而GPU每年都創(chuàng)造了超過10億張這些數(shù)字創(chuàng)作。通過GPU計算,我們讓產(chǎn)生這些圖像的成本和需要的時間降到最低,我們可以說,用越多GPU,你越省錢!
圖丨The more GPU you buy,the more you save
如今,通過使用 Quadro GV100,我們可以在單一機架中取代傳統(tǒng)龐大耗電的render farm,目前主要電影創(chuàng)作者都逐漸往這個方向前進,比如說 Pixar,就利用了這樣的架構(gòu)來產(chǎn)生他們的電影畫面。
而考慮到世界上有多少電影工作室正在從事電影相關(guān)創(chuàng)作,我們可以考慮一下這個市場規(guī)模會有多大,牽涉到多大的金額,天文數(shù)字。
GPU推動了AI產(chǎn)業(yè)的發(fā)展,但AI產(chǎn)業(yè)也同時推動了GPU的進步,不只是GPU架構(gòu)本身,還有相對應(yīng)的開發(fā)環(huán)境與軟件生態(tài),考慮到目前AI生態(tài)越來越蓬勃發(fā)展,我們可以說現(xiàn)時是個最佳的時間點,是讓產(chǎn)業(yè)改頭換面,前進到AI的領(lǐng)域中。
圖丨各種各樣的AI Network正在涌現(xiàn)
而為了滿足這些開發(fā)者的需求,超過800萬個開發(fā)者下載了我們的CUDA工具,他們創(chuàng)造出來的計算效能超過370PETAFLOPS。
這些高性能計算很大程度都是要用來改變世界,包括研究疾病、醫(yī)療、氣候變遷,甚至了解HIV的結(jié)構(gòu)。
我們拿2013年的GPU架構(gòu)和今年推出的最新產(chǎn)品相比,我們的GPU每隔五年就達到10倍的效能成長,傳統(tǒng)半導(dǎo)體有摩爾定律,但是在CUDA GPU中,我們創(chuàng)造了不同的定律,不只是硬件本身,我們也針對算法不斷的改善,總和以上的努力,我們才能達到這樣的成就。
傳統(tǒng)服務(wù)器的龐大、耗電,通過我們的GPU有了根本性的改變,我們可以說,你們在計算領(lǐng)域用了越多的GPU,其實就是越省錢!
在醫(yī)療圖像方面,很多疾病是越早偵測就越有機會治愈,但如何偵測疾病,視覺化的身體掃描技術(shù),包括超音波、斷層掃描等,如果能夠利用3D技術(shù)重建掃描結(jié)果,我們可以看到更真實的結(jié)果,而不是能依靠不明顯的陰影來判斷病征。
圖丨英偉達在醫(yī)療上的合作伙伴
通過遠端與醫(yī)療圖像設(shè)備連線,這些設(shè)備產(chǎn)生的圖形實時反饋到我們的CUDA服務(wù)器中,并實時產(chǎn)生這些清晰的動態(tài)圖像,通過深度學(xué)習(xí),我們可以輕易判讀這些掃描的結(jié)果,并還原到我們?nèi)庋劭梢院唵闻凶x的3D立體型態(tài)。通過把這些服務(wù)器虛擬化,利用AI來后處理這些醫(yī)學(xué)圖像,我們可以創(chuàng)造出更容易判讀,且更不容易誤判的醫(yī)療圖像。
深度學(xué)習(xí)可以說重新塑造了我們現(xiàn)在的AI應(yīng)用,從過去厚重、龐大、笨拙的印象,變呈現(xiàn)在輕巧、快速、聰明的結(jié)果。從芯片設(shè)計者,到互聯(lián)架構(gòu),到軟件設(shè)計者,再到OEM廠商等,不論你在供應(yīng)鏈中的哪個環(huán)節(jié),我們都可以全力支持。
客戶想要達成不同的計算目標,不論是購買成品,或者是自行架設(shè),我們都能滿足客戶的需求。
近十年從機器學(xué)習(xí)到深度學(xué)習(xí),從最早的模型,衍生出無數(shù)種不同的神經(jīng)網(wǎng)絡(luò)、模型,隨著應(yīng)用的增加,也越來越復(fù)雜。
當(dāng)然,為了要應(yīng)付這些復(fù)雜的神經(jīng)網(wǎng)絡(luò)計算,現(xiàn)有的小型GPU其實很難以負擔(dān),但我們從不同的方向去思考,如果把個別的GPU通過高效能的互聯(lián)結(jié)構(gòu)結(jié)合起來,形成一個巨大的GPU,這個GPU上面可以創(chuàng)造出過去不可能達成的計算成果。
圖丨用NVSwitch互聯(lián)16個GPU的DXG2 server
我們通過NVSwitch達成了這個目的,通過這個互聯(lián)架構(gòu),我們在DXG-2 server中互聯(lián)了16顆GPU,形成一個龐大的GPU架構(gòu),通過最新的NVLink,技術(shù),GPU和GPU之間可以用比PCIE快20倍的效率互相溝通。這個互聯(lián)結(jié)構(gòu)不是網(wǎng)絡(luò)狀結(jié)構(gòu),而是速度更快的交換器結(jié)構(gòu),通過這樣的互聯(lián)設(shè)計,我們在單一結(jié)構(gòu)中實現(xiàn)了2PETAFLOP的驚人效能。而且只需要2000W的功耗。其功耗性能比可說遠遠超出目前的超級計算機。
圖丨黃仁勛和世界上最大的GPU合影
現(xiàn)在新的AI芯片把云計算、深度學(xué)習(xí)看得太簡單,要考慮的因素太多,包括延遲、學(xué)習(xí)速率以及準確度等等,并不是在機架中塞進幾個ASIC芯片就能夠輕易解決的工作。我們要把盡可能快速的產(chǎn)生模型,盡可能讓模型更小,盡可能確保正確的結(jié)果輸出,背后的最大功臣就是開發(fā)工具。繼去年針對推理大幅進化的TensorRT3之后,我們現(xiàn)在推出了最新的TensorRT 4,支持更多主流框架,也更能把不同的神經(jīng)網(wǎng)絡(luò)部署到云服務(wù)器當(dāng)中。這個版本我們又更加強化了推理性能。
通過TensorRT、NCCL和cuDNN,以及面向機器人的全新Isaac軟件開發(fā)套件,基于GPU的計算生態(tài)也更加完整。此外,通過與領(lǐng)先云服務(wù)提供商的密切合作,各大主流深度學(xué)習(xí)框架都在持續(xù)優(yōu)化,以充分利用NVIDIA的GPU計算平臺。
NVIDIA新推出的DGX-2系統(tǒng)通過借鑒NVIDIA為所有層級的計算堆棧開發(fā)的各種業(yè)界領(lǐng)先的技術(shù)優(yōu)勢,實現(xiàn)了每秒2千萬億次浮點運算的里程碑式突破。
圖丨黃仁勛演講
DGX-2是首款采用NVSwitch的系統(tǒng),其中采用的16個GPU均共享統(tǒng)一的內(nèi)存空間。這讓開發(fā)者獲得了相應(yīng)的深度學(xué)習(xí)訓(xùn)練能力,以處理最大規(guī)模的數(shù)據(jù)集和最復(fù)雜的深度學(xué)習(xí)模型。
DGX-2能夠在不到兩天的時間內(nèi)完成對FAIRSeq的訓(xùn)練,F(xiàn)AIRSeq是一種采用最新技術(shù)的神經(jīng)網(wǎng)絡(luò)機器翻譯模型,其性能相較于去年9月份推出的基于Volta架構(gòu)的DGX-1提高了10倍。
我們在此也要宣布推出DRIVE Constellation計算平臺。該平臺基于兩個不同的服務(wù)器,第一臺服務(wù)器運行DRIVE Sim軟件來模擬自動駕駛汽車的傳感器,例如攝像頭、LiDAR和雷達,第二臺則包括英偉達強大的Drive Pegasus自駕車AI計算機,運行完整的自駕車軟件堆棧和處理過程,就像駕駛汽車的傳感器一樣。
通過虛擬仿真,人們可以通過測試數(shù)十億英里的自定義場景和罕見的場景案例來增強算法的穩(wěn)健性,最終所花的時間和成本只是在真實物理道路上需要的一小部分。
-
芯片
+關(guān)注
關(guān)注
459文章
52481瀏覽量
440620 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103562 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5308瀏覽量
106346
原文標題:剛剛Nvidia發(fā)布僅售250萬元的超級怪獸DGX-2|附黃仁勛演講實錄
文章出處:【微信號:eetop-1,微信公眾號:EETOP】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
NVIDIA發(fā)布AI優(yōu)先DGX個人計算系統(tǒng)
紫光閃存推出兩款PCIe 5.0固態(tài)硬盤
NVIDIA GTC2025 亮點 NVIDIA推出 DGX Spark個人AI計算機

研華兩款新品榮獲2025年德國iF設(shè)計大獎
NVIDIA 宣布推出 DGX Spark 個人 AI 計算機

LG UltraGear系列職業(yè)電競顯示器新品發(fā)布
華碩發(fā)布兩款搭載驍龍X平臺的全新AI PC
OPPO兩款新機成功入網(wǎng)
鼎陽科技銀河系列三款高端射頻新品重磅發(fā)布

評論