在加速計算領域25年,英偉達用15億塊GPU的出貨量交上了一份學霸成績單。
這每一塊GPU都兼容CUDA,都采用同一個架構——這是黃仁勛的GPU帝國中最可圈可點的一筆。統(tǒng)一的架構,可以用于各種工作負載去實現(xiàn)加速計算;在芯片起點之上,通過完整的堆棧工程可進一步實現(xiàn)加速。
CUDA平臺具有豐富的庫、工具和應用程序,僅去年就發(fā)布了500多個SDK和庫,其中既有全新內容,也有更新版本。通過不斷優(yōu)化,深度學習訓練在3年內提升了4倍、深度學習推理在1年內提高了2倍。
過去幾年內,AI取得了巨大的進展,開始逐步改變各個行業(yè)。從圖象識別、圖象分類到識別不同的物體等,甚至能夠識別圖象中的每一個像素。這背后,深度學習的驅動力量是巨大的。在今年的GTC上,黃仁勛也重點介紹了英偉達在推薦系統(tǒng)和會話式AI二大方向的重大進展。
在線推薦系統(tǒng)為“雙11”提速
推薦系統(tǒng)已經(jīng)成為互聯(lián)網(wǎng)的重要引擎。我們在線購物時有數(shù)十億的產(chǎn)品有待選擇,上萬億的網(wǎng)頁可供瀏覽、上百萬的視頻以及應用……如何將合適的內容、產(chǎn)品在合適的時間推送給用戶?這是所有電商平臺、社交媒體等面臨的最大痛點。
這背后需要非常深入地理解每一個用戶的偏好、歷史行為等,以及每一個產(chǎn)品多種多樣的特性,這幾乎形成了一個TB級的數(shù)據(jù)集。
而一個最為生動的案例就是阿里巴巴的年度購物節(jié)“雙11”。今年“雙11”,阿里巴巴創(chuàng)造了380億美元的銷售額,相比于去年的310億美元,增長了近四分之一,是“黑色星期五”和“網(wǎng)購星期一”的網(wǎng)購銷售額總和的兩倍多。
對于阿里巴巴來說,推薦系統(tǒng)是一個至關重要的應用程序。該系統(tǒng)可以向用戶展示與其喜好相匹配的商品,從而提高點擊率。而點擊率在電商行業(yè)一直都是提高銷售量的重要驅動力。點擊率的每一次小幅提高都會直接影響用戶的體驗和商家的營收。
阿里巴巴使用NVIDIA GPU支持資源分配、模型量化和圖變換三項優(yōu)化策略,從而提高吞吐量和響應性。通過NVIDIA T4 GPU,能夠為推薦模型提供加速,實現(xiàn)每秒處理780個查詢,遠遠領先于基于CPU每秒3個查詢的推理。
英偉達加速計算產(chǎn)品管理總監(jiān)Paresh Kharya表示,推薦系統(tǒng)所面臨的挑戰(zhàn)是巨大的,主要體現(xiàn)在兩方面:第一,這些模型極其復雜,因為需要處理的數(shù)據(jù)量是海量的。為了提升推薦的相關度,必須要對所有參數(shù)來進行建模。比如:用戶的一些購買記錄、瀏覽記錄等,要處理的參數(shù)非常多。第二,這些模型要做出實時的計算,因為用戶在瀏覽時需要立刻看到推薦結果,不可能等待很長時間。
這兩大挑戰(zhàn)都需要以非常快的速度完成計算,阿里巴巴從CPU轉移到GPU的使用后,點擊通過率提升了10%。而事實上,這樣的“點擊率”每提升一點點都是非常困難的,GPU由于其實時性、大規(guī)模運行的特性能夠用于這一系統(tǒng)中。
而不僅僅是電子商務領域,只要是需要將產(chǎn)品與人之間進行匹配都需要用到這樣的推薦系統(tǒng)。百度、快手、美團、微軟必應,甚至一些傳統(tǒng)企業(yè)如:沃爾瑪、美國郵政等等,都在其推薦系統(tǒng)中采用了英偉達的GPU平臺。
值得一提的是,其他的處理器如FPGA目前也在發(fā)力推薦系統(tǒng)這一領域。Paresh Kharya表示,AI的更新迭代非常快,模型的規(guī)模非常大,每隔幾分鐘就在進行更新,整個推理過程不斷在變化,因此需要不斷對這些模型進行訓練,才可以進行有效的推薦,這需要大量的算力。GPU可以說是AI領域的專用芯片,有指令集優(yōu)勢、全可編程、并且是軟件定義的。此外,架構也是向前兼容的,整個硬件架構可以隨著軟件不斷更新,而且是在軟件庫就可以直接更新。
不光是GPU能提供的算力,英偉達也在通過工具和軟件來提供支持。比如通過最新的TensorRT來支持模型在各種情景下的部署,并且支持上百萬用戶在每秒內做數(shù)十億的搜索。
會話式AI通往真正的人工智能人機交互
在會話式AI方面,黃仁勛宣布了最新版本的推理軟件NVIDIA Tensor RT7,它能夠實現(xiàn)更智能的AI人機交互,可實現(xiàn)與語音代理、聊天機器人和推薦引擎等應用進行實時互動。
實現(xiàn)會話式AI的難點主要在于什么?Paresh Kharya表示,要實現(xiàn)會話式AI,首先,需要理解用戶到底在說什么,然后將他所說的語音轉化成文字,然后理解文字的意思,再把它轉化成語言,所以涉及很多模型同時發(fā)揮作用,需要多種多樣的神經(jīng)網(wǎng)絡提供支持。第二,所有這個復雜計算的過程必須要在300毫秒之內完成,假設如果需要幾秒鐘的話,這在實際的對話中是無法容忍的時延,會話式AI也就失去了意義。
TensorRT 7內置新型深度學習編譯器。該編譯器能夠自動優(yōu)化和加速遞歸神經(jīng)網(wǎng)絡與基于轉換器的神經(jīng)網(wǎng)絡。與在CPU上運行時相比,會話式AI組件速度提高了10倍以上,從而得以實現(xiàn)所需的300毫秒閾值以下。
對于在會話式AI領域的投入,黃仁勛表示:“我們已進入了一個機器可以實時理解人類語言的AI新時代。TensorRT 7使這成為可能,為世界各地的開發(fā)者提供工具,使他們能夠構建和部署更快、更智能的會話式AI服務,實現(xiàn)更自然的AI人機交互?!?/p>
TensorRT是英偉達的推理優(yōu)化軟件。英偉達的GPU不論是用在自動駕駛、數(shù)據(jù)中心,還是嵌入式設備等領域,都需要運行在PyTorch、TensorFlow等多個框架中訓練自我優(yōu)化的AI模型,TensorRT能夠提供這種優(yōu)化的模型。
由于AI有多種多樣的使用場景,不同場景由不同的神經(jīng)網(wǎng)絡提供支持。而為了優(yōu)化AI性能,也需要優(yōu)化各種各樣的神經(jīng)網(wǎng)絡。TensorRT 7的推出算是跨出了巨大的一步,Transformer和RNN這些模型,都可以用TensorRT 7來進行優(yōu)化。其中,Transformer典型的模型是BERT,有很多非常先進的自然語言理解的功能;RNN的典型例子就是語音識別或者將文本轉化成語音。
英偉達對TensorRT 7也進行了大量的優(yōu)化,例如很多數(shù)學的運算,確保能夠更加高效、并且減少使用的內存。另外,TensorRT 7中引入了內核生成的功能,用任何RNN都可以生成一個優(yōu)化的內核。對比TensorRT 5僅能支持種類很少的幾個神經(jīng)網(wǎng)絡,TensorRT 7基本上可以支持各大類神經(jīng)網(wǎng)絡,這些模型對于“會話式AI”是至關重要的。
首次兼容arm架構做加速計算
在GTC上,英偉達還釋放出了一個很值得玩味的信息:宣布推出基于arm的首個參考架構——NVIDIA HPC for arm.雙方這一合作,究竟是英偉達加入arm的生態(tài),還是arm擁抱英偉達的江湖?
英偉達方面只是淡淡一句:希望不論是數(shù)據(jù)中心還是邊緣計算,不論是AI還是高性能計算,都能給客戶更多選擇。之前arm不支持CUDA,客戶已反復要求我們使用CUDA加速arm,并將arm服務器打造成HPC和AI的理想選擇。
全球有1500億臺基于arm架構的設備,為客戶想實現(xiàn)的創(chuàng)新提供多種功能:包括互聯(lián)、內存、CPU內核、計算能力等多元化的支持。
在邊緣計算領域,英偉達已有arm架構許可;超算領域,雙方于今年6月宣布了合作。兩個強大平臺和生態(tài)的握手,也并不意外。
-
NVIDIA
+關注
關注
14文章
5309瀏覽量
106454 -
gpu
+關注
關注
28文章
4949瀏覽量
131283 -
英偉達
+關注
關注
22文章
3953瀏覽量
93830
發(fā)布評論請先 登錄
《CST Studio Suite 2024 GPU加速計算指南》

評論