訓練先進的人工智能系統(tǒng)所需的巨大計算資源意味著,經(jīng)驗豐富的科技公司將學術(shù)團隊置于塵埃中。但是一種新方法可以幫助平衡規(guī)模,使科學家可以在一臺計算機上解決最先進的AI問題。
OpenAI 2018年的一份報告發(fā)現(xiàn),用于訓練最強大的人工智能的處理能力正以驚人的速度增長,每3.4個月翻一番。最需要數(shù)據(jù)的方法之一是深度強化學習,其中AI通過遍歷數(shù)百萬次仿真來通過反復試驗來學習。電子游戲如《星際爭霸》和《Dota2》的最新進展都依賴于裝有數(shù)百個CPU和GPU的服務器。
諸如Cerebras System的Wafer Scale Engine之類的專用硬件有望用完美優(yōu)化用于訓練AI的單個大型芯片來取代這些機架式處理器。但是,由于價格高達數(shù)百萬美元,對于資金不足的研究人員來說,這并不是什么安慰。
現(xiàn)在,來自南加州大學和英特爾實驗室的一個團隊已經(jīng)發(fā)明了一種在學術(shù)實驗室中常用的硬件上訓練深度強化學習(reinforcement learning,RL)算法的方法。在近日舉行的2020國際機器學習大會(International Conference on Machine Learning,ICML)上發(fā)表的一篇論文中,他們描述了如何能夠使用一個高端工作站來訓練人工智能,在第一人稱射擊游戲Doom上擁有最先進的表現(xiàn)。他們還使用一小部分正常計算能力來解決DeepMind提出的30種多樣化3D挑戰(zhàn)套件。
德州大學奧斯汀分校(University of Texas at Austin)專門研究深度RL的教授Peter Stone說:“發(fā)明對商品硬件進行深度RL的方法是一個了不起的研究目標。并且,除了將較小的研究小組拋在身后之外,進行此類研究通常所需的計算資源也會產(chǎn)生大量的碳足跡?!?/p>
USC研究生的主要作者Aleksei Petrenko說,該項目的靈感來自于必須成為發(fā)明之母的經(jīng)典案例。隨著在英特爾的暑期實習期結(jié)束,Petrenko失去了進入該公司的超級計算集群的權(quán)限,這使尚未完成的深度RL項目陷入危險之中。因此,他和同事決定找到一種方法來繼續(xù)進行簡單系統(tǒng)的工作。
使用一臺配備36核CPU和一個GPU的機器,研究人員能夠在接受Atari視頻游戲和Doom訓練時每秒處理大約14萬幀圖像,或者是次優(yōu)方法的兩倍。
Using a single machine equipped with a 36-core CPU and one GPU, the researchers were able to process roughly 140,000 frames per second while training on Atari videogames and Doom, or double the next best approach.
“根據(jù)我的經(jīng)驗,很多研究人員無法接觸到尖端的、花哨的硬件,”Petrenko說。“我們意識到,只要重新考慮如何最大限度地提高硬件利用率,實際上就可以接近通常從大型集群中擠出的性能,即使是在單個工作站上?!?/p>
深度RL的主要方法是將AI代理置于一個模擬環(huán)境中,該環(huán)境為實現(xiàn)特定目標提供獎勵,agent將此作為反饋來制定最佳策略。這涉及三個主要的計算工作:模擬環(huán)境和代理;根據(jù)學習到的規(guī)則(稱為策略)決定下一步要做什么;以及使用這些操作的結(jié)果來更新策略。
Petrenko說,培訓總是受到最慢流程的限制,但這三個工作通常在標準的深層次RL方法中交織在一起,因此很難單獨優(yōu)化它們。研究人員的新方法被稱為“樣本工廠(Sample Factory)”,將它們分開,這樣就可以投入資源讓它們都以峰值速度運行。
Petrenko解釋說,進程之間的管道數(shù)據(jù)是另一個主要瓶頸,因為這些數(shù)據(jù)通常會分布在多臺機器上。他的團隊利用在一臺機器上工作的優(yōu)勢,只需將所有數(shù)據(jù)塞進共享內(nèi)存中,所有進程都可以即時訪問這些數(shù)據(jù)。
與領(lǐng)先的深度RL方法相比,這形成了顯著的加速。使用一臺配備36核CPU和一個GPU的機器,研究人員能夠在接受Atari視頻游戲和Doom訓練時每秒處理大約14萬幀圖像,或者是次優(yōu)方法的兩倍。在三維訓練環(huán)境DeepMind實驗室中,他們每秒的幀數(shù)為40000幀,比第二名高出15%。
為了檢查幀速率是如何轉(zhuǎn)化為訓練時間的,研究小組將樣本工廠(Sample Factory)與谷歌大腦(Google Brain)在3月份開源的一種算法進行了比較,該算法旨在顯著提高深度RL的效率。研究小組還在DeepMind實驗室用一臺功能更強大的36核4-GPU機器,對30個挑戰(zhàn)進行了測試。由此產(chǎn)生的人工智能的性能明顯優(yōu)于DeepMind用來應對挑戰(zhàn)的原始人工智能,后者是在大型計算集群上訓練的。
雖然論文中使用的計算機仍然是為人工智能研究而設(shè)計的高端工作站,但Petrenko說,他和他的合作者也一直在更簡單的設(shè)備上使用樣品工廠。他說,他甚至可以在他的中檔游戲筆記本電腦上進行一些高級的深度RL實驗。“這是前所未聞的?!?/p>
-
計算機
+關(guān)注
關(guān)注
19文章
7663瀏覽量
90820 -
AI
+關(guān)注
關(guān)注
88文章
35164瀏覽量
280014 -
人工智能系統(tǒng)
+關(guān)注
關(guān)注
0文章
39瀏覽量
10767
原文標題:現(xiàn)在可以在一臺計算機上訓練強大的AI啦
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
NVIDIA驅(qū)動的現(xiàn)代超級計算機如何突破速度極限并推動科學發(fā)展

高性能計算集群在AI領(lǐng)域的應用前景

使用CY3014USB芯片組制作了一臺相機,視頻顯示延遲怎么解決?
如何搭建和部署一臺本地大模型Ai計算機
NVIDIA GTC2025 亮點 NVIDIA推出 DGX Spark個人AI計算機

NVIDIA 宣布推出 DGX Spark 個人 AI 計算機

NVIDIA推出個人AI超級計算機Project DIGITS
西湖大學:科學家+AI,科研新范式的樣本

評論