現(xiàn)代微處理器通常能夠通過分層緩存來隱藏計(jì)算與內(nèi)存之間的大部分差距。這是因?yàn)樵S多負(fù)載表現(xiàn)出相對(duì)可預(yù)測(cè)的一般內(nèi)存模式,可以通過空間局部性和時(shí)間局部性加以利用。有些負(fù)載還尷尬地并行。例如,人工智能負(fù)載往往表現(xiàn)出這種行為。只要你持續(xù)為機(jī)器提供數(shù)據(jù),更多計(jì)算就相當(dāng)于更高性能。人工智能負(fù)載往往具有非常可預(yù)測(cè)的內(nèi)存模式以及較高的數(shù)據(jù)重新利用能力,這有助于實(shí)現(xiàn)上述所有目標(biāo)。
不幸的是,并非所有算法都具有這些理想的特性。圖就是這樣一個(gè)例子。企業(yè)廣泛地使用圖來處理大數(shù)據(jù)。這些數(shù)據(jù)結(jié)構(gòu)往往有上萬(wàn)億個(gè)邊緣,并采用特殊的圖算法對(duì)數(shù)據(jù)進(jìn)行操作。圖算法采用非常隨機(jī)的內(nèi)存訪問模式,導(dǎo)致負(fù)載受到內(nèi)存延遲的高度限制,迫使計(jì)算元素在很多時(shí)候陷入停滯。它本質(zhì)上是一個(gè)非常大的指針追逐問題,表現(xiàn)出與運(yùn)行在GPU和CPU上的大多數(shù)負(fù)載相矛盾的行為。
更糟的是,圖算法往往具有非常差的次線性縮放特性。你根本無(wú)法通過投入更多處理器來解決這個(gè)問題。由于數(shù)據(jù)的稀疏性和不規(guī)則性,下一個(gè)數(shù)據(jù)訪問通常是在一個(gè)完全不同的節(jié)點(diǎn)上,傳輸數(shù)據(jù)最終會(huì)導(dǎo)致整個(gè)系統(tǒng)出現(xiàn)瓶頸。
美國(guó)國(guó)防部分層識(shí)別驗(yàn)證及利用計(jì)劃(DARPA HIVE)
分層識(shí)別驗(yàn)證及利用(HIVE)計(jì)劃是美國(guó)國(guó)防部正在開展的一項(xiàng)計(jì)劃,目標(biāo)是解決這些缺點(diǎn)。HIVE采用軟硬件雙管齊下的方式。針對(duì)該計(jì)劃的硬件部分,正在開發(fā)用于圖處理的下一代ASIC。針對(duì)軟件部分,正在開發(fā)一個(gè)新的全棧圖框架。美國(guó)國(guó)防部希望通過專門的圖處理器和優(yōu)化的軟件棧,實(shí)現(xiàn)比當(dāng)前同類最佳的GPU高1000倍的性能效率。
在上個(gè)月底舉行的DARPA ERI峰會(huì)上,Peter Wang介紹了該項(xiàng)目的最新進(jìn)展。Wang是Anaconda公司的聯(lián)合創(chuàng)始人兼首席技術(shù)官。他也是HIVE軟件架構(gòu)的首席研究員。
介紹英特爾PUMA團(tuán)隊(duì)
英特爾負(fù)責(zé)HIVE的硬件架構(gòu)部分,他們正在開發(fā)一個(gè)新的架構(gòu)來解決這些問題。在英特爾的數(shù)據(jù)中心事業(yè)部?jī)?nèi)部有一個(gè)名為PUMA的秘密團(tuán)隊(duì)。他們負(fù)責(zé)圖分析(GA)處理器的開發(fā)。這是他們正在秘密開發(fā)的一個(gè)完整產(chǎn)品,英特爾打算最終將其商業(yè)化。
新的圖處理器基于一種新開發(fā)的架構(gòu),被稱為可編程統(tǒng)一內(nèi)存架構(gòu)或PUMA。這是一種新的架構(gòu),用于整個(gè)全局統(tǒng)一內(nèi)存空間的小型不規(guī)則內(nèi)存訪問。在這種架構(gòu)下,芯片放棄了現(xiàn)代CPU和GPU所使用的許多基本假設(shè)——它并不假設(shè)自己擁有附近所有內(nèi)存,它并不假設(shè)內(nèi)存訪問會(huì)在不久的將來重復(fù)執(zhí)行,它也不假設(shè)對(duì)特定地址的內(nèi)存訪問意味著附近的內(nèi)存地址也將被訪問。Wong說:“通過拋棄這些基本假設(shè),你可以圍繞對(duì)全局統(tǒng)一數(shù)據(jù)的小訪問而構(gòu)建一個(gè)完全不同的硬件架構(gòu)。然后,在每個(gè)階段,每當(dāng)有一個(gè)有線互聯(lián)或者任何把一個(gè)計(jì)算單元連接到其它一些數(shù)據(jù)單元或其它計(jì)算單元的東西,每一個(gè)點(diǎn)都針對(duì)延遲進(jìn)了優(yōu)化。” PUMA從根本上改變了與內(nèi)存訪問相關(guān)的行為,使內(nèi)存訪問更小、更有效,并使訪問這些內(nèi)存的延遲更長(zhǎng),但在整個(gè)系統(tǒng)中實(shí)現(xiàn)扁平化。
PUMA實(shí)現(xiàn)機(jī)箱級(jí)完全集成,可以跨處理元件和內(nèi)存進(jìn)行良好的通信。它旨在擴(kuò)展到大型系統(tǒng),在多個(gè)機(jī)架和多個(gè)集群上使用。
Wang根據(jù)英特爾的內(nèi)部模擬結(jié)果給出了一些初步性能數(shù)據(jù)。他說:“節(jié)點(diǎn)縮放確實(shí)是一個(gè)關(guān)鍵問題。當(dāng)我們討論上萬(wàn)億個(gè)邊緣的時(shí)候,我們知道這些數(shù)字會(huì)變得更大。”為此,Wang報(bào)告了超過80%的縮放效率。他補(bǔ)充道:“這實(shí)際上讓我們能夠并行化解決圖問題的方法。”
軟件基礎(chǔ)設(shè)施
HIVE的第二階段是構(gòu)建軟件基礎(chǔ)設(shè)施。新軟件不僅必須與新硬件兼容,而且必須與現(xiàn)有CPU和GPU兼容。此外,新軟件必須支持?jǐn)?shù)據(jù)科學(xué)屆使用的大量現(xiàn)有軟件?,F(xiàn)有的大量軟件都是為了以某種方式解決特定的圖問題而開發(fā)的。該計(jì)劃的部分目標(biāo)是能夠?qū)F(xiàn)有的軟件和庫(kù)連接到HIVE軟件框架中,以便使其更易于投入使用。
當(dāng)前的軟件包括通過API公開的算法、數(shù)據(jù)的內(nèi)部圖表示以及硬件后端(GPU、CPU、FPGA或ASIC)。Wang解釋說,在當(dāng)前平臺(tái)下,必須做出重大取舍,無(wú)論是針對(duì)某種類型的硬件進(jìn)行優(yōu)化還是針對(duì)某些算法進(jìn)行優(yōu)化。Wang說: “如果你專門從事圖表示,那么你就會(huì)與數(shù)據(jù)科學(xué)生態(tài)系統(tǒng)脫節(jié),因?yàn)槟惚磺袛嗔伺c一些重要庫(kù)的聯(lián)系?!?/p>
作為HIVE第二階段一部分,他們正在開發(fā)模塊化架構(gòu)框架?,F(xiàn)有軟件正在重新納入它們的組成部分,以便可以根據(jù)該軟件最佳功能將其插入到框架中。該結(jié)構(gòu)包括Workflow Scheduler和Dispatch Engine,用于把User API負(fù)載任務(wù)路由到后端。他們利用DASK任務(wù)調(diào)度程序來執(zhí)行此操作。這也是他們進(jìn)行后端切換和調(diào)度的方式。順便說一句,值得注意的是,雖然他們正在與英特爾密切合作,共同開發(fā)這個(gè)框架,以便能夠通過PUMA架構(gòu)實(shí)現(xiàn)其性能目標(biāo),但是軟件框架并不是專門為PUMA設(shè)計(jì)的。事實(shí)上,它們完全針對(duì)廣泛的硬件,以便數(shù)據(jù)科學(xué)家立即能夠跨越CPU、GPU和FPGA,充分利用相同的軟件基礎(chǔ)設(shè)施。并最終使用相同的基礎(chǔ)架構(gòu),利用PUMA圖處理器來加速相同的負(fù)載。
值得一提的是,如果有必要,在后端,框架可包含一組能夠轉(zhuǎn)換不同格式數(shù)據(jù)的轉(zhuǎn)換器。
這種設(shè)計(jì)有兩大好處——集成新硬件意味著設(shè)計(jì)了一個(gè)新的硬件后端,如果數(shù)據(jù)模型與現(xiàn)有模型不同,則添加對(duì)數(shù)據(jù)模型的支持,并添加一個(gè)可以從現(xiàn)有數(shù)據(jù)模型轉(zhuǎn)換到新數(shù)據(jù)模型的轉(zhuǎn)換器。同樣,集成一個(gè)新的User API只需要在其中一個(gè)硬件上添加一個(gè)接口并至少采用一種算法。
最終,HIVE的總體目標(biāo)就是統(tǒng)一和簡(jiǎn)化“讓圖軟件與硬件進(jìn)行優(yōu)化通信的”流程,只需讓硬件廠商提供其硬件并為其集成一個(gè)良好的后端,同時(shí)讓數(shù)據(jù)科學(xué)家能夠通過自己的API和算法來充分利用該硬件。
Wang透露,從明年開始,用戶有望看到開源的初始源代碼。
責(zé)任編輯:tzh
-
FPGA
+關(guān)注
關(guān)注
1645文章
22050瀏覽量
618739 -
asic
+關(guān)注
關(guān)注
34文章
1247瀏覽量
122439 -
cpu
+關(guān)注
關(guān)注
68文章
11082瀏覽量
217161 -
gpu
+關(guān)注
關(guān)注
28文章
4949瀏覽量
131295 -
微處理器
+關(guān)注
關(guān)注
11文章
2383瀏覽量
84205
發(fā)布評(píng)論請(qǐng)先 登錄
下一代高速芯片晶體管解制造問題解決了!
下一代PX5 RTOS具有哪些優(yōu)勢(shì)
中國(guó)下一代半導(dǎo)體研究超越美國(guó)
百度李彥宏談?dòng)?xùn)練下一代大模型
使用下一代GaNFast和GeneSiC Power實(shí)現(xiàn)電氣化我們的世界

AGC Inc:玻璃基板正在向美國(guó)和中國(guó)客戶提供樣品

意法半導(dǎo)體下一代汽車微控制器的戰(zhàn)略部署
現(xiàn)代汽車招募專家以加速推進(jìn)下一代全固態(tài)電池開發(fā)
控制當(dāng)前和下一代功率控制器的輸入功率

通過電壓轉(zhuǎn)換啟用下一代ADAS域控制器應(yīng)用說明

實(shí)現(xiàn)下一代具有電壓電平轉(zhuǎn)換功能的處理器、FPGA 和ASSP

實(shí)現(xiàn)具有電平轉(zhuǎn)換功能的下一代無(wú)線信標(biāo)

通過下一代引線式邏輯IC封裝實(shí)現(xiàn)小型加固型應(yīng)用

下一代高功能新一代AI加速器(DRP-AI3):10x在高級(jí)AI系統(tǒng)高級(jí)AI中更快的嵌入處理

評(píng)論