99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Series4擁有經(jīng)得起未來考驗(yàn)的性能和計(jì)算密度

Dbwd_Imgtec ? 來源:Imagination Tech ? 作者:Imagination Tech ? 2021-04-19 16:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

深度學(xué)習(xí)的多功能性和強(qiáng)大功能意味著現(xiàn)代神經(jīng)網(wǎng)絡(luò)在機(jī)器翻譯、動(dòng)作識(shí)別、任務(wù)規(guī)劃、情感分析和圖像處理等領(lǐng)域有著廣泛的應(yīng)用。隨著該領(lǐng)域的不斷成熟,不可避免的,專業(yè)化程度也越來越高,而且呈現(xiàn)加速的趨勢(shì)。這使保持現(xiàn)有技術(shù)水平成為一項(xiàng)挑戰(zhàn),更不用說預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)的未來計(jì)算需求了。

神經(jīng)網(wǎng)絡(luò)加速器 (NNA) IP 的設(shè)計(jì)者手頭有一項(xiàng)艱巨的任務(wù):確保他們的產(chǎn)品具有足夠的通用性,能夠應(yīng)用于當(dāng)前和未來非常廣泛的應(yīng)用,同時(shí)保證高性能。在Imagination公司最前沿的 IMG Series4 NNA 所針對(duì)的移動(dòng)、汽車、數(shù)據(jù)中心嵌入式領(lǐng)域中,對(duì)帶寬、面積和功耗有更嚴(yán)格的限制。Imagination公司的工程師們已經(jīng)找到了創(chuàng)新的方法來應(yīng)對(duì)這些嚴(yán)峻挑戰(zhàn),并提供超高性能和面向未來的IP。

利用率與靈活性

每個(gè)IMG Series4 多核NNA的核心是行業(yè)領(lǐng)先的卷積引擎陣列,每秒可執(zhí)行 10 萬億次操作。四核Series4 NNA每秒可完成驚人的40萬億次操作,簡(jiǎn)稱40TOPS。其架構(gòu)的一個(gè)顯著特點(diǎn)是效率:數(shù)據(jù)盡可能緊密地打包在卷積引擎的輸入上,以實(shí)現(xiàn)最大可能的利用率,這意味著芯片面積保持最小。Series4 NNA 包含幾個(gè)高度優(yōu)化、可快速配置的硬件模塊,用于池化、標(biāo)準(zhǔn)化和激活功能等操作。

這種專業(yè)化程度顯然在網(wǎng)絡(luò)與硬件很匹配的情況下獲得了巨大的回報(bào),也就是說,當(dāng)網(wǎng)絡(luò)由卷積層、池化層、激活層等“傳統(tǒng)”層組成,但是這樣的體系結(jié)構(gòu)如何擴(kuò)展以支持更復(fù)雜的操作,比如注意機(jī)制和非最大化抑制?

有兩個(gè)明顯的選擇:

在硬件中添加新的專用塊。

使硬件具有高度可編程性和通用性。

其中第一個(gè)主要問題是,它會(huì)導(dǎo)致硬件膨脹和暗硅——如果在一些應(yīng)用程序中需要多1%的計(jì)算時(shí)間,那么我們需要一個(gè)固定的功能模塊嗎?不——我們必須獲得盡可能重復(fù)使用硬件。這也意味著硬件總是保持最前沿的工藝技術(shù)。添加固定功能模塊說明硬件未來會(huì)過時(shí),NNA的設(shè)計(jì)師們之前遇到過不少硬件適用性受限于操作類型的案例。第一種方法導(dǎo)致硬件膨脹或強(qiáng)制使用額外的“協(xié)處理器”,如GPU、DSPCPU:硅面積、帶寬、能量和復(fù)雜性都會(huì)增加。大多數(shù)NNA 設(shè)計(jì)人員都選擇第二種方案。這種方法的例子是基于向量 ALU 和脈動(dòng)陣列的設(shè)計(jì)。復(fù)雜性從硬件轉(zhuǎn)移到軟件,這一切都符合計(jì)算機(jī)體系結(jié)構(gòu)中歷史悠久的 RISC(精簡(jiǎn)指令集計(jì)算機(jī))哲學(xué)。然而,要付出巨大的代價(jià)——計(jì)算密度的降低。為達(dá)到40 TOPS 的目標(biāo), Series4 NNA架構(gòu)師必須容忍芯片面積和功耗的大幅增長(zhǎng)。Imagination的研究人員認(rèn)為,一定存在第三種方式。他們的策略是利用新穎的編譯技術(shù)和他們稱之為“簡(jiǎn)化操作集計(jì)算”(ROSC)的新設(shè)計(jì)理念來?yè)Q取靈活性。

Series4 NNA具有巨大的計(jì)算密度,用于運(yùn)行標(biāo)準(zhǔn)層,如卷積層、池化層、激活層和完全連接的圖層,這些層占據(jù)了神經(jīng)網(wǎng)絡(luò)中大部分計(jì)算需求。從本質(zhì)上講,它具有冗余的計(jì)算能力。簡(jiǎn)單地說,ROSC 就是從這個(gè)簡(jiǎn)化的“操作集”中重新配置和重組操作,以構(gòu)建各種各樣的其他操作:乍一看,這些基礎(chǔ)操作似乎很難實(shí)現(xiàn)。這種重新分配任務(wù)通常會(huì)導(dǎo)致較低的利用率,因?yàn)橛布K并未用于其主要目的;但是,由于Series4 NNA具有如此多的原始計(jì)算能力,即使利用率為1%,例如每秒 400 千兆次操作,在其上運(yùn)行復(fù)雜操作的速度通常仍遠(yuǎn)遠(yuǎn)快于在“片外”執(zhí)行復(fù)雜操作的速度,例如在CPU或者GPU上。以這種方式在設(shè)備上保持處理可節(jié)省寶貴的系統(tǒng)資源,包括 CPU/GPU 時(shí)間、功率和帶寬。復(fù)雜操作可以實(shí)施為多個(gè)硬件通道的較簡(jiǎn)單操作計(jì)算圖。因此,Series4 NNA使用帶有張量分塊的新型片上存儲(chǔ)器系統(tǒng)來保持?jǐn)?shù)據(jù)本地化(有關(guān)此主題的詳細(xì)白皮書,請(qǐng)參看鏈接) - 這可以被用來以最小的系統(tǒng)開銷在多個(gè)硬件通道上運(yùn)行復(fù)雜的操作。

ROSC 概念背后的關(guān)鍵是,專用硬件模塊通??梢耘渲靡詧?zhí)行其他任務(wù)。即使由于這種重新分配任務(wù)而導(dǎo)致使用率下降,硬件的巨大計(jì)算能力也彌補(bǔ)了這一不足。這使得Series4 架構(gòu)師能夠吃上蛋糕——無需額外的硬件復(fù)雜性或面積,Series4可以在原始性能很重要的地方具備閃電般的速度,并且在必要時(shí),具有足夠的靈活性來處理任意復(fù)雜的高級(jí)操作。

不要低估架構(gòu)!

Series4有五種主要可配置的計(jì)算硬件模塊類型,可稱為:

卷積引擎

池化單元

標(biāo)準(zhǔn)化單元

元素操作單元

激活單元

圖1:?jiǎn)蝹€(gè)硬件模塊通??梢耘渲脼閳?zhí)行范圍非常廣泛的任務(wù)。這些可配置的硬件模塊每一個(gè)都比乍一看可能做的更多。例如,Series 4卷積引擎可以配置為執(zhí)行圖 1所示的操作(以及其他許多操作),而無需依賴于其他計(jì)算硬件模塊。使用幾個(gè)這樣的模塊的組合,可以實(shí)現(xiàn)更廣泛的操作范圍。事實(shí)上,Series4可以使用高級(jí)的圖形降低編譯器技術(shù)來配置,以覆蓋現(xiàn)代神經(jīng)網(wǎng)絡(luò)中遇到的幾乎所有操作。

標(biāo)簽可能具有誤導(dǎo)性。僅僅因?yàn)橐粋€(gè)硬件模塊被標(biāo)記為“卷積引擎”或“池化模塊”并不意味著這是它所能做的全部——在正確的人手中,這些模塊可以做的遠(yuǎn)遠(yuǎn)超過他們?cè)?a target="_blank">tin上所說的!下面給出了使用多個(gè)硬件模塊組合實(shí)施復(fù)雜操作的兩個(gè)示例。

Softmax

Softmax是神經(jīng)網(wǎng)絡(luò)中的一種常見操作,通常用于需要離散概率的場(chǎng)合。在某些情況下,它也用于使張量進(jìn)行歸一化,以便沿某個(gè)軸或多個(gè)軸的所有元素都在 [0,1]范圍內(nèi),且總和為1。在網(wǎng)絡(luò)中,Softmax通常只占計(jì)算的一小部分。例如,在大多數(shù) ImageNet 分類網(wǎng)絡(luò)中,Softmax占計(jì)算的最大比重不到 0.01%。為了與ROSC 避免將芯片面積浪費(fèi)為“暗硅”的策略保持一致,4系列 沒有專用的Softmax硬件;相反,它是在其他可用操作方面實(shí)現(xiàn)的。這使它成為我們?nèi)绾螒?yīng)用上述原則的一個(gè)最佳例子。從本質(zhì)上講,該策略是用一系列數(shù)學(xué)上相同但由硬件直接支持的操作構(gòu)成的操作(“計(jì)算子圖”)來替換Softmax。Softmax是一個(gè)復(fù)雜的操作,需要五個(gè)階段,如圖2所示。其中四個(gè)交叉通道最大化削減、指數(shù)、跨通道求和削減和除法——在Series4上也沒有專門的硬件!但是,我們可以在Series4上以創(chuàng)造性的方法運(yùn)行它們,如下所述。圖2:將Softmax分解為其組成部分。

一個(gè)1×1的卷積與權(quán)重張量和一個(gè)完全由1組成的過濾器可以用來實(shí)現(xiàn)跨通道的求和。

除法可以用一個(gè)張量與另一個(gè)張量的倒數(shù)相乘來實(shí)現(xiàn)。Series4的 LRN(本地響應(yīng)歸一化)模塊可以配置為計(jì)算倒數(shù)。

交叉通道最大值可以通過將信道轉(zhuǎn)換置到空間軸上并執(zhí)行一系列空間最大池化操作來實(shí)現(xiàn)。之后,它被轉(zhuǎn)置回通道軸上。

由于指數(shù)僅限于負(fù)值和零輸入值,激活 LUT 可以配置為指數(shù)衰減函數(shù)。

總之,這將產(chǎn)生一個(gè)替換子圖,其中包含大約10到15個(gè)操作(取決于輸入張量的大?。?,這些操作在幾個(gè)硬件過程中執(zhí)行。ROSC的見解是,這個(gè)圖比在CPU或協(xié)處理器上執(zhí)行更快、更簡(jiǎn)單。避免了完全可編程和專用固定功能硬件的兩種極端情況,并且編譯過程中包含了最容易管理的復(fù)雜性。

此外,用于Softmax的操作替換可以重用為其他高級(jí)操作。一旦實(shí)現(xiàn)了一些這樣的高級(jí)操作,就很容易看到如何構(gòu)建一個(gè)可重用操作替換庫(kù),從而使將來的操作更容易降到Series4。這就是ROSC如何引領(lǐng)未來。

三維卷積

卷積引擎和Series4中的相關(guān)數(shù)據(jù)輸入和輸出針對(duì)一維和二維卷積進(jìn)行了高度優(yōu)化——這非常有意義,因?yàn)樵诖蠖鄶?shù)CNN(卷積神經(jīng)網(wǎng)絡(luò))中,這些引擎占據(jù)了絕大多數(shù)計(jì)算量。

061e0f46-9ed7-11eb-8b86-12bb97331649.jpg

圖3:用二維卷積和元素求和實(shí)現(xiàn)的三維卷積。

但是,Series4硬件不支持三維和更高維度的卷積。三維卷積是復(fù)雜運(yùn)算的一個(gè)具體例子,可使用圖形降低技術(shù)將其降低到Series4。在這種情況下,該子圖是根據(jù)二維卷積和元素加法構(gòu)建的。無論編譯器在哪里“看到”原始置身事外中的三維卷積,在Series4上運(yùn)行的機(jī)器代碼生成前,編譯器都會(huì)用該子圖形的等效版本替換它。

圖3顯示了一個(gè)三維卷積的例子,在深度軸上,內(nèi)核大小為3,步長(zhǎng)為2。卷積在深度軸上展開。相同顏色的卷積具有相同的權(quán)重。這種策略很容易擴(kuò)展到高維和其他三維操作,如三維池和三維反褶積。這種三維卷積的方法是一個(gè)很好的例子,說明了如何將軟件設(shè)計(jì)成與硬件的優(yōu)點(diǎn)相結(jié)合,從而擴(kuò)展其適用性。

結(jié)論

高性能的神經(jīng)網(wǎng)絡(luò)加速器很難設(shè)計(jì),因?yàn)樗鼈冃枰胶鈨蓚€(gè)看似矛盾的目標(biāo):它們需要大量的并行性和計(jì)算密度,以便在幾分之一秒內(nèi)完成一個(gè)典型神經(jīng)網(wǎng)絡(luò)中的數(shù)百萬個(gè)操作;它們需要足夠的靈活性來處理這些問題現(xiàn)代神經(jīng)網(wǎng)絡(luò)中有數(shù)百種不同類型的操作,還有那些尚未被發(fā)明的操作!通常必須在高效、更固定的函數(shù)方法和效率較低但更通用的方法之間進(jìn)行折衷。Imagination公司的工程師們已經(jīng)開發(fā)出一種令人興奮的創(chuàng)新方法,它提供了兩全其美的效果。Series4不包含任何近似ALU的可編程性所需的東西,而是有幾個(gè)非常有效的硬件模塊,設(shè)計(jì)用于執(zhí)行特定的、通常發(fā)生的操作的計(jì)算。使用新的編譯技術(shù)可以實(shí)現(xiàn)完全的靈活性,通過這種技術(shù),可以從一組簡(jiǎn)化的基本操作中構(gòu)建非常廣泛的操作。這種方法被稱為簡(jiǎn)化運(yùn)算集計(jì)算(簡(jiǎn)稱ROSC)。通過以這種方式協(xié)調(diào)硬件和軟件設(shè)計(jì),Series4擁有經(jīng)得起未來考驗(yàn)的、世界一流的性能和計(jì)算密度,同時(shí)又不犧牲靈活性。

原文標(biāo)題:靈活、面向未來、高性能推理的簡(jiǎn)化操作集計(jì)算

文章出處:【微信公眾號(hào):Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:靈活、面向未來、高性能推理的簡(jiǎn)化操作集計(jì)算

文章出處:【微信號(hào):Imgtec,微信公眾號(hào):Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    ESP32-P4—具備豐富IO連接、HMI和出色安全特性的高性能SoC

    ESP32-P4搭載雙核RISC-V處理器,擁有 AI指令擴(kuò)展、先進(jìn)的內(nèi)存子系統(tǒng),并集成高速外設(shè)。ESP32-P4專為高性能和高安全的應(yīng)用設(shè)計(jì),充分滿足下一代嵌入式應(yīng)用對(duì)人機(jī)界面支持、
    發(fā)表于 06-30 11:01

    Vicor 高密度模塊電源為邊緣計(jì)算帶來成本效益

    邊緣計(jì)算對(duì)于充分發(fā)揮人工智能 (AI)、機(jī)器學(xué)習(xí)和物聯(lián)網(wǎng) (IoT) 的全部潛能至關(guān)重要。供電和供電效率對(duì)于下一代邊緣計(jì)算機(jī)系統(tǒng)優(yōu)化性能非常關(guān)鍵。 隨著邊緣計(jì)算機(jī)數(shù)據(jù)處理的增加,該行業(yè)
    發(fā)表于 05-16 13:34 ?760次閱讀

    密度、低功耗,關(guān)聯(lián)AI與云計(jì)算

    分布式存儲(chǔ)通過業(yè)界最高密設(shè)計(jì),可承載EB級(jí)數(shù)據(jù)量,同時(shí)最低功耗特性有效應(yīng)對(duì)直播、XR游戲等新興業(yè)務(wù)的數(shù)據(jù)存儲(chǔ)需求?。浪潮SA5248M4服務(wù)器采用模塊化設(shè)計(jì),實(shí)現(xiàn)4計(jì)算密度提升,并通
    的頭像 發(fā)表于 04-01 08:25 ?339次閱讀
    高<b class='flag-5'>密度</b>、低功耗,關(guān)聯(lián)AI與云<b class='flag-5'>計(jì)算</b>

    FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預(yù)測(cè)......

    的發(fā)展,加速創(chuàng)新和降低成本。 總之,F(xiàn)PGA與AI的結(jié)合正在重塑芯片生態(tài),推動(dòng)技術(shù)融合、應(yīng)用拓展和產(chǎn)業(yè)變革。未來,F(xiàn)PGA將在AI加速、邊緣計(jì)算和高性能計(jì)算等領(lǐng)域發(fā)揮重要作用,同時(shí)其
    發(fā)表于 03-03 11:21

    ADS1285如何計(jì)算等效噪聲和等效噪聲功率譜密度?

    通過短接adc輸入端,得到內(nèi)部噪聲數(shù)據(jù) 請(qǐng)問如何計(jì)算公式計(jì)算等效噪聲和等效噪聲功率譜密度
    發(fā)表于 11-19 08:25

    15TS Series 1500W Transient Voltage Suppressor

    15TS Series 1500W Transient Voltage Suppressor指的是一系列高性能的瞬態(tài)電壓抑制二極管(Transient Voltage Suppressor,TVS
    發(fā)表于 11-13 21:54

    AI高性能計(jì)算平臺(tái)是什么

    AI高性能計(jì)算平臺(tái)不僅是AI技術(shù)發(fā)展的基石,更是推動(dòng)AI應(yīng)用落地、加速產(chǎn)業(yè)升級(jí)的重要工具。以下,是對(duì)AI高性能計(jì)算平臺(tái)的介紹,由AI部落小編為您整理分享。
    的頭像 發(fā)表于 11-11 09:56 ?708次閱讀

    邊緣計(jì)算未來發(fā)展趨勢(shì)

    的網(wǎng)絡(luò)環(huán)境。未來,邊緣計(jì)算將與5G技術(shù)進(jìn)一步融合,推動(dòng)更多創(chuàng)新應(yīng)用的落地。 同時(shí),邊緣計(jì)算與人工智能(AI)技術(shù)的結(jié)合也將更加緊密。AI技術(shù)將優(yōu)化邊緣節(jié)點(diǎn)的性能,實(shí)現(xiàn)設(shè)備的自學(xué)習(xí)和自適
    的頭像 發(fā)表于 10-24 14:21 ?1846次閱讀

    如何提高云計(jì)算性能和效率

    提高云計(jì)算性能和效率是一個(gè)多維度的問題,需要從計(jì)算性能、存儲(chǔ)性能、網(wǎng)絡(luò)性能等多個(gè)方面入手。以下
    的頭像 發(fā)表于 10-24 09:23 ?1081次閱讀

    嵌入式系統(tǒng)的未來趨勢(shì)有哪些?

    嵌入式系統(tǒng)是指將我們的操作系統(tǒng)和功能軟件集成于計(jì)算機(jī)硬件系統(tǒng)之中,形成一個(gè)專用的計(jì)算機(jī)系統(tǒng)。那么嵌入式系統(tǒng)的未來趨勢(shì)有哪些呢? 1. 人工智能與機(jī)器學(xué)習(xí)的整合 隨著現(xiàn)代人工智能(AI)和機(jī)器學(xué)習(xí)
    發(fā)表于 09-12 15:42

    樹莓派4b和什么性能計(jì)算機(jī)相當(dāng)

    樹莓派4B與何種性能計(jì)算機(jī)相當(dāng),這個(gè)問題涉及到多個(gè)方面的比較,包括處理器性能、內(nèi)存大小、接口豐富度以及應(yīng)用場(chǎng)景等。以下是從這些方面進(jìn)行的綜合分析: 1. 處理器
    的頭像 發(fā)表于 08-30 17:01 ?2088次閱讀

    密度存儲(chǔ)系統(tǒng)集成必選,8盤位SATA/SAS熱插拔硬盤抽取盒

    不得不向體積妥協(xié),這似乎與追求緊湊設(shè)計(jì)的未來趨勢(shì)背道而馳。然而,高密度存儲(chǔ),作為一種先進(jìn)的存儲(chǔ)解決方案,以其高性能、大容量、高密度等特點(diǎn),切實(shí)滿足備份、高
    的頭像 發(fā)表于 08-30 16:41 ?821次閱讀
    高<b class='flag-5'>密度</b>存儲(chǔ)系統(tǒng)集成必選,8盤位SATA/SAS熱插拔硬盤抽取盒

    計(jì)算運(yùn)放電路中電阻噪聲密度時(shí),等效電阻值為什么是RI和Rf的并聯(lián)值?

    計(jì)算運(yùn)放電路中電阻噪聲密度時(shí),等效電阻值為什么是RI和Rf的并聯(lián)值?同樣噪聲增益的情況下,同相放大和方向放大的電阻噪聲密度有啥區(qū)別?電路圖如下所示:
    發(fā)表于 08-15 07:32

    288芯MPO光纖配線架 萬兆高密度OM3OM4配置詳解

    288芯MPO光纖配線架 萬兆高密度OM3OM4配置詳解
    的頭像 發(fā)表于 07-30 09:53 ?1053次閱讀
    288芯MPO光纖配線架 萬兆高<b class='flag-5'>密度</b>OM3OM<b class='flag-5'>4</b>配置詳解

    pcb板密度,影響性能的重要因素

    PCB電路板密度是指PCB 上元件和布線的密集程度,pcb板密度是評(píng)估 PCB 設(shè)計(jì)質(zhì)量和性能的重要指標(biāo)之一。捷多邦小編整理了關(guān)于pcb板密度的相關(guān)內(nèi)容,一起看看吧~ 較高的PCB 板
    的頭像 發(fā)表于 07-25 17:26 ?1552次閱讀