国产成人婷婷超碰电影,title:国产字母小电影,五月色综合婷婷91蜜桃

深度學(xué)習(xí)的多功能性和強(qiáng)大功能意味著現(xiàn)代神經(jīng)網(wǎng)絡(luò)在機(jī)器翻譯、動(dòng)作識(shí)別、任務(wù)規(guī)劃、情感分析和圖像處理等領(lǐng)域有著廣泛的應(yīng)用。隨著該領(lǐng)域的不斷成熟，不可避免的，專業(yè)化程度也越來越高，而且呈現(xiàn)加速的趨勢(shì)。這使保持現(xiàn)有技術(shù)水平成為一項(xiàng)挑戰(zhàn)，更不用說預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)的未來計(jì)算需求了。

神經(jīng)網(wǎng)絡(luò)加速器（NNA） IP 的設(shè)計(jì)者手頭有一項(xiàng)艱巨的任務(wù)：確保他們的產(chǎn)品具有足夠的通用性，能夠應(yīng)用于當(dāng)前和未來非常廣泛的應(yīng)用，同時(shí)保證高性能。在Imagination公司最前沿的 IMG Series4 NNA 所針對(duì)的移動(dòng)、汽車、數(shù)據(jù)中心和嵌入式領(lǐng)域中，對(duì)帶寬、面積和功耗有更嚴(yán)格的限制。Imagination公司的工程師們已經(jīng)找到了創(chuàng)新的方法來應(yīng)對(duì)這些嚴(yán)峻挑戰(zhàn)，并提供超高性能和面向未來的IP。

利用率與靈活性

每個(gè)IMG Series4 多核NNA的核心是行業(yè)領(lǐng)先的卷積引擎陣列，每秒可執(zhí)行 10 萬億次操作。四核Series4 NNA每秒可完成驚人的40萬億次操作，簡(jiǎn)稱40TOPS。其架構(gòu)的一個(gè)顯著特點(diǎn)是效率：數(shù)據(jù)盡可能緊密地打包在卷積引擎的輸入上，以實(shí)現(xiàn)最大可能的利用率，這意味著芯片面積保持最小。Series4 NNA 包含幾個(gè)高度優(yōu)化、可快速配置的硬件模塊，用于池化、標(biāo)準(zhǔn)化和激活功能等操作。

這種專業(yè)化程度顯然在網(wǎng)絡(luò)與硬件很匹配的情況下獲得了巨大的回報(bào)，也就是說，當(dāng)網(wǎng)絡(luò)由卷積層、池化層、激活層等“傳統(tǒng)”層組成，但是這樣的體系結(jié)構(gòu)如何擴(kuò)展以支持更復(fù)雜的操作，比如注意機(jī)制和非最大化抑制？

有兩個(gè)明顯的選擇：

在硬件中添加新的專用塊。

使硬件具有高度可編程性和通用性。

其中第一個(gè)主要問題是，它會(huì)導(dǎo)致硬件膨脹和暗硅——如果在一些應(yīng)用程序中需要多1%的計(jì)算時(shí)間，那么我們需要一個(gè)固定的功能模塊嗎？不——我們必須獲得盡可能重復(fù)使用硬件。這也意味著硬件總是保持最前沿的工藝技術(shù)。添加固定功能模塊說明硬件未來會(huì)過時(shí)，NNA的設(shè)計(jì)師們之前遇到過不少硬件適用性受限于操作類型的案例。第一種方法導(dǎo)致硬件膨脹或強(qiáng)制使用額外的“協(xié)處理器”，如GPU、DSP或CPU：硅面積、帶寬、能量和復(fù)雜性都會(huì)增加。大多數(shù)NNA 設(shè)計(jì)人員都選擇第二種方案。這種方法的例子是基于向量 ALU 和脈動(dòng)陣列的設(shè)計(jì)。復(fù)雜性從硬件轉(zhuǎn)移到軟件，這一切都符合計(jì)算機(jī)體系結(jié)構(gòu)中歷史悠久的 RISC（精簡(jiǎn)指令集計(jì)算機(jī)）哲學(xué)。然而，要付出巨大的代價(jià)——計(jì)算密度的降低。為達(dá)到40 TOPS 的目標(biāo)， Series4 NNA架構(gòu)師必須容忍芯片面積和功耗的大幅增長(zhǎng)。Imagination的研究人員認(rèn)為，一定存在第三種方式。他們的策略是利用新穎的編譯技術(shù)和他們稱之為“簡(jiǎn)化操作集計(jì)算”（ROSC）的新設(shè)計(jì)理念來?yè)Q取靈活性。

Series4 NNA具有巨大的計(jì)算密度，用于運(yùn)行標(biāo)準(zhǔn)層，如卷積層、池化層、激活層和完全連接的圖層，這些層占據(jù)了神經(jīng)網(wǎng)絡(luò)中大部分計(jì)算需求。從本質(zhì)上講，它具有冗余的計(jì)算能力。簡(jiǎn)單地說，ROSC 就是從這個(gè)簡(jiǎn)化的“操作集”中重新配置和重組操作，以構(gòu)建各種各樣的其他操作：乍一看，這些基礎(chǔ)操作似乎很難實(shí)現(xiàn)。這種重新分配任務(wù)通常會(huì)導(dǎo)致較低的利用率，因?yàn)橛布K并未用于其主要目的；但是，由于Series4 NNA具有如此多的原始計(jì)算能力，即使利用率為1%，例如每秒 400 千兆次操作，在其上運(yùn)行復(fù)雜操作的速度通常仍遠(yuǎn)遠(yuǎn)快于在“片外”執(zhí)行復(fù)雜操作的速度，例如在CPU或者GPU上。以這種方式在設(shè)備上保持處理可節(jié)省寶貴的系統(tǒng)資源，包括 CPU/GPU 時(shí)間、功率和帶寬。復(fù)雜操作可以實(shí)施為多個(gè)硬件通道的較簡(jiǎn)單操作計(jì)算圖。因此，Series4 NNA使用帶有張量分塊的新型片上存儲(chǔ)器系統(tǒng)來保持?jǐn)?shù)據(jù)本地化（有關(guān)此主題的詳細(xì)白皮書，請(qǐng)參看鏈接） - 這可以被用來以最小的系統(tǒng)開銷在多個(gè)硬件通道上運(yùn)行復(fù)雜的操作。

ROSC 概念背后的關(guān)鍵是，專用硬件模塊通?？梢耘渲靡詧?zhí)行其他任務(wù)。即使由于這種重新分配任務(wù)而導(dǎo)致使用率下降，硬件的巨大計(jì)算能力也彌補(bǔ)了這一不足。這使得Series4 架構(gòu)師能夠吃上蛋糕——無需額外的硬件復(fù)雜性或面積，Series4可以在原始性能很重要的地方具備閃電般的速度，并且在必要時(shí)，具有足夠的靈活性來處理任意復(fù)雜的高級(jí)操作。

不要低估架構(gòu)！

Series4有五種主要可配置的計(jì)算硬件模塊類型，可稱為：

卷積引擎

池化單元

標(biāo)準(zhǔn)化單元

元素操作單元

激活單元

圖1：?jiǎn)蝹€(gè)硬件模塊通?？梢耘渲脼閳?zhí)行范圍非常廣泛的任務(wù)。這些可配置的硬件模塊每一個(gè)都比乍一看可能做的更多。例如，Series 4卷積引擎可以配置為執(zhí)行圖 1所示的操作（以及其他許多操作），而無需依賴于其他計(jì)算硬件模塊。使用幾個(gè)這樣的模塊的組合，可以實(shí)現(xiàn)更廣泛的操作范圍。事實(shí)上，Series4可以使用高級(jí)的圖形降低編譯器技術(shù)來配置，以覆蓋現(xiàn)代神經(jīng)網(wǎng)絡(luò)中遇到的幾乎所有操作。

標(biāo)簽可能具有誤導(dǎo)性。僅僅因?yàn)橐粋€(gè)硬件模塊被標(biāo)記為“卷積引擎”或“池化模塊”并不意味著這是它所能做的全部——在正確的人手中，這些模塊可以做的遠(yuǎn)遠(yuǎn)超過他們?cè)?a target="_blank">tin上所說的！下面給出了使用多個(gè)硬件模塊組合實(shí)施復(fù)雜操作的兩個(gè)示例。

Softmax

Softmax是神經(jīng)網(wǎng)絡(luò)中的一種常見操作，通常用于需要離散概率的場(chǎng)合。在某些情況下，它也用于使張量進(jìn)行歸一化，以便沿某個(gè)軸或多個(gè)軸的所有元素都在［0，1］范圍內(nèi)，且總和為1。在網(wǎng)絡(luò)中，Softmax通常只占計(jì)算的一小部分。例如，在大多數(shù) ImageNet 分類網(wǎng)絡(luò)中，Softmax占計(jì)算的最大比重不到 0.01%。為了與ROSC 避免將芯片面積浪費(fèi)為“暗硅”的策略保持一致，4系列沒有專用的Softmax硬件;相反，它是在其他可用操作方面實(shí)現(xiàn)的。這使它成為我們?nèi)绾螒?yīng)用上述原則的一個(gè)最佳例子。從本質(zhì)上講，該策略是用一系列數(shù)學(xué)上相同但由硬件直接支持的操作構(gòu)成的操作（“計(jì)算子圖”）來替換Softmax。Softmax是一個(gè)復(fù)雜的操作，需要五個(gè)階段，如圖2所示。其中四個(gè)交叉通道最大化削減、指數(shù)、跨通道求和削減和除法——在Series4上也沒有專門的硬件！但是，我們可以在Series4上以創(chuàng)造性的方法運(yùn)行它們，如下所述。圖2：將Softmax分解為其組成部分。

一個(gè)1×1的卷積與權(quán)重張量和一個(gè)完全由1組成的過濾器可以用來實(shí)現(xiàn)跨通道的求和。

除法可以用一個(gè)張量與另一個(gè)張量的倒數(shù)相乘來實(shí)現(xiàn)。Series4的 LRN（本地響應(yīng)歸一化）模塊可以配置為計(jì)算倒數(shù)。

交叉通道最大值可以通過將信道轉(zhuǎn)換置到空間軸上并執(zhí)行一系列空間最大池化操作來實(shí)現(xiàn)。之后，它被轉(zhuǎn)置回通道軸上。

由于指數(shù)僅限于負(fù)值和零輸入值，激活 LUT 可以配置為指數(shù)衰減函數(shù)。

總之，這將產(chǎn)生一個(gè)替換子圖，其中包含大約10到15個(gè)操作（取決于輸入張量的大?。?，這些操作在幾個(gè)硬件過程中執(zhí)行。ROSC的見解是，這個(gè)圖比在CPU或協(xié)處理器上執(zhí)行更快、更簡(jiǎn)單。避免了完全可編程和專用固定功能硬件的兩種極端情況，并且編譯過程中包含了最容易管理的復(fù)雜性。

此外，用于Softmax的操作替換可以重用為其他高級(jí)操作。一旦實(shí)現(xiàn)了一些這樣的高級(jí)操作，就很容易看到如何構(gòu)建一個(gè)可重用操作替換庫(kù)，從而使將來的操作更容易降到Series4。這就是ROSC如何引領(lǐng)未來。

三維卷積

卷積引擎和Series4中的相關(guān)數(shù)據(jù)輸入和輸出針對(duì)一維和二維卷積進(jìn)行了高度優(yōu)化——這非常有意義，因?yàn)樵诖蠖鄶?shù)CNN（卷積神經(jīng)網(wǎng)絡(luò)）中，這些引擎占據(jù)了絕大多數(shù)計(jì)算量。

圖3：用二維卷積和元素求和實(shí)現(xiàn)的三維卷積。

但是，Series4硬件不支持三維和更高維度的卷積。三維卷積是復(fù)雜運(yùn)算的一個(gè)具體例子，可使用圖形降低技術(shù)將其降低到Series4。在這種情況下，該子圖是根據(jù)二維卷積和元素加法構(gòu)建的。無論編譯器在哪里“看到”原始置身事外中的三維卷積，在Series4上運(yùn)行的機(jī)器代碼生成前，編譯器都會(huì)用該子圖形的等效版本替換它。

圖3顯示了一個(gè)三維卷積的例子，在深度軸上，內(nèi)核大小為3，步長(zhǎng)為2。卷積在深度軸上展開。相同顏色的卷積具有相同的權(quán)重。這種策略很容易擴(kuò)展到高維和其他三維操作，如三維池和三維反褶積。這種三維卷積的方法是一個(gè)很好的例子，說明了如何將軟件設(shè)計(jì)成與硬件的優(yōu)點(diǎn)相結(jié)合，從而擴(kuò)展其適用性。

結(jié)論

高性能的神經(jīng)網(wǎng)絡(luò)加速器很難設(shè)計(jì)，因?yàn)樗鼈冃枰胶鈨蓚€(gè)看似矛盾的目標(biāo)：它們需要大量的并行性和計(jì)算密度，以便在幾分之一秒內(nèi)完成一個(gè)典型神經(jīng)網(wǎng)絡(luò)中的數(shù)百萬個(gè)操作；它們需要足夠的靈活性來處理這些問題現(xiàn)代神經(jīng)網(wǎng)絡(luò)中有數(shù)百種不同類型的操作，還有那些尚未被發(fā)明的操作！通常必須在高效、更固定的函數(shù)方法和效率較低但更通用的方法之間進(jìn)行折衷。Imagination公司的工程師們已經(jīng)開發(fā)出一種令人興奮的創(chuàng)新方法，它提供了兩全其美的效果。Series4不包含任何近似ALU的可編程性所需的東西，而是有幾個(gè)非常有效的硬件模塊，設(shè)計(jì)用于執(zhí)行特定的、通常發(fā)生的操作的計(jì)算。使用新的編譯技術(shù)可以實(shí)現(xiàn)完全的靈活性，通過這種技術(shù)，可以從一組簡(jiǎn)化的基本操作中構(gòu)建非常廣泛的操作。這種方法被稱為簡(jiǎn)化運(yùn)算集計(jì)算（簡(jiǎn)稱ROSC）。通過以這種方式協(xié)調(diào)硬件和軟件設(shè)計(jì)，Series4擁有經(jīng)得起未來考驗(yàn)的、世界一流的性能和計(jì)算密度，同時(shí)又不犧牲靈活性。

原文標(biāo)題：靈活、面向未來、高性能推理的簡(jiǎn)化操作集計(jì)算

文章出處：【微信公眾號(hào)：Imagination Tech】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4814

瀏覽量
103661
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5561

瀏覽量
122805

原文標(biāo)題：靈活、面向未來、高性能推理的簡(jiǎn)化操作集計(jì)算

文章出處：【微信號(hào)：Imgtec，微信公眾號(hào)：Imagination Tech】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

搜索歷史

Series4擁有經(jīng)得起未來考驗(yàn)的性能和計(jì)算密度

評(píng)論