99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI/ML應(yīng)用和處理器的架構(gòu)探索

星星科技指導(dǎo)員 ? 來源:嵌入式計算設(shè)計 ? 作者:嵌入式計算設(shè)計 ? 2022-07-08 17:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

行業(yè)背景

人工智能AI) 應(yīng)用程序考慮了計算、存儲、內(nèi)存、管道、通信接口、軟件和控制。此外,人工智能應(yīng)用程序處理可以分布在處理器內(nèi)的多核、PCIe 主干上的多個處理器板、分布在以太網(wǎng)網(wǎng)絡(luò)中的計算機(jī)、高性能計算機(jī)或跨數(shù)據(jù)中心的系統(tǒng)中。此外,人工智能處理器還具有巨大的內(nèi)存大小要求、訪問時間限制、模擬和數(shù)字分布以及硬件-軟件分區(qū)。

問題

人工智能應(yīng)用的架構(gòu)探索很復(fù)雜,涉及多項研究。首先,我們可以針對單個問題,例如內(nèi)存訪問,或者可以查看完整的處理器或系統(tǒng)。大多數(shù)設(shè)計都是從內(nèi)存訪問開始的。有很多選擇——SRAMDRAM、本地與分布式存儲、內(nèi)存計算以及緩存反向傳播系數(shù)與丟棄。

第二個評估部門是總線或網(wǎng)絡(luò)拓?fù)洹L摂M原型可以具有用于處理器內(nèi)部的片上網(wǎng)絡(luò)、TileLink 或 AMBA AXI 總線、用于連接多處理器板和機(jī)箱的 PCIe 或以太網(wǎng),以及用于訪問數(shù)據(jù)中心的 Wifi/5G/Internet 路由器。

使用虛擬原型的第三項研究是計算。這可以建模為處理器內(nèi)核、多處理器、加速器、FPGA、Multi-Accumulate 和模擬處理。最后一部分是傳感器、網(wǎng)絡(luò)、數(shù)學(xué)運(yùn)算、DMA、自定義邏輯、仲裁器、調(diào)度器和控制功能的接口

此外,人工智能處理器和系統(tǒng)的架構(gòu)探索具有挑戰(zhàn)性,因?yàn)樗鼘?shù)據(jù)密集型任務(wù)圖應(yīng)用于硬件的全部功能。

模型構(gòu)建

在 Mirabilis,我們使用 VisualSim 對 AI 應(yīng)用程序進(jìn)行架構(gòu)探索。VisualSim 的用戶在具有大量 AI 硬件和軟件建模組件的圖形離散事件仿真平臺中非常快速地組裝虛擬原型。該原型可用于進(jìn)行時間、吞吐量、功耗和服務(wù)質(zhì)量的權(quán)衡。提供超過 20 種 AI 處理器和嵌入式系統(tǒng)模板,以加速開發(fā)新的 AI 應(yīng)用程序。

為 AI 系統(tǒng)的權(quán)衡而生成的報告包括響應(yīng)時間、吞吐量、緩沖區(qū)占用率、平均功率、能耗和資源效率。

ADAS模型構(gòu)建

首先,讓我們考慮自動駕駛 (ADAS) 應(yīng)用程序,這是圖 1 中的一種人工智能部署形式。ADAS 應(yīng)用程序與計算機(jī)或電子控制單元 (ECU) 和網(wǎng)絡(luò)上的許多應(yīng)用程序共存。 ADAS 任務(wù)的正確運(yùn)行還依賴于現(xiàn)有系統(tǒng)的傳感器和執(zhí)行器。

poYBAGLH8vGAa_RSAAI0sk_genQ618.png

圖 1. 汽車設(shè)計中 AI 應(yīng)用程序的邏輯到物理架構(gòu)

早期的架構(gòu)權(quán)衡可以測試和評估假設(shè)以快速識別瓶頸,并優(yōu)化規(guī)范以滿足時序、吞吐量、功率和功能要求。在圖 1 中,您將看到體系結(jié)構(gòu)模型需要硬件、網(wǎng)絡(luò)、應(yīng)用程序任務(wù)、傳感器、衰減器和流量激勵來獲得對整個系統(tǒng)操作的可見性。圖 2 顯示了映射到物理架構(gòu)的 ADAS 邏輯架構(gòu)的實(shí)現(xiàn)。

架構(gòu)模型的一個很好的特性是能夠分離設(shè)計的所有部分,這樣就可以研究單個操作的性能。在圖 2 中,您會注意到現(xiàn)有任務(wù)被單獨(dú)列出,網(wǎng)絡(luò)與 ECU、傳感器生成和 ADAS 邏輯任務(wù)組織。ADAS 任務(wù)圖中的每個功能都映射到一個 ECU。

pYYBAGLH8vyABhJdAAKozTfxomM207.png

圖 2. ADAS 映射到 ECU 網(wǎng)絡(luò)的汽車系統(tǒng)系統(tǒng)模型

ADAS分析

當(dāng)模擬圖2中的ADAS模型時,可以得到各種報告。在圖 3 中,顯示了完成 ADAS 任務(wù)的延遲以及電池為此任務(wù)耗散的相關(guān)熱量。其他感興趣的圖可以是測量的功率、網(wǎng)絡(luò)吞吐量、電池消耗、CPU 利用率和緩沖區(qū)占用。

poYBAGLH8wWAMvWTAAMtxKUt3Gk534.png

圖 3. ADAS 架構(gòu)模型的分析報告

處理器模型構(gòu)建

AI 處理器和系統(tǒng)的設(shè)計人員針對應(yīng)用程序類型、訓(xùn)練與推理、成本點(diǎn)、功耗和尺寸限制進(jìn)行實(shí)驗(yàn)。例如,設(shè)計人員可以將子網(wǎng)絡(luò)分配到流水線階段,權(quán)衡深度神經(jīng)網(wǎng)絡(luò) (DNN) 與傳統(tǒng)機(jī)器學(xué)習(xí)算法,測量 GPU、TPU、AI 處理器、FPGA 和傳統(tǒng)處理器上的算法性能,評估融合計算和內(nèi)存的好處在芯片上計算類似于人腦功能的模擬技術(shù)對功率的影響,并構(gòu)建具有針對單個應(yīng)用程序的部分功能集的 SoC。

從 PowerPoint 到新 AI 處理器的第一個原型的時間非常短,第一個生產(chǎn)樣品不能有任何瓶頸或錯誤。因此,建模成為強(qiáng)制性的。

圖 4 顯示了 Google 張量處理器的內(nèi)部視圖??驁D已轉(zhuǎn)換為圖 5 中的架構(gòu)模型。處理器通過 PCIe 接口接收來自主機(jī)的請求。MM、TG2、TG3 和 TG4 是來自獨(dú)立主機(jī)的不同請求流。權(quán)重存儲在片外 DDR3 中并被調(diào)用到權(quán)重 FIFO。到達(dá)的請求在統(tǒng)一本地緩沖區(qū)中存儲和更新,并發(fā)送到矩陣多單元進(jìn)行處理。當(dāng)請求通過 AI 管道處理完畢后,將其返回到統(tǒng)一緩沖區(qū)以響應(yīng)主機(jī)。

pYYBAGLH8w6AUY5cAAH5cVXHPd0055.png

圖 4. 來自 Google 的 TPU-1

pYYBAGLH8xeAES5nAAH9blh3v80920.png

圖5. AI 硬件架構(gòu)的 VisualSim 模型頂視圖

處理器模型分析

在圖 6 中,您可以查看片外 DDR3 中的延遲和反向傳播權(quán)重管理。延遲是從主機(jī)發(fā)送請求到接收響應(yīng)的時間。您將看到 TG3 和 TG4 能夠分別保持低延遲,直到 200 us 和 350 us。MM 和 TG2 在模擬的早期就開始緩沖。由于這組流量配置文件存在大量緩沖并且延遲增加,因此當(dāng)前的 TPU 配置不足以處理負(fù)載和處理。TG3 和 TG4 的更高優(yōu)先級有助于維持更長的運(yùn)營時間。

poYBAGLH8yGAb-mYAAHT-36YM8g888.png

圖 6. 架構(gòu)探索權(quán)衡的統(tǒng)計數(shù)據(jù)

汽車設(shè)計施工

poYBAGLH8yqAeDErAADu_tWXouM594.png

圖 7. 帶有 CAN 總線、傳感器和 ECU 的汽車網(wǎng)絡(luò)

當(dāng)今的汽車設(shè)計包含許多需要大量機(jī)器學(xué)習(xí)和推理的安全和自動駕駛功能??捎玫臅r間表將決定處理是在 ECU 完成還是發(fā)送到數(shù)據(jù)中心。例如,可以在本地進(jìn)行制動決策,同時可以將空調(diào)溫度的變化發(fā)送到遠(yuǎn)程處理。兩者都需要一些基于輸入傳感器和攝像頭的人工智能。

圖 7 是包含 ECU、CAN-FD、以太網(wǎng)和網(wǎng)關(guān)的網(wǎng)絡(luò)框圖。

pYYBAGLH8zKABDcwAAOrtsXCqXU994.png

圖 8. 自動駕駛和 E/E 架構(gòu)的 VisualSim 模型

圖 8 捕獲了圖 7 的一部分,它將 CAN-FD 網(wǎng)絡(luò)與包含多個 ARM 內(nèi)核和一個 GPU 的高性能 Nvidia DrivePX 集成。以太網(wǎng)/TSN/AVB 和網(wǎng)關(guān)已從模型中移除以簡化視圖。在此模型中,重點(diǎn)是了解 SoC 的內(nèi)部行為。該應(yīng)用程序是由車輛上的攝像頭傳感器觸發(fā)的 MPEG 視頻捕獲、處理和渲染。

汽車設(shè)計分析

圖 9 顯示了 AMBA 總線和 DDR3 內(nèi)存的統(tǒng)計數(shù)據(jù)。您可以看到跨多個主服務(wù)器的工作負(fù)載分布??梢栽u估應(yīng)用程序管道的瓶頸,確定最高周期時間的任務(wù)、內(nèi)存使用情況以及每個單獨(dú)任務(wù)的延遲。

poYBAGLH8zuADCzoAAKvaLBwix8310.png

圖 9. 總線和內(nèi)存活動報告

用例和流量模式應(yīng)用于作為硬件、RTOS 和網(wǎng)絡(luò)組合的架構(gòu)模型。周期性流量配置文件用于對雷達(dá)、激光雷達(dá)和攝像頭進(jìn)行建模,而用例可以是自動駕駛、聊天機(jī)器人、搜索、學(xué)習(xí)、推理、大數(shù)據(jù)處理、圖像識別和疾病檢測。用例和流量可以根據(jù)輸入速率、數(shù)據(jù)大小、處理時間、優(yōu)先級、依賴性、先決條件、反向傳播循環(huán)、系數(shù)、任務(wù)圖和內(nèi)存訪問而變化。通過改變屬性在系統(tǒng)模型上模擬用例。這會生成各種統(tǒng)計數(shù)據(jù)和圖表,包括緩存命中率、流水線利用率、拒絕的請求數(shù)、每條指令或任務(wù)的瓦特數(shù)、吞吐量、緩沖區(qū)占用率和狀態(tài)圖。

poYBAGLH8teAdkAAAACYtpBw9Uc115.png

圖 10. 實(shí)時測量 AI 處理器的功耗

圖 10 顯示了系統(tǒng)和芯片的功耗。除了散熱、電池充電消耗率和電池生命周期變化外,該模型還可以捕捉動態(tài)功率變化。該模型繪制了每個設(shè)備的狀態(tài)活動、相關(guān)的瞬時峰值和系統(tǒng)的平均功率。獲得有關(guān)功耗的早期反饋有助于熱和機(jī)械團(tuán)隊設(shè)計外殼和冷卻方法。大多數(shù)機(jī)箱對每個板都有最大功率限制。這種早期的功耗信息可用于執(zhí)行架構(gòu)與性能的權(quán)衡,從而尋找降低功耗的方法。

進(jìn)一步的探索場景

以下是一些突出使用 AI 架構(gòu)模型和分析的附加示例。

1. 360度激光掃描儀、立體攝像頭、魚眼攝像頭、毫米波雷達(dá)、聲納或激光雷達(dá)的自動駕駛系統(tǒng),通過網(wǎng)關(guān)連接到多個IEEE802.1Q網(wǎng)絡(luò)上的20個ECU。該原型用于測試 OEM 硬件配置的功能包,以確定硬件和網(wǎng)絡(luò)要求。主動安全行動的響應(yīng)時間是主要標(biāo)準(zhǔn)。

2. 用于學(xué)習(xí)和推理任務(wù)的人工智能處理器是使用由 32 個內(nèi)核、32 個加速器、4 個 HBM2.0、8 個 DDR5、多個 DMA 和完整緩存一致性構(gòu)建的片上網(wǎng)絡(luò)骨干定義的。該模型使用 RISC-V、ARM Z1 和專有內(nèi)核的變體進(jìn)行了試驗(yàn)。實(shí)現(xiàn)的目標(biāo)是鏈路上的 40Gbps,同時保持較低的路由器頻率并重新訓(xùn)練網(wǎng)絡(luò)路由。

3. 需要一個 32 層的深度神經(jīng)網(wǎng)絡(luò),將內(nèi)存從 40GB 降低到 7GB 以下。數(shù)據(jù)吞吐量和響應(yīng)時間沒有改變。該模型設(shè)置有用于處理和反向傳播的內(nèi)存訪問行為的功能流程圖。對于不同的數(shù)據(jù)大小和任務(wù)圖,該模型確定了數(shù)據(jù)的丟棄量以及各種片外 DRAM 大小和 SSD 存儲選項。任務(wù)圖隨任意數(shù)量的圖和幾個輸入和輸出而變化。

4. 使用ARM處理器和AXI總線進(jìn)行低成本AI處理的通用SoC。目標(biāo)是獲得最低的每瓦功率,從而最大限度地提高內(nèi)存帶寬。乘法累加函數(shù)被卸載到向量指令,加密到 IP 核,以及自定義算法到加速器。構(gòu)建該模型的明確目的是評估不同的高速緩存存儲器層次結(jié)構(gòu)以提高命中率和總線拓?fù)湟詼p少延遲。

5. 模數(shù) AI 處理器需要對功耗進(jìn)行徹底分析,并對所達(dá)到的吞吐量進(jìn)行準(zhǔn)確分析。在該模型中,非線性控制在離散事件模擬器中建模為一系列線性函數(shù),以加快模擬時間。在這種情況下,對功能進(jìn)行了測試以檢查行為并衡量真正的節(jié)能效果。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 存儲器
    +關(guān)注

    關(guān)注

    38

    文章

    7649

    瀏覽量

    167321
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4814

    瀏覽量

    103550
  • soc
    soc
    +關(guān)注

    關(guān)注

    38

    文章

    4386

    瀏覽量

    222679
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    龍芯處理器支持WINDOWS嗎?

    龍芯處理器目前不支持原生運(yùn)行Windows操作系統(tǒng),主要原因如下: 架構(gòu)差異 龍芯架構(gòu):龍芯早期基于MIPS架構(gòu),后續(xù)轉(zhuǎn)向自主研發(fā)的LoongArch指令集(與x86/ARM不兼容
    發(fā)表于 06-05 14:24

    技術(shù)分享 | 如何在2k0300(LoongArch架構(gòu)處理器上跑通qt開發(fā)流程

    技術(shù)分享 | 如何在2k0300開發(fā)板(LoongArch架構(gòu)處理器上跑通qt開發(fā)流程
    的頭像 發(fā)表于 05-20 11:05 ?279次閱讀
    技術(shù)分享 | 如何在2k0300(LoongArch<b class='flag-5'>架構(gòu)</b>)<b class='flag-5'>處理器</b>上跑通qt開發(fā)流程

    Cadence推出Tensilica NeuroEdge 130 AI協(xié)處理器

    Vision DSP 系列的成熟架構(gòu),能夠在不影響性能的情況下,將面積縮減超過 30%,并將動態(tài)功耗和能耗降低超過 20%。此外,該處理器還利用相同的軟件、AI 編譯、庫和框架,加
    的頭像 發(fā)表于 05-17 09:38 ?677次閱讀

    光子 AI 處理器的核心原理及突破性進(jìn)展

    電子發(fā)燒友網(wǎng)(文 / 李彎彎)光子 AI 處理器,作為一種借助光子執(zhí)行信息處理與人工智能(AI)計算的新型硬件設(shè)備,正逐漸嶄露頭角。與傳統(tǒng)基于晶體管的電子
    的頭像 發(fā)表于 04-19 00:40 ?2624次閱讀

    在線研討會 @4/10 ASTRA?賦能邊緣 AI探索 Synaptics SL &amp;amp; SR 處理器的無限可能

    邊緣AI探索SynapticsSL&SR處理器的無限可能”主題研討會。介紹SynapticsASTRA系列AI處理器,包括SL和SR系列,
    的頭像 發(fā)表于 04-02 16:34 ?578次閱讀
    在線研討會 @4/10 ASTRA?賦能邊緣 <b class='flag-5'>AI</b>:<b class='flag-5'>探索</b> Synaptics SL &amp;amp; SR <b class='flag-5'>處理器</b>的無限可能

    端側(cè) AI 音頻處理器:集成音頻處理AI 計算能力的創(chuàng)新芯片

    對人工智能應(yīng)用日益增長的需求。 ? 集成音頻處理AI 計算能力 端側(cè) AI 音頻處理器的組成結(jié)構(gòu)通常較為復(fù)雜,常采用多核異構(gòu)架構(gòu),將不同
    的頭像 發(fā)表于 02-16 00:13 ?2199次閱讀

    迅為3A6000_7A2000核心主板龍芯全國產(chǎn)處理器LoongArch架構(gòu)

    ,也證明了國內(nèi)有能力在自研 CPU 架構(gòu)上做出一流的產(chǎn)品。 龍芯 3A6000 處理器采用龍芯自主指令系統(tǒng)龍架構(gòu)(LoongArch),是龍芯第四代微架構(gòu)的首款產(chǎn)品,主頻達(dá)到 2.5G
    發(fā)表于 10-12 11:25

    對稱多處理器和非對稱多處理器的區(qū)別

    隨著計算需求的日益增長,單處理器系統(tǒng)已經(jīng)無法滿足高性能計算的需求。多處理器系統(tǒng)應(yīng)運(yùn)而生,它們通過將多個處理器集成到一個系統(tǒng)中來提高計算能力。在多處理器系統(tǒng)中,有兩種主要的
    的頭像 發(fā)表于 10-10 15:58 ?2183次閱讀

    簡述微處理器的指令集架構(gòu)

    處理器的指令集架構(gòu)(Instruction Set Architecture,ISA)是計算機(jī)體系結(jié)構(gòu)中的核心組成部分,它定義了計算機(jī)能夠執(zhí)行的指令集合、數(shù)據(jù)類型、寄存、內(nèi)存訪問方式等,是連接
    的頭像 發(fā)表于 10-05 14:59 ?1155次閱讀

    AMD全新處理器擴(kuò)大數(shù)據(jù)中心CPU的領(lǐng)先地位

    年下半年發(fā)布的、具有領(lǐng)先性能和效率的第五代 AMD EPYC 服務(wù)處理器。AMD 宣布分別推出第三代支持AI的AMD移動處理器 AMD 銳龍AI
    的頭像 發(fā)表于 09-19 11:01 ?915次閱讀

    AMD推出全新銳龍AI 300系列處理器

    在 Computex 2024 上,AMD 宣布了一系列突破性的、旨在開啟 AI 體驗(yàn)新時代的下一代架構(gòu)和產(chǎn)品。AMD為下一代 AI PC推出了全新的 AMD 銳龍AI 300 系列
    的頭像 發(fā)表于 09-19 10:55 ?1399次閱讀
    AMD推出全新銳龍<b class='flag-5'>AI</b> 300系列<b class='flag-5'>處理器</b>

    ARM處理器和CISC處理器的區(qū)別

    ARM處理器和CISC(復(fù)雜指令集計算機(jī))處理器在多個方面存在顯著的區(qū)別。這些區(qū)別主要體現(xiàn)在架構(gòu)原理、性能與功耗、設(shè)計目標(biāo)、應(yīng)用領(lǐng)域以及市場生態(tài)等方面。
    的頭像 發(fā)表于 09-10 11:10 ?967次閱讀

    X86架構(gòu)處理器有哪些優(yōu)點(diǎn)和缺點(diǎn)

    X86架構(gòu)處理器作為計算機(jī)領(lǐng)域的重要組成部分,具有多個顯著的優(yōu)點(diǎn)和一定的缺點(diǎn)。以下是對X86架構(gòu)處理器優(yōu)缺點(diǎn)的詳細(xì)分析。
    的頭像 發(fā)表于 08-22 11:25 ?4769次閱讀

    處理器的指令集架構(gòu)介紹

    處理器的指令集架構(gòu)(Instruction Set Architecture,ISA)是計算機(jī)體系結(jié)構(gòu)中至關(guān)重要的部分,它定義了微處理器能夠執(zhí)行的操作和指令的集合,以及這些指令如何被組織、存儲
    的頭像 發(fā)表于 08-22 10:53 ?2432次閱讀

    國產(chǎn)新型AI PC處理器亮相上海

    處理器
    北京中科同志科技股份有限公司
    發(fā)布于 :2024年08月01日 09:21:01