99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

存算一體芯片的技術(shù)壁壘

后摩智能 ? 來(lái)源:后摩智能 ? 2023-09-22 14:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作為后摩爾時(shí)代發(fā)展的必然趨勢(shì)之一,存算一體越來(lái)越受到行業(yè)的關(guān)注。在存算十問(wèn)的前六問(wèn)中,我們梳理了存算一體的技術(shù)路線、挑戰(zhàn)和通用性等問(wèn)題,這一次我們從技術(shù)的壁壘入手,邀請(qǐng)后摩智能的幾位研發(fā)人員來(lái)談?wù)?,從學(xué)術(shù)到商用,存算一體的技術(shù)壁壘體現(xiàn)在哪里,后摩智能又是如何從IP、電路設(shè)計(jì)、架構(gòu)設(shè)計(jì)等層面突破技術(shù)難題,形成自己獨(dú)有的技術(shù)壁壘。

Q1存算一體芯片是一個(gè)壁壘比較高的技術(shù)方向嗎?它的壁壘體現(xiàn)在哪些方面?

存算一體芯片是技術(shù)壁壘很高的一個(gè)方向。從芯片底層到軟件劃分的話,主要體現(xiàn)在以下幾個(gè)方面:

(1)CIM的基本運(yùn)算單元(即MACRO)的設(shè)計(jì)是第一個(gè)難點(diǎn)。作為存算一體芯片的基石,存內(nèi)計(jì)算IP的功能和性能直接影響存算一體芯片的整體表現(xiàn)。存內(nèi)計(jì)算IP依托的存儲(chǔ)介質(zhì)和所采用的計(jì)算范式繁多且呈“百花齊放”。

以SRAM CIM MACRO為例,因?yàn)樾枰薷拇鎯?chǔ)陣列以加入計(jì)算的邏輯單元、支持“存儲(chǔ)-計(jì)算”雙工作模 式,并且在滿足計(jì)算性能的同時(shí)還需要保證陣列的規(guī)整性來(lái)優(yōu)化面積效率、保證陣列的可靠性、可測(cè)試性等。需要SRAM專家針對(duì)性的進(jìn)行設(shè)計(jì)。值得強(qiáng)調(diào)的是,當(dāng)前的EDA工具不支持設(shè)計(jì)流程,必須自主設(shè)計(jì)相應(yīng)的EDA工具來(lái)配合整個(gè)過(guò)程,包括margin, aging, EMIR, PPA的分析、Sign-off、PI/S等工具。

(2)當(dāng)完成CIM MACRO設(shè)計(jì)后,需要將大量的MACRO高效的組織在一起來(lái)處理形式多樣的Tensor運(yùn)算,同時(shí)配合一定的通用算力來(lái)滿足各種長(zhǎng)尾算子(通常指計(jì)算量較小的非Tensor算子)的處理能力。這里涉及到多個(gè)MACRO之間的數(shù)據(jù)流組織方式,即如何將一個(gè)Tensor的運(yùn)算分配到多個(gè)MACRO協(xié)同處理,完成這個(gè)目標(biāo)需要精心進(jìn)行架構(gòu)設(shè)計(jì),并且通常需要一個(gè)高效的片上網(wǎng)絡(luò)(NoC)來(lái)支持。

另外,通常需要在芯片內(nèi)配置大容量的SRAM來(lái)減少片外DRAM的訪存需求,如何組織SRAM,并且配合上述計(jì)算流程,也是一個(gè)重要的設(shè)計(jì)內(nèi)容。

(3)存算一體AI核和SoC的架構(gòu)設(shè)計(jì)和實(shí)現(xiàn):存內(nèi)計(jì)算IP提供了高能效的并行計(jì)算模式,但同樣受限于其支持運(yùn)算類型的局限性,因而對(duì)于存算一體AI核和SoC的架構(gòu)設(shè)計(jì)的難度和復(fù)雜度要求急劇上升,既要充分利用存內(nèi)計(jì)算IP本身運(yùn)算的高效性,又要減少存內(nèi)計(jì)算IP之間的數(shù)據(jù)傳輸,同時(shí)還要兼顧支持網(wǎng)絡(luò)算子的通用性和物理實(shí)現(xiàn)的可行性。

(4)存算一體軟件編譯器的快速部署和實(shí)現(xiàn):軟件工具鏈對(duì)于發(fā)揮存算芯片的效率也至關(guān)重要。軟件需要將模型切分成合適的Tensor算子,然后生成相應(yīng)的指令調(diào)用底層硬件來(lái)處理。

在后端算子性能優(yōu)化時(shí),需要打破算子的邊界,要解決層間流水,多模型流水并行,結(jié)合存算架構(gòu)的特點(diǎn)完成優(yōu)化。業(yè)界有很多開(kāi)源框架的 IR 可以參考,像 MLIR 和 TVM 的 Relay 和 TIR,這些開(kāi)源的 IR 無(wú)法很好地處理上述優(yōu)化需求,我們根據(jù)存算架構(gòu) AI Core 的特點(diǎn),設(shè)計(jì)了一層 IR ,更好地解決了數(shù)據(jù)流分析、數(shù)據(jù)依賴分析,可以更方便地進(jìn)行層間調(diào)度和切分等優(yōu)化。

同時(shí),對(duì)于自動(dòng)駕駛等場(chǎng)景,通過(guò)算子融合來(lái)提升計(jì)算和訪存效率是非常關(guān)鍵的一個(gè)優(yōu)化目標(biāo),需要工具鏈自動(dòng)化的完成算子的融合、調(diào)度及對(duì)大容量SRAM的高效管理,以同時(shí)提升芯片的利用率和應(yīng)用的開(kāi)發(fā)效率等。

Q2相較于傳統(tǒng)的芯片電路設(shè)計(jì),后摩智能的存算電路架構(gòu)設(shè)計(jì)和電路設(shè)計(jì)有何特殊性和優(yōu)點(diǎn)?

(1)電路方面:自主設(shè)計(jì)的定制CIM MACRO,包括定制的乘法單元、加法樹(shù)、讀寫電路、累加器等,進(jìn)一步拉近計(jì)算和存儲(chǔ)的距離顯著提升性能和能效,通過(guò)SRAM單元替代寄存器實(shí)現(xiàn)更高的計(jì)算密度、更低的讀寫功耗。相比傳統(tǒng)電路設(shè)計(jì)面效提升2倍左右、能效提升一個(gè)量級(jí)左右;

(2)架構(gòu):層次化的架構(gòu)設(shè)計(jì),將大量MACRO有效組織在一起;CIM MACRO負(fù)責(zé)Tensor計(jì)算,自主設(shè)計(jì)的RISC-V Vector擴(kuò)展架構(gòu)配合定制的SFU負(fù)責(zé)長(zhǎng)尾算子處理,同時(shí)滿足處理效率和通用性的需求;定制化的NoC,滿足多個(gè)MACRO和SRAM之間的數(shù)據(jù)通信需求等

后摩智能的存算電路主要采用了基于全數(shù)字域的存算路徑,通過(guò)對(duì)存儲(chǔ)單元和計(jì)算單元的深度定制來(lái)實(shí)現(xiàn)高能效的計(jì)算目的,從而減少訪存開(kāi)銷,打破存儲(chǔ)墻瓶頸,這種從SPEC到signoff的全定制化流程研發(fā)周期長(zhǎng),且對(duì)于研發(fā)迭代效率要求極高。

同時(shí),還需要兼顧大規(guī)模量產(chǎn)和車規(guī)需求,開(kāi)發(fā)特有的CIM BIST和硬件修復(fù)電路,保障芯片良率和車規(guī)認(rèn)證。

Q3后摩智能自研的芯片IPU架構(gòu),從一代到二代的天樞、天璣,相對(duì)于傳統(tǒng)架構(gòu)的優(yōu)點(diǎn)和創(chuàng)新之處是什么?

86c4da3e-590c-11ee-939d-92fbcf53809c.png

這張圖就是我們已經(jīng)推出的H30芯片天樞架構(gòu)IPU圖。

我們的芯片里有4個(gè)IPU核,都掛在系統(tǒng)總線NoC上。這4個(gè)核是完全一樣的設(shè)計(jì)。對(duì)于每一個(gè)Core,又由4個(gè)Tile組成,每個(gè)Tile就對(duì)應(yīng)了一個(gè)硬件線程,它們可以獨(dú)立進(jìn)行不同的計(jì)算,也可以聯(lián)合起來(lái)做同一個(gè)計(jì)算。

每個(gè)Tile內(nèi)部有CPU、Tensor Engine,Special Function Unit,Vector Processor和多通道DMA,這些計(jì)算單元可以直接共享一個(gè)多Bank的共享存儲(chǔ)資源。這樣的架構(gòu)使得AI計(jì)算不但不用在多個(gè)處理器,例如CPU,GPUDSP之間分配任務(wù),甚至數(shù)據(jù)不用出AI核,就可以高效的完成全部端到端的AI計(jì)算。

這個(gè)架構(gòu)里還有一個(gè)重要的部分就是數(shù)據(jù)的傳輸。就像我們?nèi)撕腿酥g需要更好的溝通一樣,我們的計(jì)算單元之間,也需要很好的共享數(shù)據(jù)和消息。

我們?cè)O(shè)計(jì)了專用的數(shù)據(jù)傳輸總線,可以靈活的在各個(gè)Tile,以及各個(gè)Core之間建立高速的直接的數(shù)據(jù)傳輸通道,而不需要通過(guò)系統(tǒng)總線和緩存。

CIM macro有計(jì)算形式單一、需求輸入數(shù)據(jù)整齊、沒(méi)有累加器等缺點(diǎn)。第一代天樞架構(gòu)為這些功能上的缺點(diǎn)做了相應(yīng)的補(bǔ)充,使得CIM macro能夠真正的應(yīng)用在大規(guī)模AI計(jì)算中,而不只停留在paper上;另一方面,將CIM macro用于工程上,有BIST,yield,PI/SI等問(wèn)題需要摸索解決,第一代架構(gòu)也在這方面做了規(guī)劃和適配。

我們下一代的天璇架構(gòu)IPU設(shè)計(jì)理念將會(huì)是:基于Mesh互聯(lián)的AI cluster。采用Mesh的互聯(lián)結(jié)構(gòu),可以將計(jì)算單元的數(shù)量靈活的配置成M行N列,根據(jù)場(chǎng)景需求,AI算力規(guī)模可大可小。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 芯片
    +關(guān)注

    關(guān)注

    459

    文章

    52474

    瀏覽量

    440508
  • sram
    +關(guān)注

    關(guān)注

    6

    文章

    785

    瀏覽量

    115926
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35080

    瀏覽量

    279416
  • 存算一體
    +關(guān)注

    關(guān)注

    0

    文章

    108

    瀏覽量

    4658
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    一體力AI芯片將逐漸走向落地應(yīng)用

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)前不久,后摩智能宣布,其自主研發(fā)的業(yè)內(nèi)首款一體力AI芯片成功點(diǎn)亮,并成功跑通智能駕駛算法模型。 ? 這
    的頭像 發(fā)表于 05-31 00:03 ?5510次閱讀

    一體更進(jìn)步,“感一體化”前景如何?

    電子發(fā)燒友網(wǎng)報(bào)道(文/吳子鵬)近段時(shí)間,一體再燃熱潮,成為破除“內(nèi)存墻”,以及打造大芯片
    的頭像 發(fā)表于 06-08 00:01 ?6344次閱讀

    SRAM一體芯片的研究現(xiàn)狀和發(fā)展趨勢(shì)

    人工智能時(shí)代對(duì)計(jì)算芯片力和能效都提出了極高要求。一體芯片
    的頭像 發(fā)表于 01-02 11:02 ?3847次閱讀
    SRAM<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b><b class='flag-5'>芯片</b>的研究現(xiàn)狀和發(fā)展趨勢(shì)

    一體技術(shù)路線如何選

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)過(guò)去幾年,越來(lái)越多企業(yè)加入到一體技術(shù)的研究中,如今,
    的頭像 發(fā)表于 06-21 09:27 ?4958次閱讀

    一體技術(shù)發(fā)展現(xiàn)狀和未來(lái)趨勢(shì)

    一體
    電子發(fā)燒友網(wǎng)官方
    發(fā)布于 :2023年04月25日 17:21:41

    科技數(shù)模混合一體AI芯片專利解析

    科技的該項(xiàng)專利是關(guān)于數(shù)?;旌?b class='flag-5'>存一體芯片技術(shù),除能有效降低設(shè)計(jì)復(fù)雜度和制造成本外,還特別適用
    的頭像 發(fā)表于 12-24 11:02 ?7602次閱讀
    知<b class='flag-5'>存</b>科技數(shù)?;旌?b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>AI<b class='flag-5'>芯片</b>專利解析

    億鑄科技發(fā)布基于ReRAM的全數(shù)字化一體AI大芯片技術(shù)

    在剛剛結(jié)束的GTIC 2022全球AI芯片峰會(huì)存一體專題論壇上,億鑄科技創(chuàng)始人、董事長(zhǎng)兼CEO熊大鵬博士發(fā)表了題為“新動(dòng)能——基于Re
    的頭像 發(fā)表于 09-01 11:50 ?3098次閱讀

    一體芯片在可穿戴設(shè)備市場(chǎng)有哪些機(jī)會(huì)

    2022年,TWS耳機(jī)廠商在種新型計(jì)算架構(gòu)中找到突破口——一體。與傳統(tǒng)馮諾依曼架構(gòu)相比,基于
    發(fā)表于 10-14 09:38 ?1481次閱讀

    2023年一體芯片設(shè)計(jì)的技術(shù)趨勢(shì)

    一體旨在計(jì)算單元與存儲(chǔ)單元融合,在實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)的同時(shí)直接進(jìn)行計(jì)算,以消除數(shù)據(jù)搬移帶來(lái)的開(kāi)銷,極大提升運(yùn)算效率,以實(shí)現(xiàn)計(jì)算存儲(chǔ)的高效節(jié)能。
    的頭像 發(fā)表于 01-13 15:26 ?2597次閱讀

    基于3DIC架構(gòu)的一體芯片仿真解決方案

    的“存儲(chǔ)墻”、“功耗墻”問(wèn)題。一體將存儲(chǔ)與計(jì)算有機(jī)融合以其巨大的能效比提升潛力,有望成為數(shù)字經(jīng)濟(jì)時(shí)代的先進(jìn)生產(chǎn)力。
    的頭像 發(fā)表于 02-24 09:34 ?6322次閱讀

    特斯拉的下代AI芯片一體

    根據(jù)存儲(chǔ)與計(jì)算的距離遠(yuǎn)近,將廣義一體技術(shù)方案分為三大類,分別是近計(jì)算 (Processing Near Memory,PNM)、
    的頭像 發(fā)表于 03-09 09:22 ?2255次閱讀

    蘋芯亮相ESWEEK,探索一體技術(shù)新思路

    蘋芯科技作為專注一體芯片領(lǐng)域的創(chuàng)新型企業(yè),長(zhǎng)期以來(lái)直關(guān)注國(guó)際前沿技術(shù)動(dòng)向。蘋芯很榮幸能夠在
    的頭像 發(fā)表于 09-23 10:12 ?1127次閱讀

    一體芯片新突破!清華大學(xué)研制出首顆一體芯片

    這幾天清華大學(xué)又火出圈了。但這次并不是因?yàn)檎猩鷵屓撕惋執(zhí)?,而是清華大學(xué)的芯片研發(fā)團(tuán)隊(duì)研制出全球首顆全系統(tǒng)集成的一體芯片。這是我國(guó)、乃至全
    的頭像 發(fā)表于 10-11 14:39 ?1421次閱讀

    什么是一體芯片?一體芯片的優(yōu)勢(shì)和應(yīng)用領(lǐng)域

    一體片上學(xué)習(xí)在實(shí)現(xiàn)更低延遲和更小能耗的同時(shí),能夠有效保護(hù)用戶隱私和數(shù)據(jù)。該芯片參照仿生類腦處理方式,可實(shí)現(xiàn)不同任務(wù)的快速“片上訓(xùn)練”與“片上識(shí)別”,能夠有效完成邊緣計(jì)算場(chǎng)景下的增量
    的頭像 發(fā)表于 10-23 14:15 ?6548次閱讀
    什么是<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b><b class='flag-5'>芯片</b>?<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b><b class='flag-5'>芯片</b>的優(yōu)勢(shì)和應(yīng)用領(lǐng)域

    一體芯片如何支持Transformer等不同模型?

    后摩智能致力于打造通用人工智能芯片,自主研發(fā)的一體芯片在支持各類模型方面表現(xiàn)突出,包括YOLO系列網(wǎng)絡(luò)、BEV系列網(wǎng)絡(luò)、點(diǎn)云系列網(wǎng)絡(luò)等。
    的頭像 發(fā)表于 01-05 14:14 ?1772次閱讀