99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一文深度梳理AI算力芯片

路科驗(yàn)證 ? 來(lái)源:投研實(shí)習(xí)生 ? 2024-04-24 15:13 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

幾十年前,CPU 作為通用處理器幾乎處理所有計(jì)算任務(wù),那個(gè)時(shí)代的顯卡有助于加快應(yīng)用程序中圖形的繪制速度。但在今天ChatGPT引爆的人工智能iPhone時(shí)刻,GPU成為了整個(gè)行業(yè)最具主導(dǎo)地位的芯片之一。大家都在搶購(gòu)GPU,龍頭企業(yè)英偉達(dá)也因此賺的盆滿缽滿。

在此前的文章中我們介紹了AI算力的主要載體數(shù)據(jù)中心IDC的商業(yè)模式和組成部分,并進(jìn)一步走進(jìn)服務(wù)器這個(gè)數(shù)據(jù)中心中主要負(fù)責(zé)計(jì)算的硬件。服務(wù)器中有處理器、內(nèi)存、硬盤(pán)等零部件,其中最核心的負(fù)責(zé)計(jì)算的當(dāng)屬處理器,也就是芯片。因此,今天我們繼續(xù)梳理AI算力芯片,看看為什么在當(dāng)今AI時(shí)代GPU占據(jù)了主導(dǎo)地位以及我國(guó)目前的發(fā)展情況與相關(guān)企業(yè)。

產(chǎn)業(yè)鏈

從產(chǎn)業(yè)鏈說(shuō)起,首先來(lái)看芯片在產(chǎn)業(yè)鏈中扮演的角色。這里從兩方面說(shuō),站在算力產(chǎn)業(yè)鏈角度,芯片屬于上游產(chǎn)品,正如我們?cè)凇禔I服務(wù)器革命:硬件進(jìn)化驅(qū)動(dòng)人工智能新紀(jì)元》一文中提到,芯片與其它硬件組成服務(wù)器,也就是產(chǎn)業(yè)鏈中游,服務(wù)器又與其它設(shè)備共同組成下游的數(shù)據(jù)中心。

479d6f82-01ff-11ef-a297-92fbcf53809c.png

如果站在半導(dǎo)體產(chǎn)業(yè)鏈的角度看,那么芯片屬于中游。它的上游包括支撐集成電路設(shè)計(jì)和制造的 EDA 輔助設(shè)計(jì)工具和 IP 服務(wù),半導(dǎo)體制造設(shè)備、芯片生產(chǎn)測(cè)試流程。產(chǎn)業(yè)鏈下游包括各類(lèi)整機(jī)廠商、終端設(shè)備、網(wǎng)絡(luò)設(shè)備和應(yīng)用系統(tǒng)等,其中最重要的是服務(wù)器、桌面和嵌入式系統(tǒng)等硬件設(shè)備廠商。

47bb1e74-01ff-11ef-a297-92fbcf53809c.png

由于全球化的不斷深入,半導(dǎo)體產(chǎn)業(yè)發(fā)生了多次區(qū)域轉(zhuǎn)移,分工不斷細(xì)化??梢詫雽?dǎo)體的生產(chǎn)分為四個(gè)主要步驟:設(shè)計(jì)、制造、封裝、測(cè)試。在傳統(tǒng)的垂直整合制造商模式(IDM,即自己完成設(shè)計(jì)、制造、封裝測(cè)試等所有環(huán)節(jié))基礎(chǔ)上誕生了著名的Fabless+Foundry模式,F(xiàn)abless廠商是以美國(guó)為主的負(fù)責(zé)設(shè)計(jì),而Foundry則是以中國(guó)臺(tái)灣為主的負(fù)責(zé)制造的廠商。兩種模式各有利弊,不過(guò)這屬于半導(dǎo)體產(chǎn)業(yè)鏈范疇的討論,我們?cè)诖瞬蛔鲑樖觥?/p>

47cb4af6-01ff-11ef-a297-92fbcf53809c.png

CPU、GPU、ASICFPGA

半導(dǎo)體產(chǎn)品可以分為集成電路(芯片)、分立器件、光電器件傳感器,其中芯片進(jìn)一步分為數(shù)字芯片和模擬芯片,數(shù)字芯片下還有邏輯芯片、微處理器和存儲(chǔ)芯片三類(lèi)。我們所說(shuō)到的算力芯片或AI芯片實(shí)際上指的都是邏輯芯片,廣義上可以是所有采用邏輯門(mén)的大規(guī)模集成電路,包括以 CPU、GPU 為代表的通用計(jì)算芯片、專(zhuān)用芯片(ASIC)和 FPGA,狹義上,AI芯片指針對(duì)大量數(shù)據(jù)進(jìn)行訓(xùn)練和推理設(shè)計(jì)的芯片。

47e44bdc-01ff-11ef-a297-92fbcf53809c.png

CPU

CPU是中央處理器(Central Processing Unit),是計(jì)算機(jī)的運(yùn)算核心和控制核心。CPU包括運(yùn)算器(算術(shù)邏輯單元ALU、累加寄存器、 數(shù)據(jù)緩沖寄存器、狀態(tài)條件寄存器)、控制器(指令寄存器IR、程序計(jì)數(shù)器PC、地址寄存器、 指令譯碼器ID、時(shí)序、總線、中斷邏輯控制)、高速緩沖存儲(chǔ)器(Cache)、內(nèi)部數(shù)據(jù)總線 、控制總線、狀態(tài)總線及輸入/輸出接口等模塊。

48012810-01ff-11ef-a297-92fbcf53809c.png

CPU 的主要功能是解釋計(jì)算機(jī)指令以及處理計(jì)算機(jī)軟件中的數(shù)據(jù),其運(yùn)行程序時(shí)主要包括一下5個(gè)步驟:1)指令寄存器(IR)從存儲(chǔ)器或高速緩沖存儲(chǔ)器中獲取指令;2)指令譯碼器(ID)對(duì)指令進(jìn)行譯碼,并將指令分解成一系列簡(jiǎn)單的微操作;3)譯碼后的微操作通過(guò)控制單元發(fā)送給CPU內(nèi)的運(yùn)算器執(zhí)行數(shù)學(xué)運(yùn)算和邏輯決策,;4)執(zhí)行某些指令時(shí)需要讀取或?qū)懭霐?shù)據(jù)到主存儲(chǔ)器,地址寄存器用于確定存儲(chǔ)器中數(shù)據(jù)的位置,而數(shù)據(jù)經(jīng)過(guò)內(nèi)部總線傳輸;5)指令執(zhí)行完成后,結(jié)果會(huì)被寫(xiě)回到CPU的寄存器或存儲(chǔ)器中,供后續(xù)指令使用。

我們可以將這個(gè)流程類(lèi)比自己做數(shù)學(xué)題時(shí)的場(chǎng)景,從最開(kāi)始的讀題(獲取指令)、審題(指令譯碼)到一步一步計(jì)算答案(執(zhí)行運(yùn)算),再將答案寫(xiě)在草稿紙上(存儲(chǔ)結(jié)果)用于下一小問(wèn)。對(duì)于CPU來(lái)說(shuō)這整個(gè)過(guò)程是一個(gè)連續(xù)循環(huán),稱(chēng)為指令周期,包括獲取指令、譯碼、執(zhí)行、訪問(wèn)存儲(chǔ)器和寫(xiě)回結(jié)果的步驟。人們用主頻來(lái)衡量以上一個(gè)指令周期被執(zhí)行的速度(CPU性能),主頻是指CPU內(nèi)部時(shí)鐘的頻率,通常以赫茲(Hz)為單位,1赫茲等于每秒鐘一個(gè)周期。此外,F(xiàn)LOPS(每秒執(zhí)行多少浮點(diǎn)運(yùn)算)也被用于衡量CPU性能。

在CPU的發(fā)展歷史中,為了進(jìn)一步提升它的運(yùn)算能力人們提出了多線程(Multithreading)和多核(Multi-core)的設(shè)計(jì)方法。多線程指的是程序可以同時(shí)執(zhí)行多個(gè)任務(wù),也就是電腦可以同時(shí)做不同的事。例如,一個(gè)線程可以處理用戶輸入,同時(shí)另一個(gè)線程可以執(zhí)行后臺(tái)計(jì)算,還有一個(gè)線程可以處理網(wǎng)絡(luò)通信。即使一個(gè)線程被阻塞,其他線程仍然可以繼續(xù)工作,從而提高了整體的效率和程序的響應(yīng)性。多核則是增加CPU內(nèi)的處理單元,使CPU可以并行處理多個(gè)指令流。

48182592-01ff-11ef-a297-92fbcf53809c.png

可以按指令集和應(yīng)用領(lǐng)域?qū)PU進(jìn)行分門(mén)別類(lèi),指令集是 CPU 所執(zhí)行指令的二進(jìn)制編碼方法,是軟件和硬件的接口規(guī)范。按照指令集可分為 CISC復(fù)雜指令集和 RISC精簡(jiǎn)指令集兩大類(lèi),在上一篇文章中做過(guò)詳細(xì)介紹,這里不再贅述。CPU 按照下游應(yīng)用領(lǐng)域還可分為通用微處理器(MPU, Micro Processor Unit)和微控制器(MCU, Micro Controller Unit),MPU便是我們熟悉的應(yīng)用于服務(wù)器、桌面(臺(tái)式機(jī)/筆記本)、超級(jí)計(jì)算機(jī)等中的CPU。MCU是用于控制類(lèi)應(yīng)用的低性能、低功耗CPU。MCU的主頻一般低于 100MHz,一般是用在智能制造、工業(yè)控制、智能家居、遙控器、汽車(chē)電子、機(jī)器手臂的控制等。

4830cc78-01ff-11ef-a297-92fbcf53809c.png

從競(jìng)爭(zhēng)格局上看,英特爾AMD占據(jù)了大部分市場(chǎng)份額,其中英特爾作為CPU的締造者擁有絕對(duì)主導(dǎo)地位。從服務(wù)器CPU角度看,2022年英特爾與AMD合計(jì)占到全球90%的市場(chǎng)份額,不過(guò)近兩年AMD不斷搶占英特爾份額。從MPU整體上看,英特爾占據(jù)半壁江山,移動(dòng)設(shè)備端蘋(píng)果和高通分別擁有13%和9%的份額。從MCU上看則是日韓系廠商份額較多。

4848407e-01ff-11ef-a297-92fbcf53809c.png

48641236-01ff-11ef-a297-92fbcf53809c.png

GPU

作為通用處理器,以前幾乎所有的計(jì)算任務(wù)都由CPU處理,不過(guò)到了八十年代末九十年代初,越來(lái)越多的圖形渲染處理需求催生了GPU的誕生,黃仁勛正是在這一時(shí)期創(chuàng)立的英偉達(dá),專(zhuān)注于GPU的研發(fā)與制造。

GPU是圖形處理器(Graphic Processing Unit),又稱(chēng)為顯示芯片(顯卡),最初是作為專(zhuān)用處理器來(lái)輔助CPU進(jìn)行圖像和圖形相關(guān)運(yùn)算工作的。從結(jié)構(gòu)上來(lái)說(shuō),CPU的設(shè)計(jì)是低延遲的串行計(jì)算模式,擁有少數(shù)強(qiáng)大的ALU算數(shù)邏輯單元高效的挨個(gè)完成每個(gè)任務(wù)。而GPU側(cè)重于并行計(jì)算(Parallel Processing),擁有大量的ALU可以同時(shí)處理大規(guī)模的簡(jiǎn)單計(jì)算。簡(jiǎn)單來(lái)說(shuō),CPU的工作模式好比一位博士單獨(dú)去解一道復(fù)雜的高數(shù)題,而GPU則如同一百名高中生一起計(jì)算加減、乘除法。

487e759a-01ff-11ef-a297-92fbcf53809c.png

CPU已經(jīng)如此強(qiáng)大了,為什么還需要GPU呢,或者說(shuō)為什么在圖形處理和如今的人工智能浪潮下為什么GPU這個(gè)以前CPU的小弟成為了王者呢?首先在圖像處理領(lǐng)域,圖片是由一個(gè)個(gè)像素點(diǎn)組成的,比如一張1080p的圖片實(shí)際上是由1920x1080= 207萬(wàn)像素點(diǎn)組成,但是每個(gè)像素點(diǎn)的計(jì)算并不復(fù)雜。由CPU加載圖片時(shí)是一個(gè)一個(gè)的單獨(dú)運(yùn)算每個(gè)像素點(diǎn),而使用GPU的話則是并行計(jì)算,由多個(gè)ALU同時(shí)處理每個(gè)像素點(diǎn),從而實(shí)現(xiàn)快速處理全部像素點(diǎn)。

489bb3e4-01ff-11ef-a297-92fbcf53809c.gif

在人工智能大模型中同理,大模型可以有各種不同結(jié)構(gòu),但其背后的本質(zhì)都是基于神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí),它的核心運(yùn)算需求并不高,主要就是累加和累乘的運(yùn)算,但是由于模型參數(shù)巨大、網(wǎng)絡(luò)層數(shù)復(fù)雜,因此需要運(yùn)用大規(guī)模并行計(jì)算,這也就是為什么GPU如今獨(dú)領(lǐng)風(fēng)騷。

48c28e2e-01ff-11ef-a297-92fbcf53809c.gif

由黃仁勛于1993年創(chuàng)立的英偉達(dá)可謂是GPU的奠定者和締造者,1999年英偉達(dá)推出了被譽(yù)為世界上第一款真正的GPU的GeForce 256,并憑借此產(chǎn)品獲得巨大成功。然而,作為專(zhuān)用處理器,傳統(tǒng) GPU 應(yīng)用局限于圖形渲染計(jì)算,在面對(duì)非圖像并涉及大量并行運(yùn)算的領(lǐng)域,比如 AI、加密解密、科學(xué)計(jì)算等則更需要通用計(jì)算能力。為了提高GPU的通用性,英偉達(dá)于2006年推出的CUDA開(kāi)發(fā)環(huán)境構(gòu)造了其強(qiáng)大的生態(tài)護(hù)城河,自此GPGPU(General Purpose GPU)時(shí)代開(kāi)啟。

4917b0fc-01ff-11ef-a297-92fbcf53809c.png

CUDA(Compute Unified Device Architecture,統(tǒng)一計(jì)算設(shè)備架構(gòu)) 可以讓開(kāi)發(fā)者能夠用類(lèi)似 C 語(yǔ)言的方式編寫(xiě)程序,讓 GPU 來(lái)處理計(jì)算密集型任務(wù)。簡(jiǎn)單來(lái)說(shuō),CUDA平臺(tái)是英偉達(dá)提供給開(kāi)發(fā)者的編程工具,包含了一系列工具函數(shù),有各種功能,同時(shí)CUDA可以讓開(kāi)發(fā)者調(diào)用成千上萬(wàn)的 GPU 核心同時(shí)工作,進(jìn)一步提高計(jì)算速度。隨著時(shí)間推移,CUDA被應(yīng)用在包括物理化學(xué)、生物醫(yī)藥、人工智能等眾多行業(yè)領(lǐng)域,其開(kāi)發(fā)者生態(tài)也不斷豐富,同時(shí)由于CUDA只適用于英偉達(dá)的GPU,它成為了英偉達(dá)主導(dǎo)GPU的殺手锏。類(lèi)似于CUDA的還有針對(duì)AMD的GPU使用的ATIStream,以及兩款開(kāi)源平臺(tái)ROCm和OpenCL,這兩者可實(shí)現(xiàn)不同生態(tài)GPU的相互遷移。

492bba8e-01ff-11ef-a297-92fbcf53809c.png

在GPU發(fā)展歷史上,除了CUDA平臺(tái)外,微架構(gòu)迭代與芯片制程升級(jí)是單卡GPU性能提升的關(guān)鍵途徑。GPU 的微架構(gòu)是用以實(shí)現(xiàn)指令執(zhí)行的硬件電路結(jié)構(gòu)設(shè)計(jì),不同的微架構(gòu)設(shè)計(jì)會(huì)對(duì) GPU 的性能產(chǎn)生決定性的影響。以英偉達(dá)為例,從最初 Fermi 架構(gòu)到現(xiàn)在的Hopper架構(gòu)和最新的Blackwell架構(gòu),英偉達(dá)平均買(mǎi)兩年更新一次架構(gòu),每一階段都在性能和能效比方面得到提升,同時(shí)引入了新技術(shù),如 CUDA、GPU Boost、RT 核心和 Tensor 核心等,作為行業(yè)第二的AMD也緊跟英偉達(dá)更新其微架構(gòu)。

4943d42a-01ff-11ef-a297-92fbcf53809c.png

對(duì)比當(dāng)前主流的頂級(jí)GPU英偉達(dá)H100和AMD的MI250X可以看出,二者在硬件層面上的差距并不大,真正能夠使英偉達(dá)維持80%市占率達(dá)的其實(shí)是軟件層面的CUDA平臺(tái),由于多年以來(lái)眾多主要開(kāi)發(fā)者都使用基于CUDA的英偉達(dá)GPU,其形成的廣泛生態(tài)和粘性極大的增加了進(jìn)行更換廠商的總成本,同時(shí)這也給遠(yuǎn)在大洋彼岸的國(guó)內(nèi)廠商追趕英偉達(dá)造成更大的挑戰(zhàn)。因此英偉達(dá)不僅僅是我們印象中的賣(mài)芯片的硬件公司,它也是一家強(qiáng)大的軟件公司。

495ac978-01ff-11ef-a297-92fbcf53809c.png

4975dd44-01ff-11ef-a297-92fbcf53809c.png

ASIC

在GPGPU時(shí)代GPU已經(jīng)具備了類(lèi)似CPU的通用性,專(zhuān)用處理器中還剩下ASIC和FPGA兩款。ASIC (Application Specific Integrated Circuit,專(zhuān)用集成電路)是為了某種特定需求而專(zhuān)門(mén)定制的芯片。ASIC 的計(jì)算能力和計(jì)算效率都可以根據(jù)算法需要進(jìn)行定制,因此與通用芯片相比具有體積小、功耗低、計(jì)算性能高等優(yōu)勢(shì)。但是缺點(diǎn)也很明顯,ASIC只能針對(duì)特定的幾個(gè)應(yīng)用場(chǎng)景,算法和流程變更可能導(dǎo)致 ASIC 無(wú)法滿足業(yè)務(wù)需求。

4994038c-01ff-11ef-a297-92fbcf53809c.png

由于目前對(duì)于芯片的需求爆發(fā)主要還是來(lái)自AI領(lǐng)域,針對(duì)AI計(jì)算場(chǎng)景設(shè)計(jì)的ASIC從性能、能效、成本均極大的超越了通用芯片,是GPU的潛在競(jìng)爭(zhēng)對(duì)手。目前全球 ASIC 市場(chǎng)并未形成明顯的頭部廠商,由于 ASIC 需要定制且開(kāi)發(fā)周期長(zhǎng),大多為云計(jì)算/互聯(lián)網(wǎng)等大廠有資金與實(shí)力進(jìn)行研發(fā),且僅當(dāng)其定制化應(yīng)用場(chǎng)景市場(chǎng)空間足夠大時(shí)量產(chǎn)ASIC才能實(shí)現(xiàn)豐厚利潤(rùn)。目前市場(chǎng)上主流 ASIC 有 TPU 芯片、NPU 芯片、VPU 芯片以及 BPU 芯片,它們分別是由谷歌、寒武紀(jì)、英特爾以及地平線公司設(shè)計(jì)生產(chǎn),預(yù)計(jì)未來(lái)將有更多諸如微軟、亞馬遜、百度、阿里等云計(jì)算巨頭加入定制自家的ASIC。

49a7a216-01ff-11ef-a297-92fbcf53809c.png

FPGA

除了ASIC外,F(xiàn)PGA (Field-Programmable Gate Array,現(xiàn)場(chǎng)可編程門(mén)陣列)也是一種專(zhuān)用芯片,其最大特點(diǎn)是現(xiàn)場(chǎng)可編程性。CPU、GPU以及各類(lèi) ASIC 芯片在制造完成后,其芯片的功能就已被固定,而 FPGA 芯片在制造完成后,用戶可以根據(jù)自己的實(shí)際需要,將自己設(shè)計(jì)的電路通過(guò) FPGA 芯片公司提供的專(zhuān)用 EDA 軟件對(duì) FPGA 芯片進(jìn)行功能配置,從而將空白的 FPGA 芯片轉(zhuǎn)化為具有特定功能的集成電路芯片。FPGA 芯片由可編程的邏輯單元(Logic Cell,LC)、輸入輸出單元(Input Output Block,IO)和開(kāi)關(guān)連線陣列(Switch Box,SB)三個(gè)部分構(gòu)成。

49c2660a-01ff-11ef-a297-92fbcf53809c.png

2023 年全球 FPGA 市場(chǎng)規(guī)模有望達(dá) 94 億美元,且保持15%左右的增速。從競(jìng)爭(zhēng)格局上看,被AMD收購(gòu)的賽靈思Xilinx 約占全球 FPGA 市場(chǎng)份額 52%,Intel 旗下 Altera 約占 35%。

49eafcd2-01ff-11ef-a297-92fbcf53809c.png

中美情況對(duì)比

前面詳細(xì)介紹了主要四種處理器芯片的功能、市場(chǎng)空間和競(jìng)爭(zhēng)格局,接下來(lái)進(jìn)一步說(shuō)說(shuō)中國(guó)和美國(guó)在AI芯片上的差距。首先,無(wú)論是站在國(guó)家安全、自主可控的角度還是受美國(guó)卡脖子技術(shù)禁令影響的角度,國(guó)產(chǎn)自研替代雖然艱難但一定是未來(lái)最可靠甚至是唯一的出路。

從算力、算法和應(yīng)用層出發(fā),中國(guó)廠商和美國(guó)同行相比都有一定差距。在算力端存在芯片性能及生態(tài)差距,在芯片的生產(chǎn)端核心環(huán)節(jié)如芯片的設(shè)計(jì)、流片等也均由海外主導(dǎo);在算法端,海外在基礎(chǔ)研究方面較為領(lǐng)先,如谷歌發(fā)布底層架構(gòu) Transformer ;應(yīng)用端,海外頭部應(yīng)用多已成為行業(yè)標(biāo)準(zhǔn),擁有較為良好的用戶基礎(chǔ),有助于 LLM+產(chǎn)品的快速落地,如辦公領(lǐng)域的微軟 Office 產(chǎn)品。

4a02378a-01ff-11ef-a297-92fbcf53809c.png

不過(guò)算法和應(yīng)用端的差距不大,而算力層面的差距是最關(guān)鍵的。一方面算力端的核心環(huán)節(jié)均受海外主導(dǎo),很難繞開(kāi),而且海外頭部算力廠商圍繞自身產(chǎn)品形成了包含應(yīng)用、算法的生態(tài)壁壘,更加難以突破。另一方面,算力處于基礎(chǔ)支撐地位,直接影響模型的落地和應(yīng)用的推廣進(jìn)度。美國(guó)政府為了限制中國(guó)AI的發(fā)展更是出臺(tái)政策禁止了美國(guó)企業(yè)將高端芯片賣(mài)給國(guó)內(nèi)企業(yè),自2022年以來(lái)美國(guó)已多次出臺(tái)出口限制法案,限制力度逐步提升。去年10月的最新法案中以總處理性能 TPP(Total Processing Performance,即計(jì)算速度*字節(jié)長(zhǎng)度)和性能密度 PD(Performance Density,即每平方毫米的 TPP)為要求,TPP>4800 的芯片、TPP>1600 且 PD>5.92 的芯片屬于高性能芯片,不再被允許出口。

4a1aa108-01ff-11ef-a297-92fbcf53809c.png

在這個(gè)背景下,我們來(lái)對(duì)比下中美主要AI芯片發(fā)展進(jìn)度。國(guó)內(nèi)的算力產(chǎn)業(yè)整體上可分為三大體系:以鯤鵬+昇騰為核心芯片的Arm服務(wù)器華為系,以海光為核心芯片、中科曙光為整機(jī)廠的x86服務(wù)器中科院系,以飛騰為核心芯片、中國(guó)長(zhǎng)城為整機(jī)廠的Arm服務(wù)器中電子系。

4a3092ec-01ff-11ef-a297-92fbcf53809c.png

在CPU領(lǐng)域,國(guó)內(nèi)企業(yè)經(jīng)過(guò)多年發(fā)展與積累形成了海光信息、龍芯中科、華為、飛騰、兆芯和申威六大廠商齊頭并進(jìn)的局面,其中華為和海光性能最好,可對(duì)標(biāo)英特爾與AMD的頂級(jí)CPU產(chǎn)品,飛騰和申威的芯片則主要應(yīng)用于國(guó)家超算中心如天河、神威。從三大運(yùn)營(yíng)商的采購(gòu)情況也可以看出,2022年采購(gòu)中國(guó)產(chǎn)CPU服務(wù)器占比達(dá)到37%,其中海光占比19.66%,華為鯤鵬占比17.41%。

4a496ca4-01ff-11ef-a297-92fbcf53809c.png

4a661e80-01ff-11ef-a297-92fbcf53809c.png

4a873b6a-01ff-11ef-a297-92fbcf53809c.png

GPU方面,由于GPU領(lǐng)域英偉達(dá)占據(jù)絕對(duì)領(lǐng)導(dǎo)地位,國(guó)內(nèi)廠商目前在硬件和生態(tài)上都有較大差距。國(guó)內(nèi)GPU最強(qiáng)的是華為,昇騰310為推理芯片,昇騰910為訓(xùn)練芯片。昇騰 910 芯片采用7nm制程,F(xiàn)P16 算力達(dá)到 320TFLOPS、INT8 算力達(dá)到 640TOPS,與 NVIDIA A100 80GB 版本旗鼓相當(dāng),組網(wǎng)集群上限達(dá)到18000張(英偉達(dá)A100為16000,H100為50000)。不過(guò)與英偉達(dá)H100和今年剛剛發(fā)布的B100相比存在1-2代差距。

4aa4e8c2-01ff-11ef-a297-92fbcf53809c.png

此外,海光信息基于GPGPU架構(gòu)推出DCU深算產(chǎn)品,軟件生態(tài)完善兼容通用的“類(lèi) CUDA”環(huán)境,旗下產(chǎn)品DCUZ100 的關(guān)鍵性能指標(biāo)實(shí)現(xiàn)FP6410.8TFlops,顯存32GB HBM2,也可對(duì)標(biāo)英偉達(dá)A100和AMD的MI100單卡性能。

4ace581a-01ff-11ef-a297-92fbcf53809c.png

發(fā)展趨勢(shì)

最后來(lái)說(shuō)說(shuō)AI芯片的發(fā)展趨勢(shì)有哪些,由于未來(lái)應(yīng)用于大模型推理的需求將遠(yuǎn)超過(guò)訓(xùn)練需求,AI芯片也朝著更高性能、更低功耗和更靠近邊緣和端側(cè)發(fā)展。在性能提升方面,單個(gè)處理器層面的提升主要來(lái)自過(guò)去幾十年都遵循的摩爾定律,也就是芯片制程的提升,以及設(shè)計(jì)層面的微架構(gòu)迭代。然而當(dāng)晶體管大小接近 1nm 左右時(shí),與 0.1nm 的原子直徑尺寸量級(jí)接近,量子隧穿引起的晶體管漏電效應(yīng)將愈發(fā)明顯,以至于影響芯片正常工作。微架構(gòu)方面,英偉達(dá)于今年三月GTC大會(huì)上最新推出的Blackwell架構(gòu)也展現(xiàn)出架構(gòu)更新放緩的趨勢(shì)。

4ae0d5da-01ff-11ef-a297-92fbcf53809c.png

在這個(gè)背景下,單張GPU的性能已接近瓶頸,因此未來(lái)的發(fā)展必然聚焦于多張卡的聯(lián)合上。在芯片封裝層面,通過(guò)Chiplet和CoWos等先進(jìn)封裝技術(shù)將多顆芯片與內(nèi)存等模塊封裝在一起。在系統(tǒng)層面,通過(guò)卡間互聯(lián)、服務(wù)器間互聯(lián)以及數(shù)據(jù)中心集群間互聯(lián)等方式集合更多的GPU。

此外,隨著越來(lái)越多的推理需求出現(xiàn),AI芯片也將越來(lái)越多的從云端轉(zhuǎn)移到邊緣和端側(cè),也會(huì)出現(xiàn)更多低功耗的端側(cè)芯片,比如現(xiàn)在的自動(dòng)駕駛、AI PC和AI手機(jī)等概念,都需要將算力直接部署到汽車(chē)、電腦或手機(jī)上。

4afd1c04-01ff-11ef-a297-92fbcf53809c.png


審核編輯:劉清
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19890

    瀏覽量

    235118
  • 半導(dǎo)體
    +關(guān)注

    關(guān)注

    335

    文章

    28901

    瀏覽量

    237629
  • 光電器件
    +關(guān)注

    關(guān)注

    1

    文章

    180

    瀏覽量

    19075
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    49011

    瀏覽量

    249348
  • GPU芯片
    +關(guān)注

    關(guān)注

    1

    文章

    305

    瀏覽量

    6197

原文標(biāo)題:為什么是GPU?一文深度梳理AI算力芯片

文章出處:【微信號(hào):Rocker-IC,微信公眾號(hào):路科驗(yàn)證】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    “四平臺(tái),芯片國(guó)產(chǎn)化率超九成,兼容8種國(guó)產(chǎn)AI芯片

    電子發(fā)燒友網(wǎng)報(bào)道(/李彎彎)4月11日消息,由中國(guó)移動(dòng)承建的全國(guó)首個(gè)“四網(wǎng)絡(luò)調(diào)度平臺(tái)正式投入使用。四
    的頭像 發(fā)表于 04-13 00:03 ?2674次閱讀

    摩爾線程與AI平臺(tái)AutoDL達(dá)成深度合作

    近日,摩爾線程與國(guó)內(nèi)領(lǐng)先的AI平臺(tái)AutoDL宣布達(dá)成深度合作,雙方聯(lián)合推出面向個(gè)人開(kāi)發(fā)者的“摩爾線程專(zhuān)區(qū)”,首次將國(guó)產(chǎn)GPU
    的頭像 發(fā)表于 05-23 16:10 ?769次閱讀

    芯片的生態(tài)突圍與革命

    電子發(fā)燒友網(wǎng)報(bào)道( / 李彎彎)大芯片,即具備強(qiáng)大計(jì)算能力的集成電路芯片,主要應(yīng)用于高性能計(jì)算(HPC)、人工智能(
    的頭像 發(fā)表于 04-13 00:02 ?1717次閱讀

    DeepSeek推動(dòng)AI需求:800G光模塊的關(guān)鍵作用

    集群的部署過(guò)程中,帶寬瓶頸成為制約發(fā)揮的關(guān)鍵因素,而光模塊的速率躍升成為突破這瓶頸的核心驅(qū)動(dòng)力。 光模塊速率躍升 隨著
    發(fā)表于 03-25 12:00

    看懂】什么是端側(cè)

    隨著物聯(lián)網(wǎng)(IoT)、人工智能和5G技術(shù)的快速發(fā)展,端側(cè)正逐漸成為智能設(shè)備性能提升和智能化應(yīng)用實(shí)現(xiàn)的關(guān)鍵技術(shù)。什么是端側(cè),它的應(yīng)用價(jià)值是什么,與云計(jì)算、邊緣計(jì)算有哪些區(qū)別?本文
    的頭像 發(fā)表于 02-24 12:02 ?1305次閱讀
    【<b class='flag-5'>一</b><b class='flag-5'>文</b>看懂】什么是端側(cè)<b class='flag-5'>算</b><b class='flag-5'>力</b>?

    安霸大AI芯片接入DeepSeek R1

    安霸(Ambarela)在人工智能領(lǐng)域持續(xù)發(fā),已成功在多款 AI 芯片,包括 N 系列大 AI
    的頭像 發(fā)表于 02-17 13:36 ?534次閱讀

    中心的如何衡量?

    作為當(dāng)下科技發(fā)展的重要基礎(chǔ)設(shè)施,其的衡量關(guān)乎其能否高效支撐人工智能、大數(shù)據(jù)分析等智能應(yīng)用的運(yùn)行。以下是對(duì)智中心算衡量的詳細(xì)闡述:、
    的頭像 發(fā)表于 01-16 14:03 ?2462次閱讀
    <b class='flag-5'>算</b>智<b class='flag-5'>算</b>中心的<b class='flag-5'>算</b><b class='flag-5'>力</b>如何衡量?

    企業(yè)AI租賃模式的好處

    構(gòu)建和維護(hù)個(gè)高效、可擴(kuò)展的AI基礎(chǔ)設(shè)施,不僅需要巨額的初期投資,還涉及復(fù)雜的運(yùn)維管理和持續(xù)的技術(shù)升級(jí)。而AI
    的頭像 發(fā)表于 12-24 10:49 ?1208次閱讀

    企業(yè)AI租賃是什么

    企業(yè)AI租賃是指企業(yè)通過(guò)互聯(lián)網(wǎng)向?qū)I(yè)的提供商租用所需的計(jì)算資源,以滿足其AI應(yīng)用的需求。
    的頭像 發(fā)表于 11-14 09:30 ?2402次閱讀

    AI芯片供電電源測(cè)試?yán)?費(fèi)思低壓大電流系列電子負(fù)載

    AI芯片作為驅(qū)動(dòng)復(fù)雜計(jì)算任務(wù)的核心引擎,其性能與穩(wěn)定性成為了決定應(yīng)用成敗的關(guān)鍵因素。而在這背后,供電電源的穩(wěn)定性和高效性則是保障AI
    的頭像 發(fā)表于 10-25 11:26 ?1464次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>芯片</b>供電電源測(cè)試?yán)?費(fèi)思低壓大電流系列電子負(fù)載

    體架構(gòu)創(chuàng)新助力國(guó)產(chǎn)大AI芯片騰飛

    在灣芯展SEMiBAY2024《AI芯片與高性能計(jì)算(HPC)應(yīng)用論壇》上,億鑄科技高級(jí)副總裁徐芳發(fā)表了題為《存體架構(gòu)創(chuàng)新助力國(guó)產(chǎn)大
    的頭像 發(fā)表于 10-23 14:48 ?860次閱讀

    【「芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--全書(shū)概覽

    本帖最后由 1653149838.791300 于 2024-10-16 22:19 編輯 感謝平臺(tái)提供的書(shū)籍,厚厚的本,很有分量,感謝作者的傾力付出成書(shū)。 本書(shū)主要講芯片
    發(fā)表于 10-15 22:08

    名單公布!【書(shū)籍評(píng)測(cè)活動(dòng)NO.43】 芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析

    試用評(píng)測(cè)資格! 前言 不知不覺(jué)中,我們來(lái)到個(gè)計(jì)算機(jī)科學(xué)飛速發(fā)展的時(shí)代,手機(jī)和計(jì)算機(jī)中各類(lèi)便捷的軟件已經(jīng)融入日常生活,在此背景下,硬件特別是強(qiáng)勁的芯片,對(duì)于軟件服務(wù)起到不可替代的支
    發(fā)表于 09-02 10:09

    大模型時(shí)代的需求

    現(xiàn)在AI已進(jìn)入大模型時(shí)代,各企業(yè)都爭(zhēng)相部署大模型,但如何保證大模型的,以及相關(guān)的穩(wěn)定性和性能,是個(gè)極為重要的問(wèn)題,帶著這個(gè)極為重要的問(wèn)題,我需要在此書(shū)中找到答案。
    發(fā)表于 08-20 09:04