幾十年前,CPU 作為通用處理器幾乎處理所有計(jì)算任務(wù),那個(gè)時(shí)代的顯卡有助于加快應(yīng)用程序中圖形的繪制速度。但在今天ChatGPT引爆的人工智能iPhone時(shí)刻,GPU成為了整個(gè)行業(yè)最具主導(dǎo)地位的芯片之一。大家都在搶購(gòu)GPU,龍頭企業(yè)英偉達(dá)也因此賺的盆滿缽滿。
在此前的文章中我們介紹了AI算力的主要載體數(shù)據(jù)中心IDC的商業(yè)模式和組成部分,并進(jìn)一步走進(jìn)服務(wù)器這個(gè)數(shù)據(jù)中心中主要負(fù)責(zé)計(jì)算的硬件。服務(wù)器中有處理器、內(nèi)存、硬盤(pán)等零部件,其中最核心的負(fù)責(zé)計(jì)算的當(dāng)屬處理器,也就是芯片。因此,今天我們繼續(xù)梳理AI算力芯片,看看為什么在當(dāng)今AI時(shí)代GPU占據(jù)了主導(dǎo)地位以及我國(guó)目前的發(fā)展情況與相關(guān)企業(yè)。
產(chǎn)業(yè)鏈
從產(chǎn)業(yè)鏈說(shuō)起,首先來(lái)看芯片在產(chǎn)業(yè)鏈中扮演的角色。這里從兩方面說(shuō),站在算力產(chǎn)業(yè)鏈角度,芯片屬于上游產(chǎn)品,正如我們?cè)凇禔I服務(wù)器革命:硬件進(jìn)化驅(qū)動(dòng)人工智能新紀(jì)元》一文中提到,芯片與其它硬件組成服務(wù)器,也就是產(chǎn)業(yè)鏈中游,服務(wù)器又與其它設(shè)備共同組成下游的數(shù)據(jù)中心。
如果站在半導(dǎo)體產(chǎn)業(yè)鏈的角度看,那么芯片屬于中游。它的上游包括支撐集成電路設(shè)計(jì)和制造的 EDA 輔助設(shè)計(jì)工具和 IP 服務(wù),半導(dǎo)體制造設(shè)備、芯片生產(chǎn)測(cè)試流程。產(chǎn)業(yè)鏈下游包括各類(lèi)整機(jī)廠商、終端設(shè)備、網(wǎng)絡(luò)設(shè)備和應(yīng)用系統(tǒng)等,其中最重要的是服務(wù)器、桌面和嵌入式系統(tǒng)等硬件設(shè)備廠商。
由于全球化的不斷深入,半導(dǎo)體產(chǎn)業(yè)發(fā)生了多次區(qū)域轉(zhuǎn)移,分工不斷細(xì)化??梢詫雽?dǎo)體的生產(chǎn)分為四個(gè)主要步驟:設(shè)計(jì)、制造、封裝、測(cè)試。在傳統(tǒng)的垂直整合制造商模式(IDM,即自己完成設(shè)計(jì)、制造、封裝測(cè)試等所有環(huán)節(jié))基礎(chǔ)上誕生了著名的Fabless+Foundry模式,F(xiàn)abless廠商是以美國(guó)為主的負(fù)責(zé)設(shè)計(jì),而Foundry則是以中國(guó)臺(tái)灣為主的負(fù)責(zé)制造的廠商。兩種模式各有利弊,不過(guò)這屬于半導(dǎo)體產(chǎn)業(yè)鏈范疇的討論,我們?cè)诖瞬蛔鲑樖觥?/p>
半導(dǎo)體產(chǎn)品可以分為集成電路(芯片)、分立器件、光電器件和傳感器,其中芯片進(jìn)一步分為數(shù)字芯片和模擬芯片,數(shù)字芯片下還有邏輯芯片、微處理器和存儲(chǔ)芯片三類(lèi)。我們所說(shuō)到的算力芯片或AI芯片實(shí)際上指的都是邏輯芯片,廣義上可以是所有采用邏輯門(mén)的大規(guī)模集成電路,包括以 CPU、GPU 為代表的通用計(jì)算芯片、專(zhuān)用芯片(ASIC)和 FPGA,狹義上,AI芯片指針對(duì)大量數(shù)據(jù)進(jìn)行訓(xùn)練和推理設(shè)計(jì)的芯片。
CPU
CPU是中央處理器(Central Processing Unit),是計(jì)算機(jī)的運(yùn)算核心和控制核心。CPU包括運(yùn)算器(算術(shù)邏輯單元ALU、累加寄存器、 數(shù)據(jù)緩沖寄存器、狀態(tài)條件寄存器)、控制器(指令寄存器IR、程序計(jì)數(shù)器PC、地址寄存器、 指令譯碼器ID、時(shí)序、總線、中斷邏輯控制)、高速緩沖存儲(chǔ)器(Cache)、內(nèi)部數(shù)據(jù)總線 、控制總線、狀態(tài)總線及輸入/輸出接口等模塊。
CPU 的主要功能是解釋計(jì)算機(jī)指令以及處理計(jì)算機(jī)軟件中的數(shù)據(jù),其運(yùn)行程序時(shí)主要包括一下5個(gè)步驟:1)指令寄存器(IR)從存儲(chǔ)器或高速緩沖存儲(chǔ)器中獲取指令;2)指令譯碼器(ID)對(duì)指令進(jìn)行譯碼,并將指令分解成一系列簡(jiǎn)單的微操作;3)譯碼后的微操作通過(guò)控制單元發(fā)送給CPU內(nèi)的運(yùn)算器執(zhí)行數(shù)學(xué)運(yùn)算和邏輯決策,;4)執(zhí)行某些指令時(shí)需要讀取或?qū)懭霐?shù)據(jù)到主存儲(chǔ)器,地址寄存器用于確定存儲(chǔ)器中數(shù)據(jù)的位置,而數(shù)據(jù)經(jīng)過(guò)內(nèi)部總線傳輸;5)指令執(zhí)行完成后,結(jié)果會(huì)被寫(xiě)回到CPU的寄存器或存儲(chǔ)器中,供后續(xù)指令使用。
我們可以將這個(gè)流程類(lèi)比自己做數(shù)學(xué)題時(shí)的場(chǎng)景,從最開(kāi)始的讀題(獲取指令)、審題(指令譯碼)到一步一步計(jì)算答案(執(zhí)行運(yùn)算),再將答案寫(xiě)在草稿紙上(存儲(chǔ)結(jié)果)用于下一小問(wèn)。對(duì)于CPU來(lái)說(shuō)這整個(gè)過(guò)程是一個(gè)連續(xù)循環(huán),稱(chēng)為指令周期,包括獲取指令、譯碼、執(zhí)行、訪問(wèn)存儲(chǔ)器和寫(xiě)回結(jié)果的步驟。人們用主頻來(lái)衡量以上一個(gè)指令周期被執(zhí)行的速度(CPU性能),主頻是指CPU內(nèi)部時(shí)鐘的頻率,通常以赫茲(Hz)為單位,1赫茲等于每秒鐘一個(gè)周期。此外,F(xiàn)LOPS(每秒執(zhí)行多少浮點(diǎn)運(yùn)算)也被用于衡量CPU性能。
在CPU的發(fā)展歷史中,為了進(jìn)一步提升它的運(yùn)算能力人們提出了多線程(Multithreading)和多核(Multi-core)的設(shè)計(jì)方法。多線程指的是程序可以同時(shí)執(zhí)行多個(gè)任務(wù),也就是電腦可以同時(shí)做不同的事。例如,一個(gè)線程可以處理用戶輸入,同時(shí)另一個(gè)線程可以執(zhí)行后臺(tái)計(jì)算,還有一個(gè)線程可以處理網(wǎng)絡(luò)通信。即使一個(gè)線程被阻塞,其他線程仍然可以繼續(xù)工作,從而提高了整體的效率和程序的響應(yīng)性。多核則是增加CPU內(nèi)的處理單元,使CPU可以并行處理多個(gè)指令流。
可以按指令集和應(yīng)用領(lǐng)域?qū)PU進(jìn)行分門(mén)別類(lèi),指令集是 CPU 所執(zhí)行指令的二進(jìn)制編碼方法,是軟件和硬件的接口規(guī)范。按照指令集可分為 CISC復(fù)雜指令集和 RISC精簡(jiǎn)指令集兩大類(lèi),在上一篇文章中做過(guò)詳細(xì)介紹,這里不再贅述。CPU 按照下游應(yīng)用領(lǐng)域還可分為通用微處理器(MPU, Micro Processor Unit)和微控制器(MCU, Micro Controller Unit),MPU便是我們熟悉的應(yīng)用于服務(wù)器、桌面(臺(tái)式機(jī)/筆記本)、超級(jí)計(jì)算機(jī)等中的CPU。MCU是用于控制類(lèi)應(yīng)用的低性能、低功耗CPU。MCU的主頻一般低于 100MHz,一般是用在智能制造、工業(yè)控制、智能家居、遙控器、汽車(chē)電子、機(jī)器手臂的控制等。
從競(jìng)爭(zhēng)格局上看,英特爾和AMD占據(jù)了大部分市場(chǎng)份額,其中英特爾作為CPU的締造者擁有絕對(duì)主導(dǎo)地位。從服務(wù)器CPU角度看,2022年英特爾與AMD合計(jì)占到全球90%的市場(chǎng)份額,不過(guò)近兩年AMD不斷搶占英特爾份額。從MPU整體上看,英特爾占據(jù)半壁江山,移動(dòng)設(shè)備端蘋(píng)果和高通分別擁有13%和9%的份額。從MCU上看則是日韓系廠商份額較多。
GPU
作為通用處理器,以前幾乎所有的計(jì)算任務(wù)都由CPU處理,不過(guò)到了八十年代末九十年代初,越來(lái)越多的圖形渲染處理需求催生了GPU的誕生,黃仁勛正是在這一時(shí)期創(chuàng)立的英偉達(dá),專(zhuān)注于GPU的研發(fā)與制造。
GPU是圖形處理器(Graphic Processing Unit),又稱(chēng)為顯示芯片(顯卡),最初是作為專(zhuān)用處理器來(lái)輔助CPU進(jìn)行圖像和圖形相關(guān)運(yùn)算工作的。從結(jié)構(gòu)上來(lái)說(shuō),CPU的設(shè)計(jì)是低延遲的串行計(jì)算模式,擁有少數(shù)強(qiáng)大的ALU算數(shù)邏輯單元高效的挨個(gè)完成每個(gè)任務(wù)。而GPU側(cè)重于并行計(jì)算(Parallel Processing),擁有大量的ALU可以同時(shí)處理大規(guī)模的簡(jiǎn)單計(jì)算。簡(jiǎn)單來(lái)說(shuō),CPU的工作模式好比一位博士單獨(dú)去解一道復(fù)雜的高數(shù)題,而GPU則如同一百名高中生一起計(jì)算加減、乘除法。
CPU已經(jīng)如此強(qiáng)大了,為什么還需要GPU呢,或者說(shuō)為什么在圖形處理和如今的人工智能浪潮下為什么GPU這個(gè)以前CPU的小弟成為了王者呢?首先在圖像處理領(lǐng)域,圖片是由一個(gè)個(gè)像素點(diǎn)組成的,比如一張1080p的圖片實(shí)際上是由1920x1080= 207萬(wàn)像素點(diǎn)組成,但是每個(gè)像素點(diǎn)的計(jì)算并不復(fù)雜。由CPU加載圖片時(shí)是一個(gè)一個(gè)的單獨(dú)運(yùn)算每個(gè)像素點(diǎn),而使用GPU的話則是并行計(jì)算,由多個(gè)ALU同時(shí)處理每個(gè)像素點(diǎn),從而實(shí)現(xiàn)快速處理全部像素點(diǎn)。
在人工智能大模型中同理,大模型可以有各種不同結(jié)構(gòu),但其背后的本質(zhì)都是基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí),它的核心運(yùn)算需求并不高,主要就是累加和累乘的運(yùn)算,但是由于模型參數(shù)巨大、網(wǎng)絡(luò)層數(shù)復(fù)雜,因此需要運(yùn)用大規(guī)模并行計(jì)算,這也就是為什么GPU如今獨(dú)領(lǐng)風(fēng)騷。
由黃仁勛于1993年創(chuàng)立的英偉達(dá)可謂是GPU的奠定者和締造者,1999年英偉達(dá)推出了被譽(yù)為世界上第一款真正的GPU的GeForce 256,并憑借此產(chǎn)品獲得巨大成功。然而,作為專(zhuān)用處理器,傳統(tǒng) GPU 應(yīng)用局限于圖形渲染計(jì)算,在面對(duì)非圖像并涉及大量并行運(yùn)算的領(lǐng)域,比如 AI、加密解密、科學(xué)計(jì)算等則更需要通用計(jì)算能力。為了提高GPU的通用性,英偉達(dá)于2006年推出的CUDA開(kāi)發(fā)環(huán)境構(gòu)造了其強(qiáng)大的生態(tài)護(hù)城河,自此GPGPU(General Purpose GPU)時(shí)代開(kāi)啟。
CUDA(Compute Unified Device Architecture,統(tǒng)一計(jì)算設(shè)備架構(gòu)) 可以讓開(kāi)發(fā)者能夠用類(lèi)似 C 語(yǔ)言的方式編寫(xiě)程序,讓 GPU 來(lái)處理計(jì)算密集型任務(wù)。簡(jiǎn)單來(lái)說(shuō),CUDA平臺(tái)是英偉達(dá)提供給開(kāi)發(fā)者的編程工具,包含了一系列工具函數(shù),有各種功能,同時(shí)CUDA可以讓開(kāi)發(fā)者調(diào)用成千上萬(wàn)的 GPU 核心同時(shí)工作,進(jìn)一步提高計(jì)算速度。隨著時(shí)間推移,CUDA被應(yīng)用在包括物理化學(xué)、生物醫(yī)藥、人工智能等眾多行業(yè)領(lǐng)域,其開(kāi)發(fā)者生態(tài)也不斷豐富,同時(shí)由于CUDA只適用于英偉達(dá)的GPU,它成為了英偉達(dá)主導(dǎo)GPU的殺手锏。類(lèi)似于CUDA的還有針對(duì)AMD的GPU使用的ATIStream,以及兩款開(kāi)源平臺(tái)ROCm和OpenCL,這兩者可實(shí)現(xiàn)不同生態(tài)GPU的相互遷移。
在GPU發(fā)展歷史上,除了CUDA平臺(tái)外,微架構(gòu)迭代與芯片制程升級(jí)是單卡GPU性能提升的關(guān)鍵途徑。GPU 的微架構(gòu)是用以實(shí)現(xiàn)指令執(zhí)行的硬件電路結(jié)構(gòu)設(shè)計(jì),不同的微架構(gòu)設(shè)計(jì)會(huì)對(duì) GPU 的性能產(chǎn)生決定性的影響。以英偉達(dá)為例,從最初 Fermi 架構(gòu)到現(xiàn)在的Hopper架構(gòu)和最新的Blackwell架構(gòu),英偉達(dá)平均買(mǎi)兩年更新一次架構(gòu),每一階段都在性能和能效比方面得到提升,同時(shí)引入了新技術(shù),如 CUDA、GPU Boost、RT 核心和 Tensor 核心等,作為行業(yè)第二的AMD也緊跟英偉達(dá)更新其微架構(gòu)。
對(duì)比當(dāng)前主流的頂級(jí)GPU英偉達(dá)H100和AMD的MI250X可以看出,二者在硬件層面上的差距并不大,真正能夠使英偉達(dá)維持80%市占率達(dá)的其實(shí)是軟件層面的CUDA平臺(tái),由于多年以來(lái)眾多主要開(kāi)發(fā)者都使用基于CUDA的英偉達(dá)GPU,其形成的廣泛生態(tài)和粘性極大的增加了進(jìn)行更換廠商的總成本,同時(shí)這也給遠(yuǎn)在大洋彼岸的國(guó)內(nèi)廠商追趕英偉達(dá)造成更大的挑戰(zhàn)。因此英偉達(dá)不僅僅是我們印象中的賣(mài)芯片的硬件公司,它也是一家強(qiáng)大的軟件公司。
ASIC
在GPGPU時(shí)代GPU已經(jīng)具備了類(lèi)似CPU的通用性,專(zhuān)用處理器中還剩下ASIC和FPGA兩款。ASIC (Application Specific Integrated Circuit,專(zhuān)用集成電路)是為了某種特定需求而專(zhuān)門(mén)定制的芯片。ASIC 的計(jì)算能力和計(jì)算效率都可以根據(jù)算法需要進(jìn)行定制,因此與通用芯片相比具有體積小、功耗低、計(jì)算性能高等優(yōu)勢(shì)。但是缺點(diǎn)也很明顯,ASIC只能針對(duì)特定的幾個(gè)應(yīng)用場(chǎng)景,算法和流程變更可能導(dǎo)致 ASIC 無(wú)法滿足業(yè)務(wù)需求。
由于目前對(duì)于芯片的需求爆發(fā)主要還是來(lái)自AI領(lǐng)域,針對(duì)AI計(jì)算場(chǎng)景設(shè)計(jì)的ASIC從性能、能效、成本均極大的超越了通用芯片,是GPU的潛在競(jìng)爭(zhēng)對(duì)手。目前全球 ASIC 市場(chǎng)并未形成明顯的頭部廠商,由于 ASIC 需要定制且開(kāi)發(fā)周期長(zhǎng),大多為云計(jì)算/互聯(lián)網(wǎng)等大廠有資金與實(shí)力進(jìn)行研發(fā),且僅當(dāng)其定制化應(yīng)用場(chǎng)景市場(chǎng)空間足夠大時(shí)量產(chǎn)ASIC才能實(shí)現(xiàn)豐厚利潤(rùn)。目前市場(chǎng)上主流 ASIC 有 TPU 芯片、NPU 芯片、VPU 芯片以及 BPU 芯片,它們分別是由谷歌、寒武紀(jì)、英特爾以及地平線公司設(shè)計(jì)生產(chǎn),預(yù)計(jì)未來(lái)將有更多諸如微軟、亞馬遜、百度、阿里等云計(jì)算巨頭加入定制自家的ASIC。
FPGA
除了ASIC外,F(xiàn)PGA (Field-Programmable Gate Array,現(xiàn)場(chǎng)可編程門(mén)陣列)也是一種專(zhuān)用芯片,其最大特點(diǎn)是現(xiàn)場(chǎng)可編程性。CPU、GPU以及各類(lèi) ASIC 芯片在制造完成后,其芯片的功能就已被固定,而 FPGA 芯片在制造完成后,用戶可以根據(jù)自己的實(shí)際需要,將自己設(shè)計(jì)的電路通過(guò) FPGA 芯片公司提供的專(zhuān)用 EDA 軟件對(duì) FPGA 芯片進(jìn)行功能配置,從而將空白的 FPGA 芯片轉(zhuǎn)化為具有特定功能的集成電路芯片。FPGA 芯片由可編程的邏輯單元(Logic Cell,LC)、輸入輸出單元(Input Output Block,IO)和開(kāi)關(guān)連線陣列(Switch Box,SB)三個(gè)部分構(gòu)成。
2023 年全球 FPGA 市場(chǎng)規(guī)模有望達(dá) 94 億美元,且保持15%左右的增速。從競(jìng)爭(zhēng)格局上看,被AMD收購(gòu)的賽靈思Xilinx 約占全球 FPGA 市場(chǎng)份額 52%,Intel 旗下 Altera 約占 35%。
中美情況對(duì)比
前面詳細(xì)介紹了主要四種處理器芯片的功能、市場(chǎng)空間和競(jìng)爭(zhēng)格局,接下來(lái)進(jìn)一步說(shuō)說(shuō)中國(guó)和美國(guó)在AI芯片上的差距。首先,無(wú)論是站在國(guó)家安全、自主可控的角度還是受美國(guó)卡脖子技術(shù)禁令影響的角度,國(guó)產(chǎn)自研替代雖然艱難但一定是未來(lái)最可靠甚至是唯一的出路。
從算力、算法和應(yīng)用層出發(fā),中國(guó)廠商和美國(guó)同行相比都有一定差距。在算力端存在芯片性能及生態(tài)差距,在芯片的生產(chǎn)端核心環(huán)節(jié)如芯片的設(shè)計(jì)、流片等也均由海外主導(dǎo);在算法端,海外在基礎(chǔ)研究方面較為領(lǐng)先,如谷歌發(fā)布底層架構(gòu) Transformer ;應(yīng)用端,海外頭部應(yīng)用多已成為行業(yè)標(biāo)準(zhǔn),擁有較為良好的用戶基礎(chǔ),有助于 LLM+產(chǎn)品的快速落地,如辦公領(lǐng)域的微軟 Office 產(chǎn)品。
不過(guò)算法和應(yīng)用端的差距不大,而算力層面的差距是最關(guān)鍵的。一方面算力端的核心環(huán)節(jié)均受海外主導(dǎo),很難繞開(kāi),而且海外頭部算力廠商圍繞自身產(chǎn)品形成了包含應(yīng)用、算法的生態(tài)壁壘,更加難以突破。另一方面,算力處于基礎(chǔ)支撐地位,直接影響模型的落地和應(yīng)用的推廣進(jìn)度。美國(guó)政府為了限制中國(guó)AI的發(fā)展更是出臺(tái)政策禁止了美國(guó)企業(yè)將高端芯片賣(mài)給國(guó)內(nèi)企業(yè),自2022年以來(lái)美國(guó)已多次出臺(tái)出口限制法案,限制力度逐步提升。去年10月的最新法案中以總處理性能 TPP(Total Processing Performance,即計(jì)算速度*字節(jié)長(zhǎng)度)和性能密度 PD(Performance Density,即每平方毫米的 TPP)為要求,TPP>4800 的芯片、TPP>1600 且 PD>5.92 的芯片屬于高性能芯片,不再被允許出口。
在這個(gè)背景下,我們來(lái)對(duì)比下中美主要AI芯片發(fā)展進(jìn)度。國(guó)內(nèi)的算力產(chǎn)業(yè)整體上可分為三大體系:以鯤鵬+昇騰為核心芯片的Arm服務(wù)器華為系,以海光為核心芯片、中科曙光為整機(jī)廠的x86服務(wù)器中科院系,以飛騰為核心芯片、中國(guó)長(zhǎng)城為整機(jī)廠的Arm服務(wù)器中電子系。
在CPU領(lǐng)域,國(guó)內(nèi)企業(yè)經(jīng)過(guò)多年發(fā)展與積累形成了海光信息、龍芯中科、華為、飛騰、兆芯和申威六大廠商齊頭并進(jìn)的局面,其中華為和海光性能最好,可對(duì)標(biāo)英特爾與AMD的頂級(jí)CPU產(chǎn)品,飛騰和申威的芯片則主要應(yīng)用于國(guó)家超算中心如天河、神威。從三大運(yùn)營(yíng)商的采購(gòu)情況也可以看出,2022年采購(gòu)中國(guó)產(chǎn)CPU服務(wù)器占比達(dá)到37%,其中海光占比19.66%,華為鯤鵬占比17.41%。
GPU方面,由于GPU領(lǐng)域英偉達(dá)占據(jù)絕對(duì)領(lǐng)導(dǎo)地位,國(guó)內(nèi)廠商目前在硬件和生態(tài)上都有較大差距。國(guó)內(nèi)GPU最強(qiáng)的是華為,昇騰310為推理芯片,昇騰910為訓(xùn)練芯片。昇騰 910 芯片采用7nm制程,F(xiàn)P16 算力達(dá)到 320TFLOPS、INT8 算力達(dá)到 640TOPS,與 NVIDIA A100 80GB 版本旗鼓相當(dāng),組網(wǎng)集群上限達(dá)到18000張(英偉達(dá)A100為16000,H100為50000)。不過(guò)與英偉達(dá)H100和今年剛剛發(fā)布的B100相比存在1-2代差距。
此外,海光信息基于GPGPU架構(gòu)推出DCU深算產(chǎn)品,軟件生態(tài)完善兼容通用的“類(lèi) CUDA”環(huán)境,旗下產(chǎn)品DCUZ100 的關(guān)鍵性能指標(biāo)實(shí)現(xiàn)FP6410.8TFlops,顯存32GB HBM2,也可對(duì)標(biāo)英偉達(dá)A100和AMD的MI100單卡性能。
發(fā)展趨勢(shì)
最后來(lái)說(shuō)說(shuō)AI芯片的發(fā)展趨勢(shì)有哪些,由于未來(lái)應(yīng)用于大模型推理的需求將遠(yuǎn)超過(guò)訓(xùn)練需求,AI芯片也朝著更高性能、更低功耗和更靠近邊緣和端側(cè)發(fā)展。在性能提升方面,單個(gè)處理器層面的提升主要來(lái)自過(guò)去幾十年都遵循的摩爾定律,也就是芯片制程的提升,以及設(shè)計(jì)層面的微架構(gòu)迭代。然而當(dāng)晶體管大小接近 1nm 左右時(shí),與 0.1nm 的原子直徑尺寸量級(jí)接近,量子隧穿引起的晶體管漏電效應(yīng)將愈發(fā)明顯,以至于影響芯片正常工作。微架構(gòu)方面,英偉達(dá)于今年三月GTC大會(huì)上最新推出的Blackwell架構(gòu)也展現(xiàn)出架構(gòu)更新放緩的趨勢(shì)。
在這個(gè)背景下,單張GPU的性能已接近瓶頸,因此未來(lái)的發(fā)展必然聚焦于多張卡的聯(lián)合上。在芯片封裝層面,通過(guò)Chiplet和CoWos等先進(jìn)封裝技術(shù)將多顆芯片與內(nèi)存等模塊封裝在一起。在系統(tǒng)層面,通過(guò)卡間互聯(lián)、服務(wù)器間互聯(lián)以及數(shù)據(jù)中心集群間互聯(lián)等方式集合更多的GPU。
此外,隨著越來(lái)越多的推理需求出現(xiàn),AI芯片也將越來(lái)越多的從云端轉(zhuǎn)移到邊緣和端側(cè),也會(huì)出現(xiàn)更多低功耗的端側(cè)芯片,比如現(xiàn)在的自動(dòng)駕駛、AI PC和AI手機(jī)等概念,都需要將算力直接部署到汽車(chē)、電腦或手機(jī)上。
-
處理器
+關(guān)注
關(guān)注
68文章
19890瀏覽量
235118 -
半導(dǎo)體
+關(guān)注
關(guān)注
335文章
28901瀏覽量
237629 -
光電器件
+關(guān)注
關(guān)注
1文章
180瀏覽量
19075 -
人工智能
+關(guān)注
關(guān)注
1806文章
49011瀏覽量
249348 -
GPU芯片
+關(guān)注
關(guān)注
1文章
305瀏覽量
6197
原文標(biāo)題:為什么是GPU?一文深度梳理AI算力芯片
文章出處:【微信號(hào):Rocker-IC,微信公眾號(hào):路科驗(yàn)證】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
“四算合一”算力平臺(tái),芯片國(guó)產(chǎn)化率超九成,兼容8種國(guó)產(chǎn)AI芯片
摩爾線程與AI算力平臺(tái)AutoDL達(dá)成深度合作
大算力芯片的生態(tài)突圍與算力革命
DeepSeek推動(dòng)AI算力需求:800G光模塊的關(guān)鍵作用
【一文看懂】什么是端側(cè)算力?

安霸大算力AI芯片接入DeepSeek R1

算智算中心的算力如何衡量?

企業(yè)AI算力租賃模式的好處
企業(yè)AI算力租賃是什么
AI算力芯片供電電源測(cè)試?yán)?費(fèi)思低壓大電流系列電子負(fù)載

評(píng)論