成人五月综合麻豆91.,中文人妻无码一区二区三区久久 ,久久久久东京热免费视频

幾十年前，CPU 作為通用處理器幾乎處理所有計(jì)算任務(wù)，那個(gè)時(shí)代的顯卡有助于加快應(yīng)用程序中圖形的繪制速度。但在今天ChatGPT引爆的人工智能 iPhone時(shí)刻，GPU成為了整個(gè)行業(yè)最具主導(dǎo)地位的芯片之一。大家都在搶購(gòu)GPU，龍頭企業(yè)英偉達(dá)也因此賺的盆滿缽滿。

在此前的文章中我們介紹了AI算力的主要載體數(shù)據(jù)中心 IDC的商業(yè)模式和組成部分，并進(jìn)一步走進(jìn)服務(wù)器這個(gè)數(shù)據(jù)中心中主要負(fù)責(zé)計(jì)算的硬件。服務(wù)器中有處理器、內(nèi)存、硬盤(pán)等零部件，其中最核心的負(fù)責(zé)計(jì)算的當(dāng)屬處理器，也就是芯片。因此，今天我們繼續(xù)梳理AI算力芯片，看看為什么在當(dāng)今AI時(shí)代GPU占據(jù)了主導(dǎo)地位以及我國(guó)目前的發(fā)展情況與相關(guān)企業(yè)。

產(chǎn)業(yè)鏈

從產(chǎn)業(yè)鏈說(shuō)起，首先來(lái)看芯片在產(chǎn)業(yè)鏈中扮演的角色。這里從兩方面說(shuō)，站在算力產(chǎn)業(yè)鏈角度，芯片屬于上游產(chǎn)品，正如我們?cè)凇禔I服務(wù)器革命：硬件進(jìn)化驅(qū)動(dòng)人工智能新紀(jì)元》一文中提到，芯片與其它硬件組成服務(wù)器，也就是產(chǎn)業(yè)鏈中游，服務(wù)器又與其它設(shè)備共同組成下游的數(shù)據(jù)中心。

如果站在半導(dǎo)體產(chǎn)業(yè)鏈的角度看，那么芯片屬于中游。它的上游包括支撐集成電路設(shè)計(jì)和制造的 EDA 輔助設(shè)計(jì)工具和 IP 服務(wù)，半導(dǎo)體制造設(shè)備、芯片生產(chǎn)測(cè)試流程。產(chǎn)業(yè)鏈下游包括各類(lèi)整機(jī)廠商、終端設(shè)備、網(wǎng)絡(luò)設(shè)備和應(yīng)用系統(tǒng)等，其中最重要的是服務(wù)器、桌面和嵌入式系統(tǒng)等硬件設(shè)備廠商。

由于全球化的不斷深入，半導(dǎo)體產(chǎn)業(yè)發(fā)生了多次區(qū)域轉(zhuǎn)移，分工不斷細(xì)化?？梢詫雽?dǎo)體的生產(chǎn)分為四個(gè)主要步驟：設(shè)計(jì)、制造、封裝、測(cè)試。在傳統(tǒng)的垂直整合制造商模式（IDM，即自己完成設(shè)計(jì)、制造、封裝測(cè)試等所有環(huán)節(jié)）基礎(chǔ)上誕生了著名的Fabless+Foundry模式，F(xiàn)abless廠商是以美國(guó)為主的負(fù)責(zé)設(shè)計(jì)，而Foundry則是以中國(guó)臺(tái)灣為主的負(fù)責(zé)制造的廠商。兩種模式各有利弊，不過(guò)這屬于半導(dǎo)體產(chǎn)業(yè)鏈范疇的討論，我們?cè)诖瞬蛔鲑樖觥?/p>

CPU、GPU、ASIC、FPGA

半導(dǎo)體產(chǎn)品可以分為集成電路（芯片）、分立器件、光電器件和傳感器，其中芯片進(jìn)一步分為數(shù)字芯片和模擬芯片，數(shù)字芯片下還有邏輯芯片、微處理器和存儲(chǔ)芯片三類(lèi)。我們所說(shuō)到的算力芯片或AI芯片實(shí)際上指的都是邏輯芯片，廣義上可以是所有采用邏輯門(mén)的大規(guī)模集成電路，包括以 CPU、GPU 為代表的通用計(jì)算芯片、專(zhuān)用芯片(ASIC)和 FPGA，狹義上，AI芯片指針對(duì)大量數(shù)據(jù)進(jìn)行訓(xùn)練和推理設(shè)計(jì)的芯片。

CPU

CPU是中央處理器(Central Processing Unit)，是計(jì)算機(jī)的運(yùn)算核心和控制核心。CPU包括運(yùn)算器(算術(shù)邏輯單元ALU、累加寄存器、數(shù)據(jù)緩沖寄存器、狀態(tài)條件寄存器)、控制器(指令寄存器IR、程序計(jì)數(shù)器PC、地址寄存器、指令譯碼器ID、時(shí)序、總線、中斷邏輯控制)、高速緩沖存儲(chǔ)器（Cache）、內(nèi)部數(shù)據(jù)總線、控制總線、狀態(tài)總線及輸入/輸出接口等模塊。

CPU 的主要功能是解釋計(jì)算機(jī)指令以及處理計(jì)算機(jī)軟件中的數(shù)據(jù)，其運(yùn)行程序時(shí)主要包括一下5個(gè)步驟：1）指令寄存器(IR)從存儲(chǔ)器或高速緩沖存儲(chǔ)器中獲取指令；2）指令譯碼器(ID)對(duì)指令進(jìn)行譯碼，并將指令分解成一系列簡(jiǎn)單的微操作；3）譯碼后的微操作通過(guò)控制單元發(fā)送給CPU內(nèi)的運(yùn)算器執(zhí)行數(shù)學(xué)運(yùn)算和邏輯決策，；4）執(zhí)行某些指令時(shí)需要讀取或?qū)懭霐?shù)據(jù)到主存儲(chǔ)器，地址寄存器用于確定存儲(chǔ)器中數(shù)據(jù)的位置，而數(shù)據(jù)經(jīng)過(guò)內(nèi)部總線傳輸；5）指令執(zhí)行完成后，結(jié)果會(huì)被寫(xiě)回到CPU的寄存器或存儲(chǔ)器中，供后續(xù)指令使用。

我們可以將這個(gè)流程類(lèi)比自己做數(shù)學(xué)題時(shí)的場(chǎng)景，從最開(kāi)始的讀題（獲取指令）、審題（指令譯碼）到一步一步計(jì)算答案（執(zhí)行運(yùn)算），再將答案寫(xiě)在草稿紙上（存儲(chǔ)結(jié)果）用于下一小問(wèn)。對(duì)于CPU來(lái)說(shuō)這整個(gè)過(guò)程是一個(gè)連續(xù)循環(huán)，稱(chēng)為指令周期，包括獲取指令、譯碼、執(zhí)行、訪問(wèn)存儲(chǔ)器和寫(xiě)回結(jié)果的步驟。人們用主頻來(lái)衡量以上一個(gè)指令周期被執(zhí)行的速度（CPU性能），主頻是指CPU內(nèi)部時(shí)鐘的頻率，通常以赫茲（Hz）為單位，1赫茲等于每秒鐘一個(gè)周期。此外，F(xiàn)LOPS（每秒執(zhí)行多少浮點(diǎn)運(yùn)算）也被用于衡量CPU性能。

在CPU的發(fā)展歷史中，為了進(jìn)一步提升它的運(yùn)算能力人們提出了多線程（Multithreading）和多核（Multi-core）的設(shè)計(jì)方法。多線程指的是程序可以同時(shí)執(zhí)行多個(gè)任務(wù)，也就是電腦可以同時(shí)做不同的事。例如，一個(gè)線程可以處理用戶輸入，同時(shí)另一個(gè)線程可以執(zhí)行后臺(tái)計(jì)算，還有一個(gè)線程可以處理網(wǎng)絡(luò)通信。即使一個(gè)線程被阻塞，其他線程仍然可以繼續(xù)工作，從而提高了整體的效率和程序的響應(yīng)性。多核則是增加CPU內(nèi)的處理單元，使CPU可以并行處理多個(gè)指令流。

可以按指令集和應(yīng)用領(lǐng)域?qū)PU進(jìn)行分門(mén)別類(lèi)，指令集是 CPU 所執(zhí)行指令的二進(jìn)制編碼方法，是軟件和硬件的接口規(guī)范。按照指令集可分為 CISC復(fù)雜指令集和 RISC精簡(jiǎn)指令集兩大類(lèi)，在上一篇文章中做過(guò)詳細(xì)介紹，這里不再贅述。CPU 按照下游應(yīng)用領(lǐng)域還可分為通用微處理器(MPU, Micro Processor Unit)和微控制器(MCU, Micro Controller Unit)，MPU便是我們熟悉的應(yīng)用于服務(wù)器、桌面(臺(tái)式機(jī)/筆記本)、超級(jí)計(jì)算機(jī)等中的CPU。MCU是用于控制類(lèi)應(yīng)用的低性能、低功耗CPU。MCU的主頻一般低于 100MHz，一般是用在智能制造、工業(yè)控制、智能家居、遙控器、汽車(chē)電子、機(jī)器手臂的控制等。

從競(jìng)爭(zhēng)格局上看，英特爾和AMD占據(jù)了大部分市場(chǎng)份額，其中英特爾作為CPU的締造者擁有絕對(duì)主導(dǎo)地位。從服務(wù)器CPU角度看，2022年英特爾與AMD合計(jì)占到全球90%的市場(chǎng)份額，不過(guò)近兩年AMD不斷搶占英特爾份額。從MPU整體上看，英特爾占據(jù)半壁江山，移動(dòng)設(shè)備端蘋(píng)果和高通分別擁有13%和9%的份額。從MCU上看則是日韓系廠商份額較多。

GPU

作為通用處理器，以前幾乎所有的計(jì)算任務(wù)都由CPU處理，不過(guò)到了八十年代末九十年代初，越來(lái)越多的圖形渲染處理需求催生了GPU的誕生，黃仁勛正是在這一時(shí)期創(chuàng)立的英偉達(dá)，專(zhuān)注于GPU的研發(fā)與制造。

GPU是圖形處理器（Graphic Processing Unit），又稱(chēng)為顯示芯片（顯卡），最初是作為專(zhuān)用處理器來(lái)輔助CPU進(jìn)行圖像和圖形相關(guān)運(yùn)算工作的。從結(jié)構(gòu)上來(lái)說(shuō)，CPU的設(shè)計(jì)是低延遲的串行計(jì)算模式，擁有少數(shù)強(qiáng)大的ALU算數(shù)邏輯單元高效的挨個(gè)完成每個(gè)任務(wù)。而GPU側(cè)重于并行計(jì)算（Parallel Processing），擁有大量的ALU可以同時(shí)處理大規(guī)模的簡(jiǎn)單計(jì)算。簡(jiǎn)單來(lái)說(shuō)，CPU的工作模式好比一位博士單獨(dú)去解一道復(fù)雜的高數(shù)題，而GPU則如同一百名高中生一起計(jì)算加減、乘除法。

CPU已經(jīng)如此強(qiáng)大了，為什么還需要GPU呢，或者說(shuō)為什么在圖形處理和如今的人工智能浪潮下為什么GPU這個(gè)以前CPU的小弟成為了王者呢？首先在圖像處理領(lǐng)域，圖片是由一個(gè)個(gè)像素點(diǎn)組成的，比如一張1080p的圖片實(shí)際上是由1920x1080= 207萬(wàn)像素點(diǎn)組成，但是每個(gè)像素點(diǎn)的計(jì)算并不復(fù)雜。由CPU加載圖片時(shí)是一個(gè)一個(gè)的單獨(dú)運(yùn)算每個(gè)像素點(diǎn)，而使用GPU的話則是并行計(jì)算，由多個(gè)ALU同時(shí)處理每個(gè)像素點(diǎn)，從而實(shí)現(xiàn)快速處理全部像素點(diǎn)。

在人工智能大模型中同理，大模型可以有各種不同結(jié)構(gòu)，但其背后的本質(zhì)都是基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)，它的核心運(yùn)算需求并不高，主要就是累加和累乘的運(yùn)算，但是由于模型參數(shù)巨大、網(wǎng)絡(luò)層數(shù)復(fù)雜，因此需要運(yùn)用大規(guī)模并行計(jì)算，這也就是為什么GPU如今獨(dú)領(lǐng)風(fēng)騷。

由黃仁勛于1993年創(chuàng)立的英偉達(dá)可謂是GPU的奠定者和締造者，1999年英偉達(dá)推出了被譽(yù)為世界上第一款真正的GPU的GeForce 256，并憑借此產(chǎn)品獲得巨大成功。然而，作為專(zhuān)用處理器，傳統(tǒng) GPU 應(yīng)用局限于圖形渲染計(jì)算，在面對(duì)非圖像并涉及大量并行運(yùn)算的領(lǐng)域，比如 AI、加密解密、科學(xué)計(jì)算等則更需要通用計(jì)算能力。為了提高GPU的通用性，英偉達(dá)于2006年推出的CUDA開(kāi)發(fā)環(huán)境構(gòu)造了其強(qiáng)大的生態(tài)護(hù)城河，自此GPGPU（General Purpose GPU）時(shí)代開(kāi)啟。

CUDA(Compute Unified Device Architecture，統(tǒng)一計(jì)算設(shè)備架構(gòu)) 可以讓開(kāi)發(fā)者能夠用類(lèi)似 C 語(yǔ)言的方式編寫(xiě)程序，讓 GPU 來(lái)處理計(jì)算密集型任務(wù)。簡(jiǎn)單來(lái)說(shuō)，CUDA平臺(tái)是英偉達(dá)提供給開(kāi)發(fā)者的編程工具，包含了一系列工具函數(shù)，有各種功能，同時(shí)CUDA可以讓開(kāi)發(fā)者調(diào)用成千上萬(wàn)的 GPU 核心同時(shí)工作，進(jìn)一步提高計(jì)算速度。隨著時(shí)間推移，CUDA被應(yīng)用在包括物理化學(xué)、生物醫(yī)藥、人工智能等眾多行業(yè)領(lǐng)域，其開(kāi)發(fā)者生態(tài)也不斷豐富，同時(shí)由于CUDA只適用于英偉達(dá)的GPU，它成為了英偉達(dá)主導(dǎo)GPU的殺手锏。類(lèi)似于CUDA的還有針對(duì)AMD的GPU使用的ATIStream，以及兩款開(kāi)源平臺(tái)ROCm和OpenCL，這兩者可實(shí)現(xiàn)不同生態(tài)GPU的相互遷移。

在GPU發(fā)展歷史上，除了CUDA平臺(tái)外，微架構(gòu)迭代與芯片制程升級(jí)是單卡GPU性能提升的關(guān)鍵途徑。GPU 的微架構(gòu)是用以實(shí)現(xiàn)指令執(zhí)行的硬件電路結(jié)構(gòu)設(shè)計(jì)，不同的微架構(gòu)設(shè)計(jì)會(huì)對(duì) GPU 的性能產(chǎn)生決定性的影響。以英偉達(dá)為例，從最初 Fermi 架構(gòu)到現(xiàn)在的Hopper架構(gòu)和最新的Blackwell架構(gòu)，英偉達(dá)平均買(mǎi)兩年更新一次架構(gòu)，每一階段都在性能和能效比方面得到提升，同時(shí)引入了新技術(shù)，如 CUDA、GPU Boost、RT 核心和 Tensor 核心等，作為行業(yè)第二的AMD也緊跟英偉達(dá)更新其微架構(gòu)。

對(duì)比當(dāng)前主流的頂級(jí)GPU英偉達(dá)H100和AMD的MI250X可以看出，二者在硬件層面上的差距并不大，真正能夠使英偉達(dá)維持80%市占率達(dá)的其實(shí)是軟件層面的CUDA平臺(tái)，由于多年以來(lái)眾多主要開(kāi)發(fā)者都使用基于CUDA的英偉達(dá)GPU，其形成的廣泛生態(tài)和粘性極大的增加了進(jìn)行更換廠商的總成本，同時(shí)這也給遠(yuǎn)在大洋彼岸的國(guó)內(nèi)廠商追趕英偉達(dá)造成更大的挑戰(zhàn)。因此英偉達(dá)不僅僅是我們印象中的賣(mài)芯片的硬件公司，它也是一家強(qiáng)大的軟件公司。

ASIC

在GPGPU時(shí)代GPU已經(jīng)具備了類(lèi)似CPU的通用性，專(zhuān)用處理器中還剩下ASIC和FPGA兩款。ASIC (Application Specific Integrated Circuit，專(zhuān)用集成電路)是為了某種特定需求而專(zhuān)門(mén)定制的芯片。ASIC 的計(jì)算能力和計(jì)算效率都可以根據(jù)算法需要進(jìn)行定制，因此與通用芯片相比具有體積小、功耗低、計(jì)算性能高等優(yōu)勢(shì)。但是缺點(diǎn)也很明顯，ASIC只能針對(duì)特定的幾個(gè)應(yīng)用場(chǎng)景，算法和流程變更可能導(dǎo)致 ASIC 無(wú)法滿足業(yè)務(wù)需求。

由于目前對(duì)于芯片的需求爆發(fā)主要還是來(lái)自AI領(lǐng)域，針對(duì)AI計(jì)算場(chǎng)景設(shè)計(jì)的ASIC從性能、能效、成本均極大的超越了通用芯片，是GPU的潛在競(jìng)爭(zhēng)對(duì)手。目前全球 ASIC 市場(chǎng)并未形成明顯的頭部廠商，由于 ASIC 需要定制且開(kāi)發(fā)周期長(zhǎng)，大多為云計(jì)算/互聯(lián)網(wǎng)等大廠有資金與實(shí)力進(jìn)行研發(fā)，且僅當(dāng)其定制化應(yīng)用場(chǎng)景市場(chǎng)空間足夠大時(shí)量產(chǎn)ASIC才能實(shí)現(xiàn)豐厚利潤(rùn)。目前市場(chǎng)上主流 ASIC 有 TPU 芯片、NPU 芯片、VPU 芯片以及 BPU 芯片，它們分別是由谷歌、寒武紀(jì)、英特爾以及地平線公司設(shè)計(jì)生產(chǎn)，預(yù)計(jì)未來(lái)將有更多諸如微軟、亞馬遜、百度、阿里等云計(jì)算巨頭加入定制自家的ASIC。

FPGA

除了ASIC外，F(xiàn)PGA (Field-Programmable Gate Array，現(xiàn)場(chǎng)可編程門(mén)陣列)也是一種專(zhuān)用芯片，其最大特點(diǎn)是現(xiàn)場(chǎng)可編程性。CPU、GPU以及各類(lèi) ASIC 芯片在制造完成后，其芯片的功能就已被固定，而 FPGA 芯片在制造完成后，用戶可以根據(jù)自己的實(shí)際需要，將自己設(shè)計(jì)的電路通過(guò) FPGA 芯片公司提供的專(zhuān)用 EDA 軟件對(duì) FPGA 芯片進(jìn)行功能配置，從而將空白的 FPGA 芯片轉(zhuǎn)化為具有特定功能的集成電路芯片。FPGA 芯片由可編程的邏輯單元(Logic Cell，LC)、輸入輸出單元(Input Output Block，IO)和開(kāi)關(guān)連線陣列(Switch Box，SB)三個(gè)部分構(gòu)成。

2023 年全球 FPGA 市場(chǎng)規(guī)模有望達(dá) 94 億美元，且保持15%左右的增速。從競(jìng)爭(zhēng)格局上看，被AMD收購(gòu)的賽靈思Xilinx 約占全球 FPGA 市場(chǎng)份額 52%，Intel 旗下 Altera 約占 35%。

中美情況對(duì)比

前面詳細(xì)介紹了主要四種處理器芯片的功能、市場(chǎng)空間和競(jìng)爭(zhēng)格局，接下來(lái)進(jìn)一步說(shuō)說(shuō)中國(guó)和美國(guó)在AI芯片上的差距。首先，無(wú)論是站在國(guó)家安全、自主可控的角度還是受美國(guó)卡脖子技術(shù)禁令影響的角度，國(guó)產(chǎn)自研替代雖然艱難但一定是未來(lái)最可靠甚至是唯一的出路。

從算力、算法和應(yīng)用層出發(fā)，中國(guó)廠商和美國(guó)同行相比都有一定差距。在算力端存在芯片性能及生態(tài)差距，在芯片的生產(chǎn)端核心環(huán)節(jié)如芯片的設(shè)計(jì)、流片等也均由海外主導(dǎo)；在算法端，海外在基礎(chǔ)研究方面較為領(lǐng)先，如谷歌發(fā)布底層架構(gòu) Transformer ；應(yīng)用端，海外頭部應(yīng)用多已成為行業(yè)標(biāo)準(zhǔn)，擁有較為良好的用戶基礎(chǔ)，有助于 LLM+產(chǎn)品的快速落地，如辦公領(lǐng)域的微軟 Office 產(chǎn)品。

不過(guò)算法和應(yīng)用端的差距不大，而算力層面的差距是最關(guān)鍵的。一方面算力端的核心環(huán)節(jié)均受海外主導(dǎo)，很難繞開(kāi)，而且海外頭部算力廠商圍繞自身產(chǎn)品形成了包含應(yīng)用、算法的生態(tài)壁壘，更加難以突破。另一方面，算力處于基礎(chǔ)支撐地位，直接影響模型的落地和應(yīng)用的推廣進(jìn)度。美國(guó)政府為了限制中國(guó)AI的發(fā)展更是出臺(tái)政策禁止了美國(guó)企業(yè)將高端芯片賣(mài)給國(guó)內(nèi)企業(yè)，自2022年以來(lái)美國(guó)已多次出臺(tái)出口限制法案，限制力度逐步提升。去年10月的最新法案中以總處理性能 TPP(Total Processing Performance，即計(jì)算速度*字節(jié)長(zhǎng)度)和性能密度 PD(Performance Density，即每平方毫米的 TPP)為要求，TPP>4800 的芯片、TPP>1600 且 PD>5.92 的芯片屬于高性能芯片，不再被允許出口。

在這個(gè)背景下，我們來(lái)對(duì)比下中美主要AI芯片發(fā)展進(jìn)度。國(guó)內(nèi)的算力產(chǎn)業(yè)整體上可分為三大體系：以鯤鵬+昇騰為核心芯片的Arm服務(wù)器華為系，以海光為核心芯片、中科曙光為整機(jī)廠的x86服務(wù)器中科院系，以飛騰為核心芯片、中國(guó)長(zhǎng)城為整機(jī)廠的Arm服務(wù)器中電子系。

在CPU領(lǐng)域，國(guó)內(nèi)企業(yè)經(jīng)過(guò)多年發(fā)展與積累形成了海光信息、龍芯中科、華為、飛騰、兆芯和申威六大廠商齊頭并進(jìn)的局面，其中華為和海光性能最好，可對(duì)標(biāo)英特爾與AMD的頂級(jí)CPU產(chǎn)品，飛騰和申威的芯片則主要應(yīng)用于國(guó)家超算中心如天河、神威。從三大運(yùn)營(yíng)商的采購(gòu)情況也可以看出，2022年采購(gòu)中國(guó)產(chǎn)CPU服務(wù)器占比達(dá)到37%，其中海光占比19.66%，華為鯤鵬占比17.41%。

GPU方面，由于GPU領(lǐng)域英偉達(dá)占據(jù)絕對(duì)領(lǐng)導(dǎo)地位，國(guó)內(nèi)廠商目前在硬件和生態(tài)上都有較大差距。國(guó)內(nèi)GPU最強(qiáng)的是華為，昇騰310為推理芯片，昇騰910為訓(xùn)練芯片。昇騰 910 芯片采用7nm制程，F(xiàn)P16 算力達(dá)到 320TFLOPS、INT8 算力達(dá)到 640TOPS，與 NVIDIA A100 80GB 版本旗鼓相當(dāng)，組網(wǎng)集群上限達(dá)到18000張（英偉達(dá)A100為16000，H100為50000）。不過(guò)與英偉達(dá)H100和今年剛剛發(fā)布的B100相比存在1-2代差距。

此外，海光信息基于GPGPU架構(gòu)推出DCU深算產(chǎn)品，軟件生態(tài)完善兼容通用的“類(lèi) CUDA”環(huán)境，旗下產(chǎn)品DCUZ100 的關(guān)鍵性能指標(biāo)實(shí)現(xiàn)FP6410.8TFlops，顯存32GB HBM2，也可對(duì)標(biāo)英偉達(dá)A100和AMD的MI100單卡性能。

發(fā)展趨勢(shì)

最后來(lái)說(shuō)說(shuō)AI芯片的發(fā)展趨勢(shì)有哪些，由于未來(lái)應(yīng)用于大模型推理的需求將遠(yuǎn)超過(guò)訓(xùn)練需求，AI芯片也朝著更高性能、更低功耗和更靠近邊緣和端側(cè)發(fā)展。在性能提升方面，單個(gè)處理器層面的提升主要來(lái)自過(guò)去幾十年都遵循的摩爾定律，也就是芯片制程的提升，以及設(shè)計(jì)層面的微架構(gòu)迭代。然而當(dāng)晶體管大小接近 1nm 左右時(shí)，與 0.1nm 的原子直徑尺寸量級(jí)接近，量子隧穿引起的晶體管漏電效應(yīng)將愈發(fā)明顯，以至于影響芯片正常工作。微架構(gòu)方面，英偉達(dá)于今年三月GTC大會(huì)上最新推出的Blackwell架構(gòu)也展現(xiàn)出架構(gòu)更新放緩的趨勢(shì)。

在這個(gè)背景下，單張GPU的性能已接近瓶頸，因此未來(lái)的發(fā)展必然聚焦于多張卡的聯(lián)合上。在芯片封裝層面，通過(guò)Chiplet和CoWos等先進(jìn)封裝技術(shù)將多顆芯片與內(nèi)存等模塊封裝在一起。在系統(tǒng)層面，通過(guò)卡間互聯(lián)、服務(wù)器間互聯(lián)以及數(shù)據(jù)中心集群間互聯(lián)等方式集合更多的GPU。

此外，隨著越來(lái)越多的推理需求出現(xiàn)，AI芯片也將越來(lái)越多的從云端轉(zhuǎn)移到邊緣和端側(cè)，也會(huì)出現(xiàn)更多低功耗的端側(cè)芯片，比如現(xiàn)在的自動(dòng)駕駛、AI PC和AI手機(jī)等概念，都需要將算力直接部署到汽車(chē)、電腦或手機(jī)上。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

處理器

處理器

+關(guān)注

關(guān)注
68

文章
19890

瀏覽量
235118
半導(dǎo)體

半導(dǎo)體

+關(guān)注

關(guān)注
335

文章
28901

瀏覽量
237629
光電器件

光電器件

+關(guān)注

關(guān)注
1

文章
180

瀏覽量
19075
人工智能

人工智能

+關(guān)注

關(guān)注
1806

文章
49011

瀏覽量
249348
GPU芯片

GPU芯片

+關(guān)注

關(guān)注
1

文章
305

瀏覽量
6197

原文標(biāo)題：為什么是GPU？一文深度梳理AI算力芯片

文章出處：【微信號(hào)：Rocker-IC，微信公眾號(hào)：路科驗(yàn)證】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

搜索歷史

一文深度梳理AI算力芯片

評(píng)論