電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))隨著LLM與生成式AI熱度不減,不少AI芯片初創(chuàng)公司都找到了新的發(fā)力點(diǎn),紛紛調(diào)整設(shè)計(jì)思路,專(zhuān)為這一爆款應(yīng)用開(kāi)發(fā)出了新款芯片。且不說(shuō)這些芯片的實(shí)際性能如何,但這無(wú)疑是當(dāng)下推動(dòng)這些公司獲得投資,并在行業(yè)下行期存活下去的救命稻草。今天我們就來(lái)聊聊剛發(fā)布新品SN40L的AI芯片初創(chuàng)公司SambaNova。
SN40L背后的SambaNova
SambaNova成立于2017年,截至目前已經(jīng)歷了共計(jì)6輪融資,參與融資的公司包括谷歌、英特爾和軟銀等,融資總額高達(dá)11億美元。只不過(guò)最近的D輪融資,距今已經(jīng)有兩年多的時(shí)間,也難怪SambaNova急于推出SN40L這一芯片,畢竟此類(lèi)初創(chuàng)公司的開(kāi)發(fā)從來(lái)都是燒錢(qián)的。
其實(shí)在SN40L推出以前,SambaNova也并非默默無(wú)聞,比如美國(guó)阿貢國(guó)家實(shí)驗(yàn)室早在第一代產(chǎn)品SN10推出時(shí)就在使用和測(cè)試SambaNova的系統(tǒng)了,只不過(guò)屆時(shí)基于SN10的SambaNova Dataflow系統(tǒng)還只是用于消除數(shù)據(jù)噪聲而已。
如果我們現(xiàn)在看阿貢國(guó)家實(shí)驗(yàn)室的ALCF AI測(cè)試平臺(tái),我們可以看到5大系統(tǒng),分別是Cerebras的CS2、SambaNova的Dataflow、Graphcore的Bow Pod64、Grop系統(tǒng)以及Habana的Gaudi。而目前用于ALCF AI測(cè)試平臺(tái)的SambaNova Dataflow就是基于SN40L的上一代產(chǎn)品SN30 RDU打造的,該芯片基于臺(tái)積電的7nm工藝打造。
目前SN30用在阿貢國(guó)家實(shí)驗(yàn)室的這套系統(tǒng)主要用于一些科學(xué)研究領(lǐng)域的AI計(jì)算,比如中微子物理、癌癥預(yù)測(cè)、氣候建模以及下一代汽車(chē)引擎研發(fā)等。而我們真正關(guān)注的是剛發(fā)布的SN40L,以及它在LLM這一應(yīng)用上能提供何種不同的優(yōu)勢(shì)。
英偉達(dá)GPU的替代方案
目前LLM的主流方案,即英偉達(dá)的A100、H100 GPU,存在一個(gè)很大的問(wèn)題,那就是缺貨。對(duì)于任何互聯(lián)網(wǎng)廠商來(lái)說(shuō),在市面上找到足夠多的GPU都是一件費(fèi)錢(qián)費(fèi)力的事。而對(duì)于云服務(wù)廠商來(lái)說(shuō)也是如此,他們也要考慮出租這類(lèi)服務(wù)器時(shí),GPU的算力與容量分配問(wèn)題。
SN40L芯片和CEO Rodrigo Liang / SambaNova
為了解決“數(shù)量”的問(wèn)題,SambaNova推出了SN40L。相較上一代的SN30,該芯片基于臺(tái)積電5nm工藝打造,每個(gè)芯片集成了1020億個(gè)晶體管和1040個(gè)核,算力高達(dá)638TFlops。更夸張的是,SambaNova稱(chēng)單個(gè)SN40L系統(tǒng)節(jié)點(diǎn)(8塊SN40L芯片)就能支持到最高5萬(wàn)億參數(shù)的大模型。
與其他AI芯片初創(chuàng)公司不一樣的是,他們并沒(méi)有選擇直接將芯片賣(mài)給其他公司這條路線,而是選擇了售賣(mài)訪問(wèn)其定制AI技術(shù)棧的訪問(wèn)權(quán),包括其自研硬件和運(yùn)行超大模型的軟件等。這種商業(yè)模式或許能吸引一部分互聯(lián)網(wǎng)公司,但在云服務(wù)廠商眼中,他們應(yīng)該不會(huì)覺(jué)得這是一套可盈利的方案。
此外,SambaNova與其他競(jìng)爭(zhēng)對(duì)手一樣,在AI芯片上引入了64GB HBM用于解決內(nèi)存墻的問(wèn)題,這也是SN40L與上一代芯片的差異之一。只不過(guò)SambaNova并沒(méi)有透露SN40L用的是何種HBM,以及帶寬性能如何。
寫(xiě)在最后
雖然SambaNova展示了提高LLM擴(kuò)展性的另一條道路,但在沒(méi)有經(jīng)過(guò)實(shí)際驗(yàn)證之前,市場(chǎng)還是會(huì)對(duì)其持觀望態(tài)度。此前也有不少AI芯片公司發(fā)表過(guò)同樣大膽的聲明,但事實(shí)證明這類(lèi)芯片只適合用于運(yùn)行那些預(yù)訓(xùn)練完成的模型,而訓(xùn)練過(guò)程仍需要靠GPU來(lái)完成。所以哪怕SambaNova的CEO Rodrigo Liang強(qiáng)調(diào)SN40L的訓(xùn)練性能足夠優(yōu)秀,但是否能在這套商業(yè)模式下闖出一片天,就得交由市場(chǎng)去驗(yàn)證了。
-
gpu
+關(guān)注
關(guān)注
28文章
4948瀏覽量
131253 -
SambaNova
+關(guān)注
關(guān)注
0文章
7瀏覽量
304 -
SN40L
+關(guān)注
關(guān)注
0文章
2瀏覽量
93
發(fā)布評(píng)論請(qǐng)先 登錄
AI大模型不再依賴英偉達(dá)GPU?蘋(píng)果揭秘自研大模型

大模型推理顯存和計(jì)算量估計(jì)方法研究
為什么無(wú)法在GPU上使用INT8 和 INT4量化模型獲得輸出?
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】+NVlink技術(shù)從應(yīng)用到原理
請(qǐng)問(wèn)如何在imx8mplus上部署和運(yùn)行YOLOv5訓(xùn)練的模型?
無(wú)法在GPU上運(yùn)行ONNX模型的Benchmark_app怎么解決?
GPU是如何訓(xùn)練AI大模型的
《CST Studio Suite 2024 GPU加速計(jì)算指南》
PyTorch GPU 加速訓(xùn)練模型方法
【一文看懂】大白話解釋“GPU與GPU算力”

為什么ai模型訓(xùn)練要用gpu
當(dāng)前主流的大模型對(duì)于底層推理芯片提出了哪些挑戰(zhàn)
英偉達(dá)Blackwell可支持10萬(wàn)億參數(shù)模型AI訓(xùn)練,實(shí)時(shí)大語(yǔ)言模型推理
英偉達(dá)震撼發(fā)布:全新AI模型參數(shù)規(guī)模躍升至80億量級(jí)

評(píng)論