摩爾線程開源高性能線性代數(shù)模板庫MUTLASS

近日，摩爾線程宣布開源高性能線性代數(shù)模板庫MUTLASS，以便開發(fā)者能夠更高效針對摩爾線程全功能GPU的MUSA Core及Tensor Core等單元進(jìn)行編程，加速基于國產(chǎn)GPU的算子開發(fā)以及算法創(chuàng)新。

在數(shù)值計算和深度學(xué)習(xí)領(lǐng)域，矩陣乘法（GEMM）及其變種(如FlashAttention、Convolution）是構(gòu)建復(fù)雜上層應(yīng)用的基石。然而，為了追求更高的算子融合效率或者更創(chuàng)新的算法，開發(fā)者們往往需要超越標(biāo)準(zhǔn)化計算接口的限制，如標(biāo)準(zhǔn)BLAS接口以及芯片廠商的計算庫接口，以實現(xiàn)高性能的定制化算子。

MUTLASS（MUSA Templates for Linear Algebra Subroutines）正是為滿足這一需求而設(shè)計。作為摩爾線程專為MUSA架構(gòu)優(yōu)化的高性能計算庫，MUTLASS是基于開源模板庫CUTLASS進(jìn)行的MUSA適配和定制化開發(fā)、優(yōu)化，針對矩陣乘法及相關(guān)變種，MUTLASS提供了一系列高性能的C++模板組件，并采用了與muDNN庫類似的分層分解及數(shù)據(jù)搬運(yùn)策略，以確保性能的充分發(fā)揮。

在本次開源的版本中，摩爾線程適配了CuTe后端庫，為其增加了第三代MUSA架構(gòu)的MMA計算原語，支持TF32/FP16/BF16/INT8等多種數(shù)據(jù)精度，并以此為基礎(chǔ)，初步實現(xiàn)了矩陣乘法、默認(rèn)實例庫、性能測試器及相關(guān)工具包的支持。

借助MUTLASS，開發(fā)者們既可以靈活復(fù)用不同層級的模板組件，也可以按需修改各種模板組件的實現(xiàn)細(xì)節(jié)，以較低的開發(fā)成本實現(xiàn)定制化的高性能算子，從而在摩爾線程全功能GPU上充分釋放性能，并嘗試更多的算法創(chuàng)新。

摩爾線程將持續(xù)優(yōu)化MUTLASS的性能，并不斷引入新的功能。我們誠邀廣大開發(fā)者體驗MUTLASS，并提供寶貴的反饋意見，共同促進(jìn)MUTLASS在性能和功能上的持續(xù)完善，攜手推動基于國產(chǎn)GPU的生態(tài)建設(shè)。

關(guān)于摩爾線程

摩爾線程成立于2020年10月，以全功能GPU為核心，致力于向全球提供加速計算的基礎(chǔ)設(shè)施和一站式解決方案，為各行各業(yè)的數(shù)智化轉(zhuǎn)型提供強(qiáng)大的AI計算支持。

我們的目標(biāo)是成為具備國際競爭力的GPU領(lǐng)軍企業(yè)，為融合人工智能和數(shù)字孿生的數(shù)智世界打造先進(jìn)的加速計算平臺。我們的愿景是為美好世界加速。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

gpu

gpu

+關(guān)注

關(guān)注
28

文章
4949

瀏覽量
131274
開源

開源

+關(guān)注

關(guān)注
3

文章
3690

瀏覽量
43840
摩爾線程

摩爾線程

+關(guān)注

關(guān)注
2

文章
235

瀏覽量
5374

原文標(biāo)題：開源MUTLASS｜摩爾線程加速基于國產(chǎn)GPU的算子開發(fā)以及算法創(chuàng)新

文章出處：【微信號：moorethreads，微信公眾號：摩爾線程】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

摩爾線程
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關(guān)注個人主頁

Hot 摩爾線程MTT S系列GPU與愛特云V2.0完成適配
Hot 摩爾線程攜手RealLink共同完成UE5在國產(chǎn)顯卡上的首次適配

New 摩爾線程亮相2025中國移動產(chǎn)業(yè)投資生態(tài)合作大會
New 摩爾線程亮相2025全球數(shù)字經(jīng)濟(jì)大會

精選推薦
更多

文章

資料

帖子

AI通話的N種新玩法，讓科幻照進(jìn)現(xiàn)實

腦極體
1天前

714 閱讀

三菱電機(jī)SiC DIPIPM在變頻家電中的應(yīng)用（2）

三菱電機(jī)半導(dǎo)體
1天前

736 閱讀

三菱電機(jī)SiC DIPIPM在變頻家電中的應(yīng)用（1）

三菱電機(jī)半導(dǎo)體
1天前

633 閱讀

英飛凌TLD7002-16 OTP PRG的常見問題解析

駿龍電子
1天前

569 閱讀

DC/DC轉(zhuǎn)換器電路板安裝過程中的焊接技巧與導(dǎo)通檢查要點

駿龍電子
1天前

707 閱讀

sinumerik 西門子數(shù)控系統(tǒng)綜合信息

hanxing011
2.2 MB

免費(fèi)

0下載

《英特爾伽利略開發(fā)板入門與開發(fā)攻略》

黃博
0KB

10積分

81下載

kafkaUI-lite Kafka UI界面客戶端工具

李晶
0.28 MB

2積分

6下載

SqliteCPP C++ SQLite3包裝器

莫循虎
2.40 MB

免費(fèi)

1下載

恒壓恒流控制器AP4313數(shù)據(jù)手冊

楊豐奎
0.92 MB

2積分

7下載

【RA-Eco-RA6M4開發(fā)板評測】基于SHELL進(jìn)行ADC測試

jf_1137202360
13小時前

54 閱讀

【VisionFive 2單板計算機(jī)試用體驗】3、開源大語言模型部署

左岸cpx
1天前

249 閱讀

【M-K1HSE開發(fā)板免費(fèi)體驗】DevEco Studio應(yīng)用開發(fā)體驗(物理機(jī)器運(yùn)行失敗)

jf_1137202360
1天前

206 閱讀

【RA-Eco-RA6M4開發(fā)板評測】開箱、Hello World（串口+OLED）

jf_57061047
1天前

203 閱讀

省錢+環(huán)保+個性：打造一臺永不“過時”的自定義電腦！

早知
2天前

754 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

搜索歷史

摩爾線程開源高性能線性代數(shù)模板庫MUTLASS

評論