91中文字幕一区二区三区.,威海AV免费看,免费国产区视频资源

近日，基于開源KTransformers架構(gòu)的 CPU/GPU 異構(gòu)推理能力，沐曦在曦云C500單卡GPU上成功實(shí)現(xiàn)DeepSeek-R1-671B滿血版單并發(fā)解碼吞吐16.5 tokens/s的優(yōu)異成績，相比社區(qū)官方數(shù)據(jù)提升20%以上。

相比國際高端GPU八卡滿血版部署方案，本項(xiàng)目在單并發(fā)性能上具有極高的性價(jià)比。

KTransformers項(xiàng)目介紹

KTransformers （https://github.com/kvcache-ai/ktransformers）是由清華大學(xué) KVCache.AI 團(tuán)隊(duì)聯(lián)合趨境科技開源的一套輕量化高性能模型推理框架，能夠在計(jì)算資源受限的場景下，通過 CPU/GPU 異構(gòu)推理的方式更快速、更高效地實(shí)現(xiàn)大模型的本地推理。KTransformers旨在作為一個(gè)開放的平臺，用于試驗(yàn)創(chuàng)新的大型語言模型（LLM）推理優(yōu)化方案。同時(shí)，KTransformers也計(jì)劃演進(jìn)成本地化中小并發(fā)場景下針對稀疏MoE模型最具性價(jià)比的開源推理引擎，以及成為一個(gè)算子級優(yōu)化的集成實(shí)驗(yàn)平臺。沐曦正在做的工作非常符合開源社區(qū)和KTransformers開源項(xiàng)目的發(fā)展。

開源合作內(nèi)容介紹

沐曦和KVCache.AI團(tuán)隊(duì)合作，通過對KTransformers模型框架進(jìn)行細(xì)致的分析和調(diào)整，團(tuán)隊(duì)成功達(dá)成了曦云C500與KTransformers的無縫對接，為進(jìn)一步性能優(yōu)化奠定了堅(jiān)實(shí)的基礎(chǔ)。

完成基本功能適配后，沐曦研發(fā)團(tuán)隊(duì)繼續(xù)對整個(gè)框架進(jìn)行了優(yōu)化。在深入研究了DeepSeek R1滿血版模型的計(jì)算特點(diǎn)和性能瓶頸，結(jié)合曦云C500的優(yōu)勢，采用了一系列先進(jìn)的技術(shù)和算法，詳細(xì)如下：

1在KTransformers中加入了Multi-Token Prediction (MTP) 功能；

2加入了GPU fused MoE功能，該功能有效利用曦云C500 64GB的高帶寬顯存和高速FP16/BF16運(yùn)算能力，提升推理性能；

3配合自動(dòng)/手工算子融合技術(shù)，高效的FP16/BF16精度Marlin算子（W4A16），以及經(jīng)過深度優(yōu)化的mcBLAS、PyTorch庫、FlashInfer庫。

此次合作不僅為KTransformers帶來了性能上的提升，更體現(xiàn)了開源共創(chuàng)的價(jià)值：不同的團(tuán)隊(duì)和開發(fā)者通過資源共享、經(jīng)驗(yàn)交流，共同推動(dòng)技術(shù)的進(jìn)步。沐曦和清華大學(xué)KVCache.AI團(tuán)隊(duì)的合作就是很好的例子，通過開源倉庫匯聚了各自的優(yōu)勢，實(shí)現(xiàn)了技術(shù)上的突破，也為后續(xù)持續(xù)在開源社區(qū)推理優(yōu)化提供了合作基礎(chǔ)。

通過開源社區(qū)的共同努力，KTransformers將不斷提升其性能和功能，為更多的用戶提供優(yōu)質(zhì)的服務(wù)。同時(shí)，這也將促進(jìn)整個(gè)人工智能行業(yè)的發(fā)展，推動(dòng)技術(shù)的不斷創(chuàng)新。單卡打開DeepSeek R1滿血版并不斷地提升性能只是一個(gè)開始，在開源共創(chuàng)的道路上，我們將迎來更多的驚喜和突破，共同開創(chuàng)國產(chǎn)算力生態(tài)和人工智能的無限未來。

關(guān)于沐曦

沐曦致力于為異構(gòu)計(jì)算提供安全可靠的GPU芯片及解決方案，打造全棧GPU芯片產(chǎn)品，推出曦思N系列GPU用于智算推理，曦云C系列GPU用于通用計(jì)算，以及曦彩G系列GPU用于圖形渲染，滿足“高能效”及“高通用性”的算力需求。沐曦產(chǎn)品均采用完全自主研發(fā)的GPU IP，擁有完全自主的指令集和架構(gòu)，配以兼容主流GPU生態(tài)的完整軟件棧（MXMACA），具備高能效和高通用性的天然優(yōu)勢，能夠?yàn)榭蛻魳?gòu)建軟硬件一體的全面生態(tài)解決方案，是“雙碳”背景下推動(dòng)數(shù)字經(jīng)濟(jì)建設(shè)和產(chǎn)業(yè)數(shù)字化、智能化轉(zhuǎn)型升級的算力基石。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

gpu

gpu

+關(guān)注

關(guān)注
28

文章
4949

瀏覽量
131278
開源

開源

+關(guān)注

關(guān)注
3

文章
3690

瀏覽量
43840
沐曦

沐曦

+關(guān)注

關(guān)注
0

文章
34

瀏覽量
1442
DeepSeek

DeepSeek

+關(guān)注

關(guān)注
1

文章
798

瀏覽量
1763

原文標(biāo)題：開源賦能：沐曦聯(lián)合清華大學(xué)KVCache.AI團(tuán)隊(duì)加速DeepSeek滿血版單卡C500異構(gòu)推理

文章出處：【微信號：沐曦MetaX，微信公眾號：沐曦MetaX】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

搜索歷史

沐曦加速DeepSeek滿血版單卡C500異構(gòu)推理

評論