近日,阿里巴巴通義千問(wèn)團(tuán)隊(duì)正式推出新一代開(kāi)源大語(yǔ)言模型——Qwen3 系列,該系列包含 6 款 Dense 稠密模型和 2 款 MoE 混合專家模型,參數(shù)規(guī)模覆蓋 0.6B 至 235B,構(gòu)建了覆蓋全場(chǎng)景的 AI 模型矩陣。其中旗艦?zāi)P?Qwen3-235B-A22B 在代碼、數(shù)學(xué)及通用能力基準(zhǔn)測(cè)試中,展現(xiàn)出與 DeepSeek-R1、OpenAI-o1、Grok-3、Gemini-2.5-Pro 等頂級(jí)模型比肩的實(shí)力。
而對(duì)于Qwen3-30B-A3B,其激活量只有 QwQ-32B 的 10%,表現(xiàn)超過(guò) DeepSeek V3/GPT-4o。就中小型企業(yè)的定制化需求而已,從部署成本角度看,Qwen3-30B-A3B 相較于先前熱門 Deepseek-R1-70B(BF16),部署成本降低約 40%,其模型性能表現(xiàn)接近 Qwen2.5-72B 級(jí)別的性能。使得中小企業(yè)在有限預(yù)算下即可實(shí)現(xiàn)高水準(zhǔn)的 AI 應(yīng)用定制,進(jìn)一步降低了技術(shù)落地門檻。
Qwen3 集合 6 款 Dense 稠密模型:從適用于輕量級(jí)任務(wù)的 Qwen3-0.6B、1.7B,到應(yīng)對(duì)中大型復(fù)雜場(chǎng)景的 4B、8B、14B,再到超大規(guī)模算力需求的 32B,以及 2 款 MoE 模型 Qwen3-30B-A3B、Qwen3-235B-A22B,形成豐富完備的模型體系,全方位滿足不同層次、不同類型的應(yīng)用需求。
▲ Qwen3 系列模型一覽
1 Qwen3 技術(shù)突破與核心優(yōu)勢(shì)
作為實(shí)現(xiàn)"雙模推理"的開(kāi)源模型,Qwen3 創(chuàng)新性融合了深度思考與快速響應(yīng)機(jī)制:混合推理模型,具備思考和快速回答雙模式。
思考模式:模型通過(guò)多步推理和深度分析以解決復(fù)雜問(wèn)題,類似人類理性決策過(guò)程。這種模式適用于需要深入思考的復(fù)雜問(wèn)題。
快速回答(非思考模式):模型提供快速、近乎即時(shí)的響應(yīng),直接基于已有的知識(shí)和簡(jiǎn)單的邏輯關(guān)系生成答案,而不會(huì)進(jìn)行深入的多步推理。這種模式適用于那些對(duì)速度要求高于深度的簡(jiǎn)單問(wèn)題。
簡(jiǎn)單來(lái)說(shuō),類似于將 DeepSeek-R1 和 V3 揉在一起。既可以當(dāng)沒(méi)有思維鏈的普通模型,又可以開(kāi)啟深度思考模式變成推理模型。用戶可以通過(guò)設(shè)置enable_thinking參數(shù)來(lái)實(shí)現(xiàn)兩種模式的切換。
▲ Qwen3 思考模式
▲ Qwen3 快速回答
此外,Qwen3 還具備以下優(yōu)勢(shì):
模型能力躋身全球 top。
MoE 和 Dense 兩種架構(gòu)共 8 款模型,基本覆蓋所有應(yīng)用場(chǎng)景。
Agent 能力升級(jí):優(yōu)化了 Qwen3 模型的 Agent 和代碼能力,同時(shí)支持最新的 MCP(模型上下文協(xié)議)。
支持 119 種語(yǔ)言。
海量訓(xùn)練數(shù)據(jù):Qwen3 使用的數(shù)據(jù)量達(dá)到了約 36 萬(wàn)億個(gè) token。
Qwen3 系列通過(guò)"小而強(qiáng)大"的技術(shù)突破(如 30B 模型超越 72B 前輩),為中小企業(yè)提供高性價(jià)比 AI 解決方案。其 Apache2.0 開(kāi)源協(xié)議和免費(fèi)商用特性,能夠配合 AI 一體機(jī)基礎(chǔ)設(shè)施支持,推動(dòng) AI 應(yīng)用進(jìn)入"平民化"時(shí)代。隨著混合推理模式的普及,Qwen3 或?qū)⒅匦露x大模型在智能客服、代碼開(kāi)發(fā)、科研創(chuàng)新等領(lǐng)域的應(yīng)用范式。
2 2/4 卡 RTX 5880 Ada 實(shí)測(cè)報(bào)告
2.1 測(cè)試環(huán)境
2.2 測(cè)試指標(biāo)
首次 token 生成時(shí)間(Time to First Token, TTFT(s))越低,模型響應(yīng)速度越快;每個(gè)輸出 token 的生成時(shí)間(Time Per Output Token, TPOT(s))越低,模型生成文本的速度越快。
輸出 Token 吞吐量(Output Token Per Sec, TPS):反映系統(tǒng)每秒能夠生成的輸出 token 數(shù)量,是評(píng)估系統(tǒng)響應(yīng)速度的關(guān)鍵指標(biāo)。多并發(fā)情況下,使用單個(gè)請(qǐng)求的平均吞吐量作為參考指標(biāo)。
首次 Token 生成時(shí)間(Time to First Token, TTFT(s)):指從發(fā)出請(qǐng)求到接收到第一個(gè)輸出 token 所需的時(shí)間,這對(duì)實(shí)時(shí)交互要求較高的應(yīng)用尤為重要。多并發(fā)情況下,平均首次 token 時(shí)間 (s) 作為參考指標(biāo)。
單 Token 生成時(shí)間(Time Per Output Token,TPOT(s)):系統(tǒng)生成每個(gè)輸出 token 所需的時(shí)間,直接影響了整個(gè)請(qǐng)求的完成速度。多并發(fā)情況下,使用平均每個(gè)輸出 token 的時(shí)間 (s) 作為參考指標(biāo)。這里多并發(fā)時(shí)跟單個(gè)請(qǐng)求的 TPOT 不一樣,多并發(fā) TPOT 計(jì)算不包括生成第一個(gè) token 的時(shí)間。
并發(fā)數(shù)(Concurrency):指的是系統(tǒng)同時(shí)處理的任務(wù)數(shù)量。適當(dāng)?shù)牟l(fā)設(shè)置可以在保證響應(yīng)速度的同時(shí)最大化資源利用率,但過(guò)高的并發(fā)數(shù)可能導(dǎo)致請(qǐng)求打包過(guò)多,從而增加單個(gè)請(qǐng)求的處理時(shí)間,影響用戶體驗(yàn)。
2.3 測(cè)試場(chǎng)景
在實(shí)際業(yè)務(wù)部署中,輸入/輸出 token 的數(shù)量直接影響服務(wù)性能與資源利用率。本次測(cè)試針對(duì)兩種不同應(yīng)用場(chǎng)景設(shè)計(jì)了具體的輸入 token 和輸出 token 配置,以評(píng)估模型在不同任務(wù)中的表現(xiàn)。具體如下:
2.4 測(cè)試結(jié)果
4 卡 NVIDIA RTX 5880 Ada 測(cè)試
文本生成場(chǎng)景測(cè)試中,單請(qǐng)求吞吐量約39.07tokens/s,并發(fā) 200 時(shí)降至約10.59tokens/s。
▲ 4 卡 RTX 5880 Ada 文本生成場(chǎng)景測(cè)試結(jié)果圖表
2025 麗臺(tái)(上海)信息科技有限公司
本文所有測(cè)試結(jié)果均由麗臺(tái)科技實(shí)測(cè)得出,如果您有任何疑問(wèn)或需要使用此測(cè)試結(jié)果,請(qǐng)聯(lián)系麗臺(tái)科技(下同)
文本總結(jié)場(chǎng)景測(cè)試中,單請(qǐng)求吞吐量約38.35tokens/s,并發(fā) 150 時(shí)降至約10.78tokens/s。
▲ 4 卡 RTX 5880 Ada 文本總結(jié)場(chǎng)景測(cè)試結(jié)果圖表
2 卡 NVIDIA RTX 5880 Ada 測(cè)試
文本生成場(chǎng)景測(cè)試中,單請(qǐng)求吞吐量約25.14tokens/s,并發(fā) 150 時(shí)降至約9.24tokens/s。
▲ 2 卡 RTX 5880 Ada 文本生成場(chǎng)景測(cè)試結(jié)果圖表
文本總結(jié)場(chǎng)景測(cè)試中,單請(qǐng)求吞吐量約23.63tokens/s,并發(fā) 150 時(shí)降至約8.75tokens/s。
▲ 2 卡 RTX 5880 Ada 文本總結(jié)場(chǎng)景測(cè)試結(jié)果圖表
3 總結(jié)
3.1 性能亮點(diǎn)速覽
高并發(fā)文本生成場(chǎng)景:4 卡優(yōu)勢(shì)顯著
輸入 32 tokens + 輸出 1024 tokens(文本生成)
4 卡配置:150 并發(fā)下吞吐量13.30tokens/s,較 2 卡(9.24 tokens/s)提升43.94%;
延遲表現(xiàn):4 卡的“首次 token 時(shí)間”顯著低于 2 卡,響應(yīng)更敏捷。
文本總結(jié)場(chǎng)景:吞吐與延遲平衡
輸入 512 tokens + 輸出 64 tokens(文本總結(jié))
4 卡配置:150 并發(fā)下吞吐量10.78tokens/s,延遲控制在1.62s內(nèi);
2 卡配置:適配 100 并發(fā)以內(nèi)場(chǎng)景,吞吐量12.52tokens/s,滿足日常推理需求。
吞吐量衰減率:4 卡更穩(wěn)定
隨著并發(fā)數(shù)從 1 增至 200,并發(fā)量翻倍時(shí),4 卡吞吐量衰減率(63%),體現(xiàn)更強(qiáng)的負(fù)載均衡能力。
3.2 Leadtek AI 一體機(jī)
▲ Leadtek AI 一體機(jī)
基于NVIDIA RTX 5880 Ada顯卡的 Leadtek AI 一體機(jī),搭配通義千問(wèn) Qwen3-30B-A3B 模型,在大模型推理場(chǎng)景中展現(xiàn)出卓越性能:
4 卡配置:在高并發(fā)(200 并發(fā))下仍能保持10.59 tokens/s的吞吐量,且單請(qǐng)求延遲可控;
2 卡配置:在中低并發(fā)場(chǎng)景下表現(xiàn)穩(wěn)定,滿足中小型任務(wù)需求;
NVIDIA RTX 5880 Ada完美適配 Qwen3-30B-A3B 的 MoE 結(jié)構(gòu)(激活參數(shù)僅 30 億,性能超越 QwQ-32B),實(shí)現(xiàn)高效能比。
適用場(chǎng)景
智能辦公與教育:智能辦公助手(如日程管理、文檔生成);個(gè)性化學(xué)習(xí)輔導(dǎo)(根據(jù)學(xué)生進(jìn)度定制內(nèi)容);教育領(lǐng)域的智能答疑與內(nèi)容創(chuàng)作。
企業(yè)級(jí)應(yīng)用與開(kāi)發(fā):智能客服(高效處理用戶咨詢);復(fù)雜任務(wù)推理(數(shù)學(xué)計(jì)算、編程分析,需思考模式);API 集成與微調(diào)(適配特定業(yè)務(wù)需求,如工具調(diào)用)。
目前,麗臺(tái)訓(xùn)推一體機(jī)、大模型一體機(jī)等都已集成 Qwen3 系列模型。
Leadtek AI 一體機(jī)憑借NVIDIA RTX 5880 Ada的硬核性能與Qwen3-30B-A3B的卓越優(yōu)化,重新定義了本地化大模型推理的天花板。無(wú)論是追求極限吞吐的商業(yè)場(chǎng)景,還是注重成本效益的中小團(tuán)隊(duì),都能尋求到最優(yōu)解。
-
AI
+關(guān)注
關(guān)注
88文章
35132瀏覽量
279690 -
開(kāi)源
+關(guān)注
關(guān)注
3文章
3686瀏覽量
43822 -
大模型
+關(guān)注
關(guān)注
2文章
3141瀏覽量
4064
原文標(biāo)題:Qwen3 正式發(fā)布!30B 大模型 4 卡 RTX 5880 Ada 實(shí)測(cè)
文章出處:【微信號(hào):Leadtek,微信公眾號(hào):麗臺(tái)科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
Intel OpenVINO? Day0 實(shí)現(xiàn)阿里通義 Qwen3 快速部署

NVIDIA使用Qwen3系列模型的最佳實(shí)踐

NVIDIA RTX 5000 Ada顯卡性能實(shí)測(cè)報(bào)告

RTX 5880 Ada Generation GPU與RTX? A6000 GPU對(duì)比

NVIDIA RTX 4500 Ada與NVIDIA RTX A5000的對(duì)比
NVIDIA RTX 5880 Ada顯卡部署DeepSeek-R1模型實(shí)測(cè)報(bào)告

壁仞科技完成阿里巴巴通義千問(wèn)Qwen3全系列模型支持
幾B都有!BM1684X一鍵適配全系列Qwen3

評(píng)論