99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA使用Qwen3系列模型的最佳實踐

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2025-05-08 11:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

阿里巴巴近期發(fā)布了其開源的混合推理大語言模型 (LLM)通義千問 Qwen3,此次 Qwen3 開源模型系列包含兩款混合專家模型 (MoE),235B-A22B(總參數(shù) 2,350 億,激活參數(shù) 220 億)和 30B-A3B,以及六款稠密 (Dense) 模型 0.6B、1.7B、4B、8B、14B、32B。

現(xiàn)在,開發(fā)者能夠基于 NVIDIA GPU,使用NVIDIA TensorRT-LLM、Ollama、SGLang、vLLM等推理框架高效集成和部署 Qwen3 模型,從而實現(xiàn)極快的詞元 (token) 生成,以及生產(chǎn)級別的應(yīng)用研發(fā)。

本文提供使用 Qwen3 系列模型的最佳實踐,我們會展示如何使用上述框架來部署模型實現(xiàn)高效推理。開發(fā)者可以根據(jù)他們的應(yīng)用場景需求來選擇合適的框架,例如高吞吐量、低延遲、或是 GPU 內(nèi)存占用 (GPU footprint)。

Qwen3 模型

Qwen3 是中國首個混合推理模型,在 AIME、LiveCodeBench、ArenaHard、BFCL 等權(quán)威評測集上均獲得出色的表現(xiàn)(信息來源于阿里巴巴官方微信公眾號)。Qwen3 提供的系列開源稠密和 MoE 模型在推理、指令遵循、Agent 能力、多語言支持等方面均大幅增強,是全球領(lǐng)先的開源模型。

大語言模型的推理性能對于實時、經(jīng)濟高效的生產(chǎn)級部署至關(guān)重要

LLM 生態(tài)系統(tǒng)快速演進(jìn),新模型和新技術(shù)不斷更新迭代,需要一種高性能且靈活的解決方案來優(yōu)化模型。

推理系統(tǒng)設(shè)計頗具挑戰(zhàn),要求也不斷提升,這些挑戰(zhàn)包括 LLM 推理計算預(yù)填充 (prefill) 和解碼 (decode) 兩個階段對于計算能力和顯存大小 / 帶寬的需求差異,超大尺寸模型并行分布式推理,海量并發(fā)請求,輸入輸出長度高度動態(tài)請求等。

目前在推理引擎上有許多優(yōu)化技術(shù)可用,包括高性能 kernel、低精度量化、Batch 調(diào)度、采樣優(yōu)化、KV 緩存 (KV cache) 優(yōu)化等等,選擇最適合自己應(yīng)用場景的技術(shù)組合需要耗費開發(fā)者大量精力。

NVIDIA TensorRT-LLM提供了最新的極致優(yōu)化的計算 kernel、高性能 Attention 實現(xiàn)、多機多卡通信分布式支持、豐富的并行和量化策略等,從而在 NVIDIA GPU 上實現(xiàn)高效的 LLM 推理。此外,TensorRT-LLM 采用PyTorch 的新架構(gòu)還提供了直觀、簡潔且高效的模型推理配置 LLM API,從而能夠兼顧極佳性能和靈活友好的工作流。

通過使用 TensorRT-LLM,開發(fā)者可以迅速上手先進(jìn)的優(yōu)化技術(shù),其中包括定制的 Attention kernel、連續(xù)批處理 (in-flight batching)、分頁KV 緩存 (Paged KV cache)、量化 (FP8、FP4、INT4 AWQ、INT8 SmoothQuant)、投機采樣等諸多技術(shù)。

使用 TensorRT-LLM運行 Qwen3 的推理部署優(yōu)化

下面以使用 Qwen3-4B 模型配置 PyTorch backend為例,描述如何快捷進(jìn)行基準(zhǔn)測試以及服務(wù)化的工作。采用類似的步驟,也可以實現(xiàn) Qwen3 其他 Dense 和 MoE 模型的推理部署優(yōu)化。

1. 首先準(zhǔn)備 benchmark 測試數(shù)據(jù)集合和extra-llm-api-config.yml
配置文件:

python3/path/to/TensorRT-LLM/benchmarks/cpp/prepare_dataset.py 
 --tokenizer=/path/to/Qwen3-4B 
 --stdout token-norm-dist--num-requests=32768
 --input-mean=1024--output-mean=1024
 --input-stdev=0--output-stdev=0>/path/to/dataset.txt


cat>/path/to/extra-llm-api-config.yml<

2. 通過trtllm-bench運行 benchmark 指令:

trtllm-bench 
  --modelQwen/Qwen3-4B 
  --model_path/path/to/Qwen3-4B 
   throughput 
  --backendpytorch 
  --max_batch_size128
  --max_num_tokens16384
  --dataset/path/to/dataset.txt
  --kv_cache_free_gpu_mem_fraction0.9
  --extra_llm_api_options/path/to/extra-llm-api-config.yml
  --concurrency128
  --num_requests32768
  --streaming

相同 GPU 環(huán)境配置下,基于 ISL = 1K,OSL = 1K,相較 BF16 基準(zhǔn),Qwen3-4B 稠密模型使用 TensorRT-LLM 在 BF16 的推理吞吐(每秒生成的 token 數(shù))加速比最高可達(dá) 16.04 倍。

725609e4-27da-11f0-9310-92fbcf53809c.png

圖 1:Qwen3-4B 稠密模型在 TensorRT-LLM BF16 與 BF16 基準(zhǔn)的推理吞吐性能比較

該圖片來源于 NVIDIA Blog:Integrate and Deploy Tongyi Qwen3 Models into Production Applications with NVIDIA,若您有任何疑問或需要使用該圖片,請聯(lián)系 NVIDIA

3. 通過trtllm-serve運行 serve 指令:

trtllm-serve 
 /path/to/Qwen3-4B 
--hostlocalhost 
--port8000
--backendpytorch 
--max_batch_size128
--max_num_tokens16384
--kv_cache_free_gpu_memory_fraction0.95
--extra_llm_api_options/path/to/extra-llm-api-config.yml

4. 模型啟動成功后,便可通過標(biāo)準(zhǔn) OpenAI API 進(jìn)行模型推理調(diào)用。

curl -X POST"http://localhost:8000/v1/chat/completions"
 -H"Content-Type: application/json"
 --data '{
 "model":"Qwen/Qwen3-4B",
     "Max_tokens": 1024,
     "Temperature": 0,
 "messages": [
   {
   "role":"user",
   "content":"What is the capital of France?"
   }
  ]
 }'

使用 Ollama,SGLang,vLLM 框架運行 Qwen3-4B

除了 TensorRT-LLM,Qwen 模型也可以使用諸如 Ollama,SGLang,vLLM 等框架,通過簡單幾步部署到 NVIDIA GPU。Qwen3 提供了多種模型可以運行在終端和設(shè)備上,例如NVIDIA Jeston以及適用于 Windows 開發(fā)者的NVIDIA RTX。

使用 Ollama 在本地運行 Qwen3-4B:

1. 從以下網(wǎng)址下載和安裝最新版本的 Ollama: ollama.com/download

2. 使用ollama run命令運行模型,此操作將加載并初始化模型用于后續(xù)與用戶交互。

ollamarun qwen3:4b

3. 在用戶提示詞或系統(tǒng)消息中添加/think(默認(rèn)值)和/no_think可在模型的思考模式之間切換。運行ollama run命令后,可以直接在終端中使用以下的示例提示詞,來測試思考模式:

"Writeapython lambda functiontoadd two numbers" - Thinking mode enabled
"Writeapython lambda functiontoadd two numbers /no_think" - Non-thinking mode

4. 參考o(jì)llama.com/library/qwen3查看更多模型變量,這些變量基于 NVIDIA GPU 完成了優(yōu)化。

使用 SGLang 運行 Qwen3-4B:

1. 安裝 SGLang 庫

pipinstall"sglang[all]"

2. 下載模型,在這個演示中,我們使用的是 Hugging Face 上的 huggingfaceCLI 命令提示符執(zhí)行,請注意需要提供一個 API key 來下載模型。

huggingface-cli download--resume-downloadQwen/Qwen3-4B--local-dir./

3. 加載和運行模型,請注意,根據(jù)不同的需求,可以傳遞額外的參數(shù)。更多詳細(xì)信息可以參考相關(guān)文檔。

python-m sglang.launch_server   
--model-path /ssd4TB/huggingface/hub/models/ 
--trust-remote-code 
--device "cuda:0" 
--port 30000 
--host 0.0.0.0

4. 調(diào)用模型推理

curl -X POST"http://localhost:30000/v1/chat/completions"
 -H"Content-Type: application/json"
 --data '{
 "model":"Qwen/Qwen3-4B",
 "messages": [
   {
   "role":"user",
   "content":"What is the capital of France?"
   }
  ]
 }'

使用 vLLM 運行 Qwen3-4B:

1. 安裝 vLLM 庫

pipinstall vllm

2. 通過vllm serve加載和運行模型,請注意,根據(jù)不同的需求,可以傳遞額外的參數(shù)。更多詳細(xì)信息可以參考相關(guān)文檔。

vllm serve "Qwen/Qwen3-4B" 
--tensor-parallel-size 1 
--gpu-memory-utilization 0.85 
--device "cuda:0" 
--max-num-batched-tokens 8192 
--max-num-seqs 256

3. 調(diào)用模型推理

curl -X POST"http://localhost:8000/v1/chat/completions"
 -H"Content-Type: application/json"
 --data '{
 "model":"Qwen/Qwen3-4B",
 "messages": [
   {
   "role":"user",
   "content":"What is the capital of France?"
   }
  ]
 }'

總結(jié)

僅通過幾行代碼,開發(fā)者即可通過包括 TensorRT-LLM 在內(nèi)的流行推理框架來使用最新的 Qwen 系列模型。

此外,對模型推理和部署框架的技術(shù)選型需要考慮到諸多關(guān)鍵因素,尤其是在把 AI 模型部署到生產(chǎn)環(huán)境中時,對性能、資源和成本的平衡。

作者

Ankit Patel

NVIDIA 資深總監(jiān),負(fù)責(zé)軟件開發(fā)工具包、應(yīng)用程序編程接口以及開發(fā)者工具方面的開發(fā)者拓展工作。2011 年作為 GPU 產(chǎn)品經(jīng)理加入 NVIDIA,之后從事虛擬化、光線追蹤和 AI 等產(chǎn)品在軟件產(chǎn)品管理方面的工作。Ankit 畢業(yè)于康考迪亞大學(xué) (Concordia University),獲計算機科學(xué)學(xué)士學(xué)位,并在康奈爾大學(xué) (Cornell University) 取得工商管理碩士學(xué)位 (MBA)。

劉川

NVIDIA 解決方案架構(gòu)經(jīng)理,整體負(fù)責(zé)中國區(qū)云計算行業(yè) GPU 解決方案。于南京大學(xué)獲計算機科學(xué)與技術(shù)專業(yè)碩士學(xué)位。帶領(lǐng)團(tuán)隊主要從事大語言模型、生成式 AI 以及搜索推薦等重點 AI 任務(wù)的 GPU 適配、優(yōu)化和加速方案的設(shè)計、部署和落地,幫助多家頭部互聯(lián)網(wǎng)公司在諸多業(yè)務(wù)中大幅降本增效。

金國強

NVIDIA 資深解決方案架構(gòu)師,主要負(fù)責(zé)深度學(xué)習(xí)生成式 AI 領(lǐng)域模型訓(xùn)練、推理優(yōu)化以及大模型開發(fā)與應(yīng)用云端落地等技術(shù)方向合作。

郝尚榮

NVIDIA 深度學(xué)習(xí)解決方案架構(gòu)師,2021 年加入 NVIDIA 解決方案架構(gòu)團(tuán)隊,主要從事模型推理優(yōu)化加速的工作,目前主要支持國內(nèi) CSP 客戶在大語言模型推理加速的工作。

谷鋆

NVIDIA 深度學(xué)習(xí)解決方案架構(gòu)師,于 2022 年加入 NVIDIA 解決方案架構(gòu)師團(tuán)隊,專門為國內(nèi) CSP 進(jìn)行 LLM 模型推理優(yōu)化。

高慧怡

NVIDIA 深度學(xué)習(xí)解決方案架構(gòu)師,2020 年加入 NVIDIA 解決方案架構(gòu)團(tuán)隊,從事深度學(xué)習(xí)應(yīng)用在異構(gòu)系統(tǒng)的加速工作,目前主要支持國內(nèi) CSP 客戶在大語言模型的訓(xùn)練加速工作。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5284

    瀏覽量

    106125
  • 阿里巴巴
    +關(guān)注

    關(guān)注

    7

    文章

    1638

    瀏覽量

    48170
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3507

    瀏覽量

    50252
  • 通義千問
    +關(guān)注

    關(guān)注

    1

    文章

    36

    瀏覽量

    431

原文標(biāo)題:NVIDIA 實現(xiàn)通義千問 Qwen3 的生產(chǎn)級應(yīng)用集成和部署

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    Intel OpenVINO? Day0 實現(xiàn)阿里通義 Qwen3 快速部署

    本文將以 Qwen3-8B 為例,介紹如何利用 OpenVINO 的 Python API 在英特爾平臺(GPU, NPU)Qwen3 系列模型。
    的頭像 發(fā)表于 05-11 11:36 ?784次閱讀
    Intel OpenVINO? Day0 實現(xiàn)阿里通義 <b class='flag-5'>Qwen3</b> 快速部署

    在openEuler上基于vLLM Ascend部署Qwen3

    近日,阿里巴巴正式發(fā)布新一代Qwen大語言模型系列Qwen3Qwen3-MoE),在模型規(guī)模
    的頭像 發(fā)表于 05-07 14:44 ?551次閱讀
    在openEuler上基于vLLM Ascend部署<b class='flag-5'>Qwen3</b>

    《電子發(fā)燒友電子設(shè)計周報》聚焦硬科技領(lǐng)域核心價值 第10期:2025.05.6--2025.05.9

    存儲分區(qū) 6、NVIDIA使用Qwen3系列模型最佳實踐 7、開發(fā)板Air8101
    發(fā)表于 05-09 19:26

    壁仞科技完成阿里巴巴通義千問Qwen3系列模型支持

    4月29日,阿里巴巴通義千問發(fā)布并開源8款新版Qwen3系列“混合推理模型”(簡稱“Qwen3”)。Qwen3發(fā)布后數(shù)小時內(nèi),壁仞科技完成全
    的頭像 發(fā)表于 04-30 15:19 ?679次閱讀

    上新:小米首個推理大模型開源 馬斯克:下周推出Grok 3.5

    似乎國內(nèi)外AI競爭日趨白熱化,就在阿里巴巴發(fā)布Qwen3(通義千問3)之后,引發(fā)業(yè)界廣泛關(guān)注;很多大廠在跟進(jìn),大模型不斷上新: 阿里巴巴開源新一代通義千問模型
    的頭像 發(fā)表于 04-30 16:08 ?754次閱讀

    幾B都有!BM1684X一鍵適配全系列Qwen3

    Qwen3發(fā)布,大小尺寸通吃Qwen3一發(fā)布,登頂開源大模型排行榜!235B、32B、8B、4B、1.7B云邊端全尺寸模型,BF16和FP8兩種精度,一次性發(fā)布,無論云端大卡還是邊緣A
    的頭像 發(fā)表于 04-30 18:37 ?495次閱讀
    幾B都有!BM1684X一鍵適配全<b class='flag-5'>系列</b><b class='flag-5'>Qwen3</b>

    中科曙光DeepAI深算智能引擎全面支持Qwen3

    日前,Qwen3正式發(fā)布并全部開源8款混合推理模型。作為Qwen系列中的最新一代大型語言模型Qwen3
    的頭像 發(fā)表于 05-06 15:17 ?497次閱讀

    摩爾線程GPU率先支持Qwen3系列模型

    近日,阿里云正式發(fā)布Qwen3系列的8款開源混合推理模型。摩爾線程團(tuán)隊在模型發(fā)布當(dāng)天,率先完成了Qwen3
    的頭像 發(fā)表于 05-07 15:24 ?418次閱讀

    寒武紀(jì)率先支持Qwen3系列模型

    近日,阿里Qwen團(tuán)隊一口氣上新8大模型Qwen3正式發(fā)布并全部開源。
    的頭像 發(fā)表于 05-07 15:51 ?356次閱讀

    后摩智能NPU適配通義千問Qwen3系列模型

    近日,阿里云重磅推出Qwen3 系列開源混合推理模型。用時不到1天,后摩智能自研NPU迅速實現(xiàn)Qwen3 系列
    的頭像 發(fā)表于 05-07 16:46 ?480次閱讀

    MediaTek天璣9400率先完成阿里Qwen3模型部署

    通義大模型團(tuán)隊在天璣 9400 旗艦移動平臺上率先完成 Qwen3(千問 3)的端側(cè)部署。未來,搭載天璣 9400 移動平臺的設(shè)備可充分發(fā)揮端側(cè) AI 性能潛力,運行千問 3
    的頭像 發(fā)表于 05-08 10:11 ?440次閱讀

    NVIDIA RTX 5880 Ada與Qwen3系列模型實測報告

    近日,阿里巴巴通義千問團(tuán)隊正式推出新一代開源大語言模型——Qwen3 系列,該系列包含 6 款 Dense 稠密模型和 2 款 MoE 混合
    的頭像 發(fā)表于 05-09 15:05 ?837次閱讀
    <b class='flag-5'>NVIDIA</b> RTX 5880 Ada與<b class='flag-5'>Qwen3</b><b class='flag-5'>系列</b><b class='flag-5'>模型</b>實測報告

    Arm CPU適配通義千問Qwen3系列模型

    近日,阿里巴巴開源了新一代通義千問模型 Qwen3,Arm 率先成為首批成功適配該模型的計算平臺廠商。與此同時,Arm 面向人工智能 (AI) 框架開發(fā)者的開源計算內(nèi)核 Arm KleidiAI
    的頭像 發(fā)表于 05-12 16:37 ?538次閱讀

    壁仞科技完成Qwen3旗艦模型適配

    近日,在高效適配Qwen3系列模型推理后,壁仞科技宣布完成旗艦版Qwen3-235B-A22B模型的訓(xùn)練適配和優(yōu)化。由此,壁仞科技已實現(xiàn)
    的頭像 發(fā)表于 05-16 16:23 ?365次閱讀

    廣和通加速通義千問Qwen3在端側(cè)全面落地

    6月,廣和通宣布:率先完成通義千問Qwen3系列混合推理模型在高通QCS8550平臺端側(cè)的適配部署。廣和通通過定制化混合精度量化方案與創(chuàng)新硬件加速算法,成功突破Qwen3新型架構(gòu)在邊緣
    的頭像 發(fā)表于 06-25 15:35 ?211次閱讀