99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用vLLM+OpenVINO加速大語言模型推理

英特爾物聯(lián)網(wǎng) ? 來源:英特爾物聯(lián)網(wǎng) ? 2024-11-15 14:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:

武卓 博士 英特爾 OpenVINO 布道師

隨著大語言模型的廣泛應用,模型的計算需求大幅提升,帶來推理時延高、資源消耗大等挑戰(zhàn)。vLLM 作為高效的大模型推理框架,通過 OpenVINO 的優(yōu)化,vLLM 用戶不僅能夠更高效地部署大模型,還能提升吞吐量和處理能力,從而在成本、性能和易用性上獲得最佳平衡。這種優(yōu)化對于需要快速響應和節(jié)省資源的云端或邊緣推理應用尤為重要。目前,OpenVINO 最新版本 OpenVINO 2024.4 中已經(jīng)支持與 vLLM 框架的集成,只需要一步安裝,一步配置,就能夠以零代碼修改的方式,將 OpenVINO 作為推理后端,在運行 vLLM 對大語言模型的推理時獲得推理加速。

15954672-9db3-11ef-93f3-92fbcf53809c.png

01vLLM 簡介

vLLM 是由加州大學伯克利分校開發(fā)的開源框架,專門用于高效實現(xiàn)大語言模型(LLMs)的推理和部署。它具有以下優(yōu)勢:

高性能:相比 HuggingFace Transformers 庫,vLLM 能提升多達24倍的吞吐量。

易于使用:無需對模型架構(gòu)進行任何修改即可實現(xiàn)高性能推理。

低成本:vLLM 的出現(xiàn)使得大模型的部署更加經(jīng)濟實惠。

02一步安裝:搭建 vLLM+OpenVINO 阿里云ECS開發(fā)環(huán)境

下面我們以在阿里云的免費云服務器 ECS 上運行通義千問 Qwen2.5 模型為例,詳細介紹如何通過簡單的兩步,輕松實現(xiàn) OpenVINO 對 vLLM 大語言模型推理服務的加速。

在阿里云上申請免費的云服務器 ECS 資源,并選擇 Ubuntu22.04 作為操作系統(tǒng)。

159ee2fe-9db3-11ef-93f3-92fbcf53809c.png

接著進行遠程連接后,登錄到終端操作界面。

請按照以下步驟配置開發(fā)環(huán)境:

1. 更新系統(tǒng)并安裝 Python 3 及虛擬環(huán)境:

sudo apt-get update -y
sudo apt-get install python3 python3.10-venv -y

2. 建立并激活 Python 虛擬環(huán)境:

python3 -m venv vllm_env
source vllm_env/bin/activate

3. 克隆 vLLM 代碼倉庫并安裝依賴項:

git clone https://github.com/vllm-project/vllm.git
cd vllm
pip install --upgrade 
pippip install -r requirements-build.txt --extra-index-url https://download.pytorch.org/whl/cpu

4. 安裝 vLLM 的 OpenVINO 后端:

PIP_EXTRA_INDEX_URL="https://download.pytorch.org/whl/cpu" VLLM_TARGET_DEVICE=openvino python -m pip install -v .

至此,環(huán)境搭建完畢。

03魔搭社區(qū)大語言模型下載

接下來,去魔搭社區(qū)下載最新的通義千問2.5系列大語言模型,這里以 Qwen2.5-0.5B-Instruct 模型的下載為例。

模型下載地址為:

https://www.modelscope.cn/models/Qwen/Qwen2.5-0.5B-Instruct

魔搭社區(qū)為開發(fā)者提供了多種模型下載的方式,這里我們以“命令行下載“方式為例。

首先用以下命令安裝 modelscope:

pip install modelscope

接著運行以下命令完成模型下載:

modelscope download --model Qwen/Qwen2.5-0.5B-Instruct

下載后的模型,默認存放在以下路徑中:

/root/.cache/modelscope/hub/Qwen/Qwen2___5-0___5B-Instruct

本次運行的推理腳本,我們以 vllm 倉庫中 examples 文件夾中的 offline_inference.py 推理腳本為例。由于 vLLM 默認的腳本是從 Hugging Face 平臺上直接下載模型,而由于網(wǎng)絡(luò)連接限制無法從該平臺直接下載模型,因此我們采用上面的方式將模型從魔搭社區(qū)中下載下來,接下來使用以下命令,修改腳本中第14行,將原腳本中的模型名稱“"facebook/opt-125m"”替換為下載后存放Qwen2.5模型的文件夾路徑”

/root/.cache/modelscope/hub/Qwen/Qwen2___5-0___5B-Instruct“即可,效果如下圖所示。

15c54458-9db3-11ef-93f3-92fbcf53809c.png

04一步配置:配置并運行推理腳本

接下來,在運行推理腳本,完成 LLMs 推理之前,我們再針對 OpenVINO 作為推理后端,進行一些優(yōu)化的配置。使用如下命令進行配置:

export VLLM_OPENVINO_KVCACHE_SPACE=1 
export VLLM_OPENVINO_CPU_KV_CACHE_PRECISION=u8 
export VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS=ON

VLLM_OPENVINO_KVCACHE_SPACE:用于指定鍵值緩存(KV Cache)的大?。ɡ纾琕LLM_OPENVINO_KVCACHE_SPACE=100 表示為 KV 緩存分配 100 GB 空間)。較大的設(shè)置可以讓 vLLM 支持更多并發(fā)請求。由于本文運行在阿里云的免費 ECS 上空間有限,因此本次示例中我們將該值設(shè)置為1。實際使用中,該參數(shù)應根據(jù)用戶的硬件配置和內(nèi)存管理方式進行設(shè)置。

VLLM_OPENVINO_CPU_KV_CACHE_PRECISION=u8:用于控制 KV 緩存的精度。默認情況下,會根據(jù)平臺選擇使用 FP16 或 BF16 精度。

VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS:用于啟用模型加載階段的 U8 權(quán)重壓縮。默認情況下,權(quán)重壓縮是關(guān)閉的。通過設(shè)置 VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS=ON 來開啟權(quán)重壓縮。

為了優(yōu)化 TPOT(Token Processing Over Time)和 TTFT(Time To First Token)性能,可以使用 vLLM 的分塊預填充功能(--enable-chunked-prefill)。根據(jù)實驗結(jié)果,推薦的批處理大小為 256(--max-num-batched-tokens=256)。

最后,讓我們來看看 vLLM 使用 OpenVINO 后端運行大語言模型推理的效果,運行命令如下:

python offline_inference.py

除了運行以上配置,可以利用 OpenVINO 在 CPU 上輕松實現(xiàn) vLLM 對大語言模型推理加速外,也可以利用如下配置在英特爾集成顯卡和獨立顯卡等 GPU 設(shè)備上獲取 vLLM 對大語言模型推理加速。

export VLLM_OPENVINO_DEVICE=GPU 
export VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS=ON

05結(jié)論

通過在 vLLM 中集成 OpenVINO 優(yōu)化,用戶能夠顯著提升大語言模型的推理效率,減少延遲并提高資源利用率。簡單的配置步驟即可實現(xiàn)推理加速,使得在阿里云等平臺上大規(guī)模并發(fā)請求的處理變得更加高效和經(jīng)濟。OpenVINO 的優(yōu)化讓用戶在保持高性能的同時降低部署成本,為 AI 模型的實時應用和擴展提供了強有力的支持。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英特爾
    +關(guān)注

    關(guān)注

    61

    文章

    10190

    瀏覽量

    174367
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3096

    瀏覽量

    3989
  • OpenVINO
    +關(guān)注

    關(guān)注

    0

    文章

    114

    瀏覽量

    452

原文標題:開發(fā)者實戰(zhàn)|一步安裝,一步配置:用 vLLM + OpenVINO? 輕松加速大語言模型推理

文章出處:【微信號:英特爾物聯(lián)網(wǎng),微信公眾號:英特爾物聯(lián)網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    在openEuler上基于vLLM Ascend部署Qwen3

    近日,阿里巴巴正式發(fā)布新一代Qwen大語言模型系列(Qwen3與Qwen3-MoE),在模型規(guī)模與性能上實現(xiàn)多方面升級。openEuler社區(qū)團隊與vLLM社區(qū)通力合作,在第一時間完成
    的頭像 發(fā)表于 05-07 14:44 ?551次閱讀
    在openEuler上基于<b class='flag-5'>vLLM</b> Ascend部署Qwen3

    為什么無法在運行時C++推理中讀取OpenVINO?模型

    使用模型優(yōu)化器 2021.1 版OpenVINO?轉(zhuǎn)換模型 使用 Runtime 2022.3 版本在 C++ 推理實現(xiàn) ( core.read_model()) 中讀取
    發(fā)表于 03-05 06:17

    使用OpenVINO?進行推理時的內(nèi)存泄漏怎么解決?

    使用 OpenVINO? 進行推理時,內(nèi)存會隨著時間的推移而增加,并導致程序崩潰。
    發(fā)表于 03-06 08:29

    壓縮模型加速推理嗎?

    位壓縮和“無”配置下都運行了 115 毫秒,盡管精度有所下降。我認為將 float 網(wǎng)絡(luò)參數(shù)壓縮為 uint8_t 不僅可以節(jié)省內(nèi)存,還可以加快推理速度。那么,壓縮模型是否應該加速推理
    發(fā)表于 01-29 06:24

    在AI愛克斯開發(fā)板上用OpenVINO?加速YOLOv8目標檢測模型

    《在 AI 愛克斯開發(fā)板上用 OpenVINO 加速 YOLOv8 分類模型》介紹了在 AI 愛克斯開發(fā)板上使用 OpenVINO 開發(fā)套件部署并測評 YOLOv8 的分類
    的頭像 發(fā)表于 05-12 09:08 ?1751次閱讀
    在AI愛克斯開發(fā)板上用<b class='flag-5'>OpenVINO</b>?<b class='flag-5'>加速</b>YOLOv8目標檢測<b class='flag-5'>模型</b>

    AI愛克斯開發(fā)板上使用OpenVINO加速YOLOv8目標檢測模型

    《在AI愛克斯開發(fā)板上用OpenVINO加速YOLOv8分類模型》介紹了在AI愛克斯開發(fā)板上使用OpenVINO 開發(fā)套件部署并測評YOLOv8的分類
    的頭像 發(fā)表于 05-26 11:03 ?1770次閱讀
    AI愛克斯開發(fā)板上使用<b class='flag-5'>OpenVINO</b><b class='flag-5'>加速</b>YOLOv8目標檢測<b class='flag-5'>模型</b>

    如何將Pytorch自訓練模型變成OpenVINO IR模型形式

    本文章將依次介紹如何將Pytorch自訓練模型經(jīng)過一系列變換變成OpenVINO IR模型形式,而后使用OpenVINO Python API 對IR
    的頭像 發(fā)表于 06-07 09:31 ?2566次閱讀
    如何將Pytorch自訓練<b class='flag-5'>模型</b>變成<b class='flag-5'>OpenVINO</b> IR<b class='flag-5'>模型</b>形式

    主流大模型推理框架盤點解析

    vLLM是一個開源的大模型推理加速框架,通過PagedAttention高效地管理attention中緩存的張量,實現(xiàn)了比HuggingFace Transformers高14-24倍
    發(fā)表于 10-10 15:09 ?6694次閱讀
    主流大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>框架盤點解析

    基于OpenVINO Python API部署RT-DETR模型

    平臺實現(xiàn) OpenVINO 部署 RT-DETR 模型實現(xiàn)深度學習推理加速, 在本文中,我們將首先介紹基于 OpenVINO Python
    的頭像 發(fā)表于 10-20 11:15 ?1593次閱讀
    基于<b class='flag-5'>OpenVINO</b> Python API部署RT-DETR<b class='flag-5'>模型</b>

    如何加速語言模型推理

    的主要挑戰(zhàn)。本文將從多個維度深入探討如何加速語言模型推理過程,以期為相關(guān)領(lǐng)域的研究者和開發(fā)者提供參考。
    的頭像 發(fā)表于 07-04 17:32 ?1006次閱讀

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當前人工智能領(lǐng)域的一個研究熱點,旨在提高模型在處理復雜任務
    的頭像 發(fā)表于 07-24 11:38 ?1740次閱讀

    使用OpenVINO C++在哪吒開發(fā)板上推理Transformer模型

    OpenVINO 是一個開源工具套件,用于對深度學習模型進行優(yōu)化并在云端、邊緣進行部署。它能在諸如生成式人工智能、視頻、音頻以及語言等各類應用場景中加快深度學習推理的速度,且支持來自
    的頭像 發(fā)表于 10-12 09:55 ?964次閱讀
    使用<b class='flag-5'>OpenVINO</b> C++在哪吒開發(fā)板上<b class='flag-5'>推理</b>Transformer<b class='flag-5'>模型</b>

    FPGA和ASIC在大模型推理加速中的應用

    隨著現(xiàn)在AI的快速發(fā)展,使用FPGA和ASIC進行推理加速的研究也越來越多,從目前的市場來說,有些公司已經(jīng)有了專門做推理的ASIC,像Groq的LPU,專門針對大語言
    的頭像 發(fā)表于 10-29 14:12 ?1917次閱讀
    FPGA和ASIC在大<b class='flag-5'>模型</b><b class='flag-5'>推理</b><b class='flag-5'>加速</b>中的應用

    vLLM項目加入PyTorch生態(tài)系統(tǒng),引領(lǐng)LLM推理新紀元

    。 vLLM項目概述 vLLM的成就與實際應用 支持流行模型 安裝與使用vLLM 總結(jié) 一,vLLM項目概述
    的頭像 發(fā)表于 12-18 17:06 ?780次閱讀
    <b class='flag-5'>vLLM</b>項目加入PyTorch生態(tài)系統(tǒng),引領(lǐng)LLM<b class='flag-5'>推理</b>新紀元

    如何在Ollama中使用OpenVINO后端

    Ollama 和 OpenVINO 的結(jié)合為大型語言模型(LLM)的管理和推理提供了強大的雙引擎驅(qū)動。Ollama 提供了極簡的模型管理工具
    的頭像 發(fā)表于 04-14 10:22 ?416次閱讀