高清无毒免费成人a√网站,夜夜填无码一区二区三区 ,深夜视频高潮在线观看

作者：

武卓博士英特爾 OpenVINO 布道師

隨著大語言模型的廣泛應用，模型的計算需求大幅提升，帶來推理時延高、資源消耗大等挑戰(zhàn)。vLLM 作為高效的大模型推理框架，通過 OpenVINO 的優(yōu)化，vLLM 用戶不僅能夠更高效地部署大模型，還能提升吞吐量和處理能力，從而在成本、性能和易用性上獲得最佳平衡。這種優(yōu)化對于需要快速響應和節(jié)省資源的云端或邊緣推理應用尤為重要。目前，OpenVINO 最新版本 OpenVINO 2024.4 中已經(jīng)支持與 vLLM 框架的集成，只需要一步安裝，一步配置，就能夠以零代碼修改的方式，將 OpenVINO 作為推理后端，在運行 vLLM 對大語言模型的推理時獲得推理加速。

01vLLM 簡介

vLLM 是由加州大學伯克利分校開發(fā)的開源框架，專門用于高效實現(xiàn)大語言模型（LLMs）的推理和部署。它具有以下優(yōu)勢：

高性能：相比 HuggingFace Transformers 庫，vLLM 能提升多達24倍的吞吐量。

易于使用：無需對模型架構(gòu)進行任何修改即可實現(xiàn)高性能推理。

低成本：vLLM 的出現(xiàn)使得大模型的部署更加經(jīng)濟實惠。

02一步安裝：搭建 vLLM+OpenVINO 阿里云ECS開發(fā)環(huán)境

下面我們以在阿里云的免費云服務器 ECS 上運行通義千問 Qwen2.5 模型為例，詳細介紹如何通過簡單的兩步，輕松實現(xiàn) OpenVINO 對 vLLM 大語言模型推理服務的加速。

在阿里云上申請免費的云服務器 ECS 資源，并選擇 Ubuntu22.04 作為操作系統(tǒng)。

接著進行遠程連接后，登錄到終端操作界面。

請按照以下步驟配置開發(fā)環(huán)境：

1. 更新系統(tǒng)并安裝 Python 3 及虛擬環(huán)境：

sudo apt-get update -y
sudo apt-get install python3 python3.10-venv -y

2. 建立并激活 Python 虛擬環(huán)境：

python3 -m venv vllm_env
source vllm_env/bin/activate

3. 克隆 vLLM 代碼倉庫并安裝依賴項：

git clone https://github.com/vllm-project/vllm.git
cd vllm
pip install --upgrade 
pippip install -r requirements-build.txt --extra-index-url https://download.pytorch.org/whl/cpu

4. 安裝 vLLM 的 OpenVINO 后端：

PIP_EXTRA_INDEX_URL="https://download.pytorch.org/whl/cpu" VLLM_TARGET_DEVICE=openvino python -m pip install -v .

至此，環(huán)境搭建完畢。

03魔搭社區(qū)大語言模型下載

接下來，去魔搭社區(qū)下載最新的通義千問2.5系列大語言模型，這里以 Qwen2.5-0.5B-Instruct 模型的下載為例。

模型下載地址為：

https://www.modelscope.cn/models/Qwen/Qwen2.5-0.5B-Instruct

魔搭社區(qū)為開發(fā)者提供了多種模型下載的方式，這里我們以“命令行下載“方式為例。

首先用以下命令安裝 modelscope：

pip install modelscope

接著運行以下命令完成模型下載：

modelscope download --model Qwen/Qwen2.5-0.5B-Instruct

下載后的模型，默認存放在以下路徑中：

/root/.cache/modelscope/hub/Qwen/Qwen2___5-0___5B-Instruct

本次運行的推理腳本，我們以 vllm 倉庫中 examples 文件夾中的 offline_inference.py 推理腳本為例。由于 vLLM 默認的腳本是從 Hugging Face 平臺上直接下載模型，而由于網(wǎng)絡(luò)連接限制無法從該平臺直接下載模型，因此我們采用上面的方式將模型從魔搭社區(qū)中下載下來，接下來使用以下命令，修改腳本中第14行，將原腳本中的模型名稱“"facebook/opt-125m"”替換為下載后存放Qwen2.5模型的文件夾路徑”

/root/.cache/modelscope/hub/Qwen/Qwen2___5-0___5B-Instruct“即可，效果如下圖所示。

04一步配置：配置并運行推理腳本

接下來，在運行推理腳本，完成 LLMs 推理之前，我們再針對 OpenVINO 作為推理后端，進行一些優(yōu)化的配置。使用如下命令進行配置：

export VLLM_OPENVINO_KVCACHE_SPACE=1 
export VLLM_OPENVINO_CPU_KV_CACHE_PRECISION=u8 
export VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS=ON

VLLM_OPENVINO_KVCACHE_SPACE：用于指定鍵值緩存（KV Cache）的大?。ɡ纾琕LLM_OPENVINO_KVCACHE_SPACE=100 表示為 KV 緩存分配 100 GB 空間）。較大的設(shè)置可以讓 vLLM 支持更多并發(fā)請求。由于本文運行在阿里云的免費 ECS 上空間有限，因此本次示例中我們將該值設(shè)置為1。實際使用中，該參數(shù)應根據(jù)用戶的硬件配置和內(nèi)存管理方式進行設(shè)置。

VLLM_OPENVINO_CPU_KV_CACHE_PRECISION=u8：用于控制 KV 緩存的精度。默認情況下，會根據(jù)平臺選擇使用 FP16 或 BF16 精度。

VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS：用于啟用模型加載階段的 U8 權(quán)重壓縮。默認情況下，權(quán)重壓縮是關(guān)閉的。通過設(shè)置 VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS=ON 來開啟權(quán)重壓縮。

為了優(yōu)化 TPOT（Token Processing Over Time）和 TTFT（Time To First Token）性能，可以使用 vLLM 的分塊預填充功能（--enable-chunked-prefill）。根據(jù)實驗結(jié)果，推薦的批處理大小為 256（--max-num-batched-tokens=256）。

最后，讓我們來看看 vLLM 使用 OpenVINO 后端運行大語言模型推理的效果，運行命令如下：

python offline_inference.py

除了運行以上配置，可以利用 OpenVINO 在 CPU 上輕松實現(xiàn) vLLM 對大語言模型推理加速外，也可以利用如下配置在英特爾集成顯卡和獨立顯卡等 GPU 設(shè)備上獲取 vLLM 對大語言模型推理加速。

export VLLM_OPENVINO_DEVICE=GPU 
export VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS=ON

05結(jié)論

通過在 vLLM 中集成 OpenVINO 優(yōu)化，用戶能夠顯著提升大語言模型的推理效率，減少延遲并提高資源利用率。簡單的配置步驟即可實現(xiàn)推理加速，使得在阿里云等平臺上大規(guī)模并發(fā)請求的處理變得更加高效和經(jīng)濟。OpenVINO 的優(yōu)化讓用戶在保持高性能的同時降低部署成本，為 AI 模型的實時應用和擴展提供了強有力的支持。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴