99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

vLLM項(xiàng)目加入PyTorch生態(tài)系統(tǒng),引領(lǐng)LLM推理新紀(jì)元

jf_23871869 ? 來源:jf_23871869 ? 作者:jf_23871869 ? 2024-12-18 17:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,vLLM項(xiàng)目宣布正式成為PyTorch生態(tài)系統(tǒng)的一部分,標(biāo)志著該項(xiàng)目與PyTorch的合作進(jìn)入了一個(gè)全新的階段。本文將從以下幾個(gè)方面進(jìn)行介紹,特別提醒:安裝方案在第四個(gè)部分,可選擇性閱讀。

vLLM項(xiàng)目概述

vLLM的成就與實(shí)際應(yīng)用

支持流行模型

安裝與使用vLLM

總結(jié)

一,vLLM項(xiàng)目概述

vLLM是一個(gè)為大型語言模型(LLMs)設(shè)計(jì)的高吞吐量、內(nèi)存高效的推理和服務(wù)引擎。該項(xiàng)目最初基于創(chuàng)新的PagedAttention算法構(gòu)建,如今已經(jīng)發(fā)展成為一個(gè)全面的、最先進(jìn)的推理引擎。vLLM社區(qū)不斷為其添加新功能和優(yōu)化,包括流水線并行處理、分塊預(yù)填充、推測性解碼和分離服務(wù)。

wKgZPGdikGaARrC8AAMapEZDw_Y377.png

二,vLLM的成就與實(shí)際應(yīng)用

自發(fā)布以來,vLLM獲得了超過31,000個(gè)GitHub星標(biāo),這一成就證明了其受歡迎程度和社區(qū)的活力。vLLM與PyTorch的深度集成,使其能夠支持包括NVIDIA GPU、AMD GPU、Google Cloud TPU在內(nèi)的多種硬件后端,確保了跨平臺的兼容性和性能優(yōu)化。

在今年的亞馬遜Prime Day,vLLM在向數(shù)百萬用戶提供快速響應(yīng)中發(fā)揮了關(guān)鍵作用。它在三個(gè)區(qū)域的80,000個(gè)Trainium和Inferentia芯片上,每分鐘處理了300萬個(gè)令牌,同時(shí)保持了P99延遲在1秒以內(nèi)的首次響應(yīng)。這意味著,當(dāng)客戶與亞馬遜應(yīng)用中的Rufus聊天時(shí),他們實(shí)際上是在與vLLM互動(dòng)。

三,支持流行模型

vLLM與領(lǐng)先的模型供應(yīng)商緊密合作,支持包括Meta LLAMA、Mistral、QWen和DeepSeek在內(nèi)的流行模型。特別值得一提的是,vLLM作為首發(fā)合作伙伴,首次啟用了LLAMA 3.1(405B)模型,展示了其處理復(fù)雜和資源密集型語言模型的能力。

wKgZPGdikH2APXfvAAAutVrtNXY766.png

四,安裝與使用vLLM

安裝vLLM非常簡單,用戶只需在命令行中運(yùn)行:

pip install vllm

vLLM既可以作為OpenAI API兼容服務(wù)器運(yùn)行,也可以作為一個(gè)簡單的函數(shù)使用。以下是如何使用vLLM生成文本的示例代碼:

vllm serve meta-llama/Llama-3.1-8B

將vLLM作為簡單函數(shù)運(yùn)行:

from vllm import LLM, SamplingParams

五,總結(jié)

隨著vLLM的加入,PyTorch生態(tài)系統(tǒng)更加強(qiáng)大,為LLM服務(wù)帶來了便捷和高效。期待vLLM在未來解鎖更多創(chuàng)新,推動(dòng)AI技術(shù)的普及和發(fā)展

如果你有更好的文章,歡迎投稿!

稿件接收郵箱:nami.liu@pasuntech.com

更多精彩內(nèi)容請關(guān)注“算力魔方?”!

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 英特爾
    +關(guān)注

    關(guān)注

    61

    文章

    10197

    瀏覽量

    174762
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    809

    瀏覽量

    13978
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    325

    瀏覽量

    852
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?686次閱讀

    詳解 LLM 推理模型的現(xiàn)狀

    2025年,如何提升大型語言模型(LLM)的推理能力成了最熱門的話題之一,大量優(yōu)化推理能力的新策略開始出現(xiàn),包括擴(kuò)展推理時(shí)間計(jì)算、運(yùn)用強(qiáng)化學(xué)習(xí)、開展監(jiān)督微調(diào)和進(jìn)行提煉等。本文將深入探討
    的頭像 發(fā)表于 04-03 12:09 ?519次閱讀
    詳解 <b class='flag-5'>LLM</b> <b class='flag-5'>推理</b>模型的現(xiàn)狀

    深藍(lán)汽車攜手華為開創(chuàng)全民智駕新紀(jì)元

    2月9日,深藍(lán)汽車與華為在重慶正式簽署全面深化業(yè)務(wù)合作協(xié)議。作為普及全民智駕的長期戰(zhàn)略合作伙伴,雙方宣布將全面推動(dòng)智能網(wǎng)聯(lián)汽車領(lǐng)域的合作,共同研發(fā)前沿技術(shù),開創(chuàng)全民智駕新紀(jì)元,加速推動(dòng)智駕平權(quán),引領(lǐng)中國智能網(wǎng)聯(lián)汽車產(chǎn)業(yè)的未來。
    的頭像 發(fā)表于 02-10 10:28 ?549次閱讀

    如何在光子學(xué)中利用電子生態(tài)系統(tǒng)

    本文介紹了如何在光子學(xué)中利用電子生態(tài)系統(tǒng)。 這一目標(biāo)要求光子學(xué)制造利用現(xiàn)有的電子制造工藝和生態(tài)系統(tǒng)。光子學(xué)必須采用無晶圓廠模型、可以在焊接步驟中幸存下來的芯片以及電子封裝和組裝方法。 ? 無晶圓廠
    的頭像 發(fā)表于 02-10 10:24 ?562次閱讀
    如何在光子學(xué)中利用電子<b class='flag-5'>生態(tài)系統(tǒng)</b>

    安森美PRISM生態(tài)系統(tǒng)助力相機(jī)開發(fā)

    安森美(onsemi)開發(fā)了一個(gè)高級圖像傳感器模塊參考設(shè)計(jì) (Premier Reference Image Sensor Module,PRISM) 生態(tài)系統(tǒng),大大縮短了原型開發(fā)周期,進(jìn)一步減輕了工程負(fù)擔(dān),提高了相機(jī)質(zhì)量,并最終幫助我們的客戶實(shí)現(xiàn)產(chǎn)品快速上市。
    的頭像 發(fā)表于 02-06 10:32 ?480次閱讀
    安森美PRISM<b class='flag-5'>生態(tài)系統(tǒng)</b>助力相機(jī)開發(fā)

    英監(jiān)管機(jī)構(gòu)或優(yōu)先調(diào)查蘋果谷歌移動(dòng)生態(tài)系統(tǒng)

    近日,英國競爭與市場管理局(CMA)發(fā)布了一項(xiàng)重要聲明,引起了廣泛關(guān)注。該聲明指出,CMA正考慮根據(jù)將于明年生效的數(shù)字市場競爭新規(guī),優(yōu)先對蘋果和谷歌的移動(dòng)生態(tài)系統(tǒng)活動(dòng)展開調(diào)查。 據(jù)悉,這一決定
    的頭像 發(fā)表于 02-05 13:46 ?468次閱讀

    英國CMA將對蘋果谷歌移動(dòng)生態(tài)系統(tǒng)展開調(diào)查

    近日,英國競爭與市場管理局(CMA)宣布了一項(xiàng)重大決定,將對蘋果和谷歌的移動(dòng)生態(tài)系統(tǒng)進(jìn)行深入調(diào)查。此次調(diào)查旨在評估這兩家科技巨頭是否違反了英國最新制定的嚴(yán)格數(shù)字競爭規(guī)則,以確保市場的公平性和透明度
    的頭像 發(fā)表于 01-24 14:04 ?560次閱讀

    笙泉完善的MCU生態(tài)系統(tǒng)(ECO System),賦能高效開發(fā)、提升競爭優(yōu)勢

    本帖最后由 noctor 于 2024-12-27 10:46 編輯 笙泉完善的MCU生態(tài)系統(tǒng)(ECO System),賦能高效開發(fā)、提升競爭優(yōu)勢 完善的生態(tài)系統(tǒng) 笙泉科技已深耕MCU
    發(fā)表于 12-27 09:58

    Arm KleidiAI助力提升PyTorchLLM推理性能

    生成式人工智能 (AI) 正在科技領(lǐng)域發(fā)揮關(guān)鍵作用,許多企業(yè)已經(jīng)開始將大語言模型 (LLM) 集成到云端和邊緣側(cè)的應(yīng)用中。生成式 AI 的引入也使得許多框架和庫得以發(fā)展。其中,PyTorch 作為
    的頭像 發(fā)表于 12-03 17:05 ?1495次閱讀
    Arm KleidiAI助力提升<b class='flag-5'>PyTorch</b>上<b class='flag-5'>LLM</b><b class='flag-5'>推理</b>性能

    對三星而言開放生態(tài)系統(tǒng)是什么

    在過去的五年里,三星投入了大量精力來建立團(tuán)隊(duì)、文化和流程,成為開放生態(tài)系統(tǒng)的積極貢獻(xiàn)者。那么,為什么一家硬件公司會進(jìn)行這樣的投資?其價(jià)值何在?我們?nèi)绾螌⒂布町惢c開源和標(biāo)準(zhǔn)結(jié)合起來?
    的頭像 發(fā)表于 11-13 15:58 ?853次閱讀

    英特爾和AMD組建x86生態(tài)系統(tǒng)咨詢小組

    在聯(lián)想2024 Tech World大會上,英特爾CEO帕特·基辛格宣布了一項(xiàng)重大合作:英特爾與AMD將共同組建X86生態(tài)系統(tǒng)咨詢小組。
    的頭像 發(fā)表于 10-16 16:34 ?669次閱讀

    倒計(jì)時(shí)1天 | 第三屆OpenHarmony技術(shù)大會——明天,上海見!

    技術(shù)引領(lǐng)生態(tài),萬物智聯(lián)創(chuàng)未來 OpenHarmony 開源生態(tài) 繁榮于各方共建,又賦能于千行百業(yè) 開創(chuàng)了萬物智聯(lián)的新紀(jì)元,開源盛事,亦是開源盛世!
    發(fā)表于 10-11 23:29

    跨越地理限制:動(dòng)態(tài)海外住宅IP技術(shù)引領(lǐng)全球化網(wǎng)絡(luò)新紀(jì)元

    跨越地理限制:動(dòng)態(tài)海外住宅IP技術(shù)引領(lǐng)全球化網(wǎng)絡(luò)新紀(jì)元這一主題,凸顯了動(dòng)態(tài)海外住宅IP技術(shù)在全球化網(wǎng)絡(luò)環(huán)境中的重要作用。
    的頭像 發(fā)表于 09-27 08:30 ?578次閱讀

    能耗管理系統(tǒng)新紀(jì)元:智能科技引領(lǐng)綠色生活風(fēng)尚

    能耗管理系統(tǒng)新紀(jì)元:智能科技引領(lǐng)綠色生活風(fēng)尚 在科技日新月異的今天,我們的生活正經(jīng)歷著前所未有的變革,而能耗管理系統(tǒng)作為連接環(huán)保與可持續(xù)發(fā)展的橋梁,正步入一個(gè)由智能科技
    的頭像 發(fā)表于 08-15 18:17 ?814次閱讀

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)時(shí)的效率和響應(yīng)速度。以下是對LLM大模型推理加速關(guān)鍵技術(shù)的詳細(xì)探討,內(nèi)容將涵蓋模型壓縮、
    的頭像 發(fā)表于 07-24 11:38 ?1834次閱讀