99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2024-08-23 15:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

“魔搭社區(qū)是中國最具影響力的模型開源社區(qū),致力給開發(fā)者提供模型即服務(wù)的體驗(yàn)。魔搭社區(qū)利用NVIDIA TensorRT-LLM,大大提高了大語言模型的推理性能,方便了模型應(yīng)用部署,提高了大模型產(chǎn)業(yè)應(yīng)用效率,更大規(guī)模地釋放大模型的應(yīng)用價值?!?/p>

——周文猛,魔搭社區(qū)技術(shù)負(fù)責(zé)人,阿里巴巴通義實(shí)驗(yàn)室技術(shù)總監(jiān)

魔搭上線 NVIDIA TensorRT-LLM

支持開源LLM 推理加速

魔搭社區(qū)于 2022 年 11 月初創(chuàng)建,首次在業(yè)界提出了 “模型即服務(wù)” (MaaS, Model as a Service) 的理念。在過去一年半的時間里,MaaS 這一理念不僅實(shí)現(xiàn)了技術(shù)落地,也被行業(yè)廣泛接納,并成為繼 IaaS、PaaS、SaaS 服務(wù)的又一新的技術(shù)范式。

2023 年 7 月,Meta 宣布開源 Llama 2 模型,改變了整個大語言模型 (LLM) 行業(yè)的競爭格局。通過繁榮的開源生態(tài),大語言模型迎來了群策群力的技術(shù)迭代和突破。

國內(nèi)外優(yōu)秀的大語言模型,如 ChatGLM、零一萬物、書生·浦語系列、通義千問等,都將魔搭社區(qū)作為開源模型首發(fā)平臺。魔搭社區(qū)成為了大模型發(fā)展的技術(shù)風(fēng)向標(biāo),在中國的開發(fā)者群體中,形成了廣泛的 “找模型,用模型,上魔搭社區(qū)” 的觀念認(rèn)同,從而建成了中國最大開源模型社區(qū)。

魔搭社區(qū)現(xiàn)在上線了 NVIDIA TensorRT-LLM,TensorRT-LLM 提供了易于使用的應(yīng)用程序編程接口 (API),以定義和運(yùn)行大語言模型,支持社區(qū)上的各類開源大語言模型 (LLM) 的推理加速。開發(fā)者僅通過簡短幾行代碼即可將優(yōu)化的模型部署到 GPU 上。

目前 NVIDIA TensorRT-LLM 在魔搭社區(qū)上已支持的模型類型和推理精度,幾乎涵蓋了所有主流的大語言/多模態(tài)模型以及常用的量化方法,包括 FP32、FP16、BF16、INT8 和 INT4,適用于不同的環(huán)境。

LLM 推理面臨的挑戰(zhàn)

計(jì)算資源消耗巨大:開源大語言模型參數(shù)規(guī)模越來越大,比如 Qwen1.5-110B 參數(shù)規(guī)模高達(dá)千億級,對計(jì)算資源的需求龐大。在沒有優(yōu)化的情況下直接部署,不僅成本高昂,而且對硬件要求高。

推理延遲高:大語言模型的推理時間長,尤其是在實(shí)時交互式應(yīng)用中,如聊天機(jī)器人、語音助手等,高延遲會嚴(yán)重影響用戶體驗(yàn)。

能效比低:計(jì)算密集型工作流意味著更高的能耗,這對于追求綠色計(jì)算和可持續(xù)發(fā)展的現(xiàn)代數(shù)據(jù)中心而言是一個重要問題。

部署復(fù)雜度高:模型優(yōu)化、適配不同硬件平臺、以及持續(xù)維護(hù)升級等都是挑戰(zhàn),尤其對于非專業(yè)用戶來說,部署一個高性能的語言模型服務(wù)并不容易。

NVIDIA TensorRT-LLM

如何提升 LLM 推理效率

極致性能優(yōu)化:NVIDIA TensorRT-LLM 是基于 NVIDIA TensorRT API 生態(tài)系統(tǒng)構(gòu)建的,專為大規(guī)模語言模型優(yōu)化的推理引擎。它利用 GPU 的強(qiáng)大并行計(jì)算能力,通過算法優(yōu)化、層融合、量化等技術(shù)顯著減少模型推理所需的計(jì)算量和內(nèi)存占用,從而提升推理速度,降低延遲。

高效率與低功耗:通過精心設(shè)計(jì)的優(yōu)化策略,TensorRT-LLM 能夠在不犧牲模型精度的前提下,大幅提高能效比,這對于數(shù)據(jù)中心的成本控制和環(huán)境友好至關(guān)重要。

簡化部署流程:提供一鍵式的模型優(yōu)化與部署工具,簡化了從訓(xùn)練到推理的整個流程。即便是復(fù)雜的模型結(jié)構(gòu),開發(fā)者也能輕松地將其部署到 GPU 上,大大降低了技術(shù)門檻,加速了產(chǎn)品上市時間。

廣泛兼容性與可擴(kuò)展性:支持魔搭社區(qū)的多種主流的深度學(xué)習(xí)框架和開源模型架構(gòu),如 Transformer 系列模型。TensorRT-LLM 設(shè)計(jì)靈活,便于未來適應(yīng)更多先進(jìn)的模型技術(shù)和算法創(chuàng)新的更新,保持技術(shù)領(lǐng)先性。

在 NVIDIA TensorRT-LLM 和NVIDIA Triton 推理服務(wù)器的加持下,魔搭社區(qū)正在為開發(fā)者提供更為全面、高效、快捷的模型推理部署方案。未來,魔搭社區(qū)計(jì)劃將在生成式 AI 的模型和軟件加速庫層面,與 NVIDIA 相關(guān)團(tuán)隊(duì)繼續(xù)開展合作,推動大語言模型的廣泛應(yīng)用和落地。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5309

    瀏覽量

    106477
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3522

    瀏覽量

    50452
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    325

    瀏覽量

    854

原文標(biāo)題:魔搭社區(qū)利用 NVIDIA TensorRT-LLM 加速開源大語言模型推理

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何在社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)
    的頭像 發(fā)表于 07-04 14:38 ?687次閱讀

    NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場景中的性能紀(jì)錄

    本文將探討 NVIDIA TensorRT-LLM 如何基于 8 個 NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延遲場景中的性能紀(jì)錄:在 GTC 2025
    的頭像 發(fā)表于 07-02 19:31 ?1947次閱讀
    <b class='flag-5'>NVIDIA</b> Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場景中的性能紀(jì)錄

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理
    的頭像 發(fā)表于 06-12 15:37 ?627次閱讀
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT-LLM</b>部署TTS應(yīng)用的最佳實(shí)踐

    詳解 LLM 推理模型的現(xiàn)狀

    2025年,如何提升大型語言模型(LLM)的推理能力成了最熱門的話題之一,大量優(yōu)化推理能力的新策略開始出現(xiàn),包括擴(kuò)展推理時間計(jì)算、運(yùn)用強(qiáng)化學(xué)
    的頭像 發(fā)表于 04-03 12:09 ?520次閱讀
    詳解 <b class='flag-5'>LLM</b> <b class='flag-5'>推理</b>模型的現(xiàn)狀

    新品 | Module LLM Kit,離線大語言模型推理模塊套裝

    推理與數(shù)據(jù)交互需求。ModuleLLM是一款集成化的離線大語言模型(LLM)推理模塊,專為需要高效、智能交互的終端設(shè)備設(shè)計(jì)。Module13.2LLMMate模塊
    的頭像 發(fā)表于 03-28 18:49 ?394次閱讀
    新品 | Module <b class='flag-5'>LLM</b> Kit,離線大語言模型<b class='flag-5'>推理</b>模塊套裝

    新品| LLM630 Compute Kit,AI 大語言模型推理開發(fā)平臺

    LLM630LLM推理,視覺識別,可開發(fā),靈活擴(kuò)展···LLM630ComputeKit是一款A(yù)I大語言模型推理開發(fā)平臺,專為邊緣計(jì)算和智能交互應(yīng)用而設(shè)計(jì)。該套件的主板搭載愛芯AX63
    的頭像 發(fā)表于 01-17 18:48 ?705次閱讀
    新品| <b class='flag-5'>LLM</b>630 Compute Kit,AI 大語言模型<b class='flag-5'>推理</b>開發(fā)平臺

    京東廣告生成式召回基于 NVIDIA TensorRT-LLM推理加速實(shí)踐

    、個性化召回、深度召回等),以召回大量候選商品。隨后,系統(tǒng)通過相對簡單的粗排模型對候選集進(jìn)行初步篩選,縮小候選范圍,最后通過精排和重排模型,確定最終返回給用戶的推薦結(jié)果。 隨著大語言模型(LLM)在推薦系統(tǒng)中的應(yīng)用,生成
    的頭像 發(fā)表于 01-14 15:17 ?558次閱讀

    NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

    Recurrent Drafting (簡稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發(fā)并開源的一種新型推測解碼技術(shù),該技術(shù)現(xiàn)在可與 NVIDIA TensorRT-L
    的頭像 發(fā)表于 12-25 17:31 ?767次閱讀
    在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT-LLM</b>中啟用ReDrafter的一些變化

    解鎖NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一個專為優(yōu)化大語言模型 (LLM) 推理而設(shè)計(jì)的庫。它提供了多種先進(jìn)的優(yōu)化技術(shù),包括自定義 Attention Kernel、Inflight
    的頭像 發(fā)表于 12-17 17:47 ?881次閱讀

    NVIDIA TensorRT-LLM Roadmap現(xiàn)已在GitHub上公開發(fā)布

    感謝眾多用戶及合作伙伴一直以來對NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 現(xiàn)已在 GitHub 上公開發(fā)布!
    的頭像 發(fā)表于 11-28 10:43 ?729次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT-LLM</b> Roadmap現(xiàn)已在GitHub上公開發(fā)布

    什么是LLMLLM在自然語言處理中的應(yīng)用

    所未有的精度和效率處理和生成自然語言。 LLM的基本原理 LLM基于深度學(xué)習(xí)技術(shù),尤其是變換器(Transformer)架構(gòu)。變換器模型因其自注意力(Self-Attention)機(jī)制而聞名,這種機(jī)制使得模型能夠捕捉文本中的長距
    的頭像 發(fā)表于 11-19 15:32 ?3673次閱讀

    TensorRT-LLM低精度推理優(yōu)化

    本文將分享 TensorRT-LLM 中低精度量化內(nèi)容,并從精度和速度角度對比 FP8 與 INT8。首先介紹性能,包括速度和精度。其次,介紹量化工具 NVIDIA TensorRT Model
    的頭像 發(fā)表于 11-19 14:29 ?1293次閱讀
    <b class='flag-5'>TensorRT-LLM</b>低精度<b class='flag-5'>推理</b>優(yōu)化

    LLM技術(shù)對人工智能發(fā)展的影響

    。 一、LLM技術(shù)在人工智能領(lǐng)域的應(yīng)用 自然語言處理(NLP) LLM技術(shù)在自然語言處理領(lǐng)域發(fā)揮著重要作用。通過訓(xùn)練模型識別和生成語言模式,LLM技術(shù)使得機(jī)器能夠執(zhí)行語言翻譯、情感分析、文本摘要等任務(wù),極大地提高了語言處理的準(zhǔn)確
    的頭像 發(fā)表于 11-08 09:28 ?1867次閱讀

    NVIDIA Nemotron-4 340B模型幫助開發(fā)者生成合成訓(xùn)練數(shù)據(jù)

    Nemotron-4 340B 是針對 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 優(yōu)化的模型系列,該系列包含最先進(jìn)的指導(dǎo)和獎勵模型,以及一個用于生成式 AI 訓(xùn)練的數(shù)據(jù)集。
    的頭像 發(fā)表于 09-06 14:59 ?740次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron-4 340B模型幫助開發(fā)者生成合成訓(xùn)練數(shù)據(jù)

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)時的效率和響應(yīng)速度。以下是對LLM大模型推理
    的頭像 發(fā)表于 07-24 11:38 ?1834次閱讀