99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA T4 GPU加速VIVO推薦系統(tǒng)部署

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-05-20 15:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

案例簡介及其應(yīng)用背景

VIVO AI中臺(tái)的最終目的是為2.6億+ VIVO用戶提供極致的智能服務(wù),而NVIDIA則為VIVO推薦系統(tǒng)提供強(qiáng)大的算力支持以實(shí)踐優(yōu)化。

推薦系統(tǒng)的大規(guī)模部署帶來了諸多工程化挑戰(zhàn),借助NVIDIA TensorRT, Triton and MPS (Multi-Process Service) 及單張T4 GPU推理卡,其性能優(yōu)于約6臺(tái)以上的78核CPU服務(wù)器,成本方面也降低75%。

團(tuán)隊(duì)共實(shí)踐和比較了三種不同的工程方案,其中,性價(jià)比最高的“通用GPU方案”充分發(fā)揮了MPS和TensorFlow的性能,開創(chuàng)性地解決了推薦場景的難題,包含:如何滿足頻繁的算法迭代需求,如何開發(fā)不支持的運(yùn)算操作插件,以及如何改善低效的推理服務(wù)性能等。

VIVO AI平臺(tái)致力于建設(shè)完整的人工智能中臺(tái),搭建全面的、行業(yè)領(lǐng)先的大規(guī)模分布式機(jī)器學(xué)習(xí)平臺(tái),應(yīng)用于內(nèi)容推薦、商業(yè)變現(xiàn)、搜索等多種業(yè)務(wù)場景,為2.6億+ VIVO用戶提供極致的智能服務(wù)。

VIVO AI中臺(tái)始終服務(wù)于企業(yè)往智能化深度發(fā)展的需求,在數(shù)據(jù)中臺(tái)基礎(chǔ)上增加了一體化智能服務(wù)的概念。并且立足于數(shù)據(jù)的獲取、存儲(chǔ)、特征處理、分析、模型構(gòu)建、訓(xùn)練、評估等智能服務(wù)相關(guān)的任務(wù)環(huán)節(jié),使其高度組件化、配置化、自動(dòng)化。

pYYBAGKHQvqAeiYGAAC4OnxwTiY315.png

Figure 1. AI中臺(tái)系統(tǒng)架構(gòu)圖 (圖片來源于VIVO研究院授權(quán))

在整個(gè)AI中臺(tái)架構(gòu)中,推薦中臺(tái)則作為最重要的核心,也是最具商業(yè)價(jià)值的部分,不僅需承載VIVO億級用戶,日活千萬的數(shù)據(jù)量也包含在內(nèi)。本文從推薦系統(tǒng)工程化的角度,解讀了以下三方面內(nèi)容:VIVO 的智能推薦系統(tǒng)是如何運(yùn)行的?在實(shí)際應(yīng)用場景中遇到過什么挑戰(zhàn)?NVIDIA GPU如何加速推薦系統(tǒng)的部署?

poYBAGKHQvuAJSBqAAD5cQ8WHoI849.png

Figure 2. 推薦中臺(tái)系統(tǒng)架構(gòu)圖 (圖片來源于VIVO研究院授權(quán))

經(jīng)過驗(yàn)證,本方案可以有效解決推薦業(yè)務(wù)中GPU通用性問題;同時(shí)能更高效的利用GPU。目前已經(jīng)在部分推薦業(yè)務(wù)中落地。經(jīng)過壓測,性能方面,單張T4 GPU推理卡,性能優(yōu)于約6臺(tái)以上的78核CPU服務(wù)器。成本方面,VIVO自研通用GPU方案,在TensorRT方案基礎(chǔ)上,取得了更高的QPS和更低的延遲,可節(jié)省成本約75%!

本案例主要應(yīng)用到 NVIDIA T4 GPU 和相關(guān)工具包括NVIDA TensorRT, Triton, MPS等。

客戶簡介

VIVO是一家以設(shè)計(jì)驅(qū)動(dòng)創(chuàng)造偉大產(chǎn)品,打造以智能終端和智慧服務(wù)為核心的科技公司,也是一家全球性的移動(dòng)互聯(lián)網(wǎng)智能終端公司。致力于為消費(fèi)者打造擁有極致拍照、暢快游戲、Hi-Fi音樂的智能手機(jī)產(chǎn)品。根據(jù)《2020胡潤中國10強(qiáng)消費(fèi)電子企業(yè)》報(bào)告顯示,VIVO以1750億人民幣排名第3位。

客戶挑戰(zhàn)

在工程實(shí)踐中,VIVO推薦系統(tǒng)面臨的第一個(gè)問題是如何平滑的把多種推薦業(yè)務(wù)邏輯從CPU平臺(tái)向GPU平臺(tái)遷移。鑒于當(dāng)前已經(jīng)存在多個(gè)推薦業(yè)務(wù)場景,包括應(yīng)用商店,手機(jī)瀏覽器,負(fù)一屏信息流等。每個(gè)場景都有自己的算法模型和業(yè)務(wù)流程,如何把多種分散的智能服務(wù)整合到一個(gè)統(tǒng)一的推薦中臺(tái),同時(shí)要兼顧當(dāng)前的業(yè)務(wù)的無損遷移是一個(gè)巨大的挑戰(zhàn)。

一直以來,CPU是客戶主要的支撐推薦業(yè)務(wù)場景的主流硬件平臺(tái)。但VIVO工程團(tuán)隊(duì)卻發(fā)現(xiàn)在推理服務(wù)中,CPU的表現(xiàn)始終無法達(dá)到要求標(biāo)準(zhǔn),不僅算力較弱,應(yīng)對復(fù)雜模型時(shí),響應(yīng)延遲和QPS也無法滿足實(shí)時(shí)性和高并發(fā)的需求。

此時(shí),客戶嘗試改用NVIDIA GPU來實(shí)現(xiàn)推薦業(yè)務(wù)的推理服務(wù),有效解決CPU算力和性能的瓶頸的同時(shí),也期待更大的成本優(yōu)勢。經(jīng)過大量的工程實(shí)踐,結(jié)果表明,單臺(tái)基于NVIDIA T4 GPU的推理服務(wù)器,性能可以等同于24臺(tái)CPU機(jī)器。毋庸置疑, GPU的整體表現(xiàn)皆具有性能和成本的優(yōu)勢。據(jù)此,客戶也認(rèn)為使用GPU作為推薦業(yè)務(wù)場景的推理平臺(tái),已成為了公司乃至行業(yè)的共識(shí)。

應(yīng)用方案

由于GPU芯片架構(gòu)的獨(dú)特性,不經(jīng)優(yōu)化的原始TensorFlow模型,很難高效利用GPU的算力。為了解決這個(gè)問題,VIVO工程團(tuán)隊(duì)投入了大量的人力和時(shí)間進(jìn)行推薦模型優(yōu)化及轉(zhuǎn)換。而首先著手設(shè)計(jì)的是TensorRT方案,即是使用NVIDIA推理加速工具TensorRT,結(jié)合 Triton的serving方式,以最大化GPU整體收益。

具體來說,把訓(xùn)練導(dǎo)出的TensorFlow模型經(jīng)過Onnx轉(zhuǎn)換成TensorRT模型,進(jìn)而使用NVIDIA提供的推理服務(wù)框架Triton加載TensorRT模型。業(yè)務(wù)代碼使用VIVO封裝Triton的JNI接口,將業(yè)務(wù)請求輸入TensorRT模型去做推理計(jì)算。

pYYBAGKHQvyAUmP_AADQbgmnO_A133.png

Figure 3. 推薦業(yè)務(wù)流程圖 (圖片來源于VIVO研究院授權(quán))

實(shí)測結(jié)果表明,該方案取得了預(yù)期的線上收益。性能方面,單張T4 GPU推理卡,性能優(yōu)于約6臺(tái)以上的78核CPU服務(wù)器。以如下場景為例,在相同的精排服務(wù)請求:QPS為600,BatchSize為3000時(shí),不同方案的成本,TensorRT方案可節(jié)省成本約14%:

pYYBAGKHQxWATR69AAARdIgpnIk709.png

為了進(jìn)一步提升線上收益,最大化GPU利用率,NVIDIA機(jī)器學(xué)習(xí)團(tuán)隊(duì)配合 VIVO繼續(xù)優(yōu)化現(xiàn)有效果,探索更多的技術(shù)方案可行性。

經(jīng)過深入探討,我們發(fā)現(xiàn)目前的方案(Triton+TensorRT)確實(shí)可以有效利用GPU,但是也存在一些問題。比如很多推薦業(yè)務(wù)場景,算法模型迭代更新頻率高,工程化開發(fā)周期無法滿足頻繁更新的需求。此外,部分推薦模型存在算子不支持的情況,需要手動(dòng)開發(fā)TensorRT plugin,短時(shí)間內(nèi)也無法上線??傮w來說,這樣的開發(fā)流程通用性不夠好,也較難有效的支持算法持續(xù)迭代。

因此,我們迫切需要實(shí)現(xiàn)一套機(jī)制,既要保證GPU的推理性能,更要具備良好的通用性。經(jīng)過多次工程化嘗試,我們針對性提出適合自身的推薦系統(tǒng)推理加速方案,即VIVO自研通用GPU方案。

本方案通過多進(jìn)程 + MPS + TensorFlow runtime的方式,有效的提高了GPU的使用率,且部分場景無需轉(zhuǎn)換TensorRT模型。該方案的主要設(shè)計(jì)目標(biāo)是:

多進(jìn)程模型,管理和守護(hù)模型服務(wù)進(jìn)程,有序的更新模型

添加原生TensorFlow中不支持GPU的算子

加載模型時(shí),動(dòng)態(tài)替換原來的不支持GPU的算子

poYBAGKHQv2AB3yJAABiajyhbFE804.jpg

Figure 4. 自研通用GPU方案示意圖 (圖片來源于VIVO研究院授權(quán))

此外,考慮到具體工程實(shí)踐中,VIVO算法部門和工程部門需要同步開發(fā),如何解耦算法工程團(tuán)隊(duì)和推理加速團(tuán)隊(duì)的開發(fā)任務(wù),因此推出了可配置的推理引擎服務(wù),加速迭代開發(fā)效率。

pYYBAGKHQv6AJKR7AACu12MqDm0472.png

Figure 5. 自研可配置推理引擎示意圖 (圖片來源于VIVO研究院授權(quán))

方案效果及影響

經(jīng)過驗(yàn)證,本方案可以有效解決推薦業(yè)務(wù)中GPU通用性問題;同時(shí)能更高效的利用GPU。目前已經(jīng)在部分推薦業(yè)務(wù)中落地。經(jīng)過壓測,VIVO自研通用GPU方案,在TensorRT方案基礎(chǔ)上,取得了更高的QPS和更低的延遲,可節(jié)省成本約75%!

下表詳細(xì)對比了在相同精排請求:QPS為600,BatchSize為3000時(shí),不同方案的成本。

poYBAGKHQyCAPoPqAAAYisHVhsY125.png

同時(shí),我們測試了負(fù)一屏信息流推薦場景,結(jié)果同樣表明,無論是QPS或是推理延遲(測試選用業(yè)界標(biāo)準(zhǔn)P99/P95指標(biāo)),自研通用GPU方案都優(yōu)于TensorRT方案和CPU方案。

poYBAGKHQyqAaijNAAAeU3sTpq8325.png

展望未來,VIVO推薦系統(tǒng)工程團(tuán)隊(duì)會(huì)繼續(xù)探索新技術(shù),持續(xù)積累 GPU工程經(jīng)驗(yàn),并且沉淀到平臺(tái)中,最終賦能到各個(gè)業(yè)務(wù)線。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11080

    瀏覽量

    217159
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5309

    瀏覽量

    106456
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4949

    瀏覽量

    131286
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?681次閱讀

    借助NVIDIA技術(shù)加速半導(dǎo)體芯片制造

    NVIDIA Blackwell GPU、NVIDIA Grace CPU、高速 NVIDIA NVLink 網(wǎng)絡(luò)架構(gòu)和交換機(jī),以及諸如 NVIDI
    的頭像 發(fā)表于 05-27 13:59 ?443次閱讀

    NVIDIA NVLink 深度解析

    引言 NVIDIA NVLink 是一種關(guān)鍵的高速互連技術(shù),專為加速計(jì)算而設(shè)計(jì),尤其是在多 GPU 系統(tǒng)以及 GPU 和支持 CPU 之間
    的頭像 發(fā)表于 05-06 18:14 ?1646次閱讀

    NVIDIA虛擬GPU 18.0版本的亮點(diǎn)

    NVIDIA 虛擬 GPU(vGPU)技術(shù)可在虛擬桌面基礎(chǔ)設(shè)施(VDI)中解鎖 AI 功能,使其比以往更加強(qiáng)大、用途更加廣泛。vGPU 通過為各種虛擬化環(huán)境中的 AI 驅(qū)動(dòng)工作負(fù)載提供動(dòng)力,提高了
    的頭像 發(fā)表于 04-07 11:28 ?696次閱讀

    使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發(fā)

    NVIDIA GTC 推出新一代專業(yè)級 GPU 和 AI 賦能的開發(fā)者工具—同時(shí),ChatRTX 更新現(xiàn)已支持 NVIDIA NIM,RTX Remix 正式結(jié)束測試階段,本月的 NVIDIA
    的頭像 發(fā)表于 03-28 09:59 ?630次閱讀

    Cognizant將與NVIDIA合作部署神經(jīng)人工智能平臺(tái),加速企業(yè)人工智能應(yīng)用

    -Cognizant將與NVIDIA合作部署神經(jīng)人工智能平臺(tái),加速企業(yè)人工智能應(yīng)用 Cognizant將在關(guān)鍵增長領(lǐng)域提供解決方案,包括企業(yè)級AI智能體、定制化行業(yè)大型語言模型及搭載NVIDI
    的頭像 發(fā)表于 03-26 14:42 ?322次閱讀
    Cognizant將與<b class='flag-5'>NVIDIA</b>合作<b class='flag-5'>部署</b>神經(jīng)人工智能平臺(tái),<b class='flag-5'>加速</b>企業(yè)人工智能應(yīng)用

    英偉達(dá)GTC2025亮點(diǎn):NVIDIA認(rèn)證計(jì)劃擴(kuò)展至企業(yè)存儲(chǔ)領(lǐng)域,加速AI工廠部署

    全新的存儲(chǔ)認(rèn)證和參考架構(gòu)讓企業(yè) IT 部門能更輕松地選擇和部署 AI 基礎(chǔ)設(shè)施,實(shí)現(xiàn)最優(yōu)的性能和能效。 AI 部署的成功依靠速度、數(shù)據(jù)和規(guī)模。因此,NVIDIA 正在擴(kuò)展 NVIDIA
    的頭像 發(fā)表于 03-21 19:38 ?1105次閱讀

    利用NVIDIA DPF引領(lǐng)DPU加速云計(jì)算的未來

    越來越多的企業(yè)開始采用加速計(jì)算,從而滿足生成式 AI、5G 電信和主權(quán)云的需求。NVIDIA 推出了 DOCA 平臺(tái)框架(DPF),該框架提供了基礎(chǔ)構(gòu)建模塊來釋放 NVIDIA BlueField
    的頭像 發(fā)表于 01-24 09:29 ?727次閱讀
    利用<b class='flag-5'>NVIDIA</b> DPF引領(lǐng)DPU<b class='flag-5'>加速</b>云計(jì)算的未來

    NVIDIA和GeForce RTX GPU專為AI時(shí)代打造

    NVIDIA 和 GeForce RTX GPU 專為 AI 時(shí)代打造。
    的頭像 發(fā)表于 01-06 10:45 ?666次閱讀

    借助NVIDIA GPU提升魯班系統(tǒng)CAE軟件計(jì)算效率

    本案例中魯班系統(tǒng)高性能 CAE 軟件利用 NVIDIA 高性能 GPU,實(shí)現(xiàn)復(fù)雜產(chǎn)品的快速仿真,加速產(chǎn)品開發(fā)和設(shè)計(jì)迭代,縮短開發(fā)周期,提升產(chǎn)品競爭力。
    的頭像 發(fā)表于 12-27 16:24 ?684次閱讀

    《CST Studio Suite 2024 GPU加速計(jì)算指南》

    的各個(gè)方面,包括硬件支持、操作系統(tǒng)支持、許可證、GPU計(jì)算的啟用、NVIDIA和AMD GPU的詳細(xì)信息以及相關(guān)的使用指南和故障排除等內(nèi)容。 1. 硬件支持 -
    發(fā)表于 12-16 14:25

    華迅光通AI計(jì)算加速800G光模塊部署

    GPU服務(wù)器對更高傳輸速率的需求增加,800G光模塊的采用速度正在加快。 加速部署800G光模塊 在人工智能計(jì)算進(jìn)步的背景下,800G模塊的需求正在穩(wěn)步上升,全球領(lǐng)先的制造商加大了部署
    發(fā)表于 11-13 10:16

    AMD與NVIDIA GPU優(yōu)缺點(diǎn)

    NVIDIA的RTX系列顯卡以其強(qiáng)大的光線追蹤和DLSS技術(shù)領(lǐng)先于市場。例如,NVIDIA的RTX 3080在4K分辨率下提供了卓越的游戲體驗(yàn),而AMD的Radeon RX 6800 XT雖然在某些游戲中表現(xiàn)接近,但在光線追蹤
    的頭像 發(fā)表于 10-27 11:15 ?2558次閱讀

    GPU加速計(jì)算平臺(tái)是什么

    GPU加速計(jì)算平臺(tái),簡而言之,是利用圖形處理器(GPU)的強(qiáng)大并行計(jì)算能力來加速科學(xué)計(jì)算、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等復(fù)雜計(jì)算任務(wù)的軟硬件結(jié)合系統(tǒng)。
    的頭像 發(fā)表于 10-25 09:23 ?603次閱讀

    暴漲預(yù)警!NVIDIA GPU供應(yīng)大跳水

    gpu
    jf_02331860
    發(fā)布于 :2024年07月26日 09:41:42