99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

美團落實 AI 框架在 GPU 上性能推理的優(yōu)化實踐

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 作者:NVIDIA英偉達企業(yè)解 ? 2021-12-28 09:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

美團是一家集生活服務(wù)及商品零售的電商平臺,公司聚焦“零售+科技”戰(zhàn)略,以“吃”為核心,通過科技創(chuàng)新,服務(wù)于生活服務(wù)業(yè)需求側(cè)和供給側(cè)數(shù)字化升級。美團在中國業(yè)務(wù)涵蓋餐飲、配送、網(wǎng)約車、共享單車、酒店及旅游預(yù)訂、電影票務(wù)等 200 多個服務(wù)品類,覆蓋全國 2800 個市區(qū)縣,服務(wù) 6.7 億活躍用戶和 830萬活躍商家。

伴隨著用戶規(guī)模的提升和業(yè)務(wù)的精細化運營,業(yè)務(wù)側(cè)對推薦系統(tǒng)的準確度、吞吐能力和時延都提出了新的挑戰(zhàn),而 CTR 模型作為推薦系統(tǒng)的核心模型,其效果直接影響業(yè)務(wù)的收入。

美團的 CTR 模型過去一直在使用 CPU 推理的方式,但隨著用戶訪問量的提升和深度神經(jīng)網(wǎng)絡(luò)的引入,CTR 模型結(jié)構(gòu)趨于復(fù)雜,吞吐和計算量也越來越大,CPU 開始不能滿足模型對于算力的需求,而僅僅通過 CPU 服務(wù)器的堆疊帶來的性能提升性價比相較偏低。

GPU 擁有數(shù)以千計的計算核心,可以在單機內(nèi)提供密集的并行計算能力,特別適合深度學(xué)習(xí)場景,在行業(yè)內(nèi)已經(jīng)在 CV 、NLP 等領(lǐng)域展示了強大的能力。通過 CUDA 及相關(guān) API ,NVIDIA 建立了完整的 GPU 生態(tài)系統(tǒng)?;诖?,美團基礎(chǔ)研發(fā)平臺將 CTR 模型部署到 GPU 上,并通過一系列針對 CPU 與 GPU 的異構(gòu)系統(tǒng)并行計算設(shè)計、數(shù)據(jù)存儲方式和傳輸方式上的特定優(yōu)化,希望能通過 GPU 強大的計算力,協(xié)助美團在 CTR 預(yù)測的各業(yè)務(wù)場景中發(fā)揮出最大優(yōu)勢。

為了解決算力瓶頸及上述各種挑戰(zhàn),美團機器學(xué)習(xí)平臺采用 NVIDIA AI 計算平臺,在繼 CV 、NLP 及 CTR 訓(xùn)練后,也使用了 NVIDIA T4 來提供 CTR 預(yù)測支持,大幅提升用戶體驗與服務(wù)穩(wěn)定性。除此之外,時延也是業(yè)務(wù)側(cè)非常重視的性能指標,許多復(fù)雜模型縱有更好的準確度,但卻因響應(yīng)時間不達標而無法落地應(yīng)用,例如,在某搜索框自動補全的場景,由于天然的交互屬性,時延要求非??量?,一般來說無法使用復(fù)雜的模型。而在 GPU 能力的加持下,其復(fù)雜模型的平均響應(yīng)時間從 15 毫秒降低至 6~7 毫秒,足足縮短了一倍多,達到了上線要求。

通過 NVIDIA T4 深度優(yōu)化方案,成功為美團 CTR 模型創(chuàng)造更多應(yīng)用機會,不僅極大地提升了系統(tǒng)吞吐量,更進一步地提升了整個模型訓(xùn)練的速度與降低訓(xùn)練成本,落實 AI 框架在 GPU 上性能推理的優(yōu)化實踐。

美團研發(fā)工程師,機器學(xué)習(xí)平臺預(yù)測引擎負責(zé)人王新表示,“在美團和英偉達的共同努力下, CTR 預(yù)測服務(wù)成功的遷移到 GPU 平臺上,在為業(yè)務(wù)提供更好的支撐的同時也獲得了更好的性價比;下一步,機器學(xué)習(xí)平臺計劃采用 NVIDIA Triton 推理服務(wù)框架和 NVIDIA Ampere A30 ,進一步提升美團推理服務(wù)的效率?!?/p>

原文標題:美團機器學(xué)習(xí)平臺使用 NVIDIA GPU 助力公司 CTR 預(yù)測服務(wù)升級

文章出處:【微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

審核編輯:彭菁
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11075

    瀏覽量

    216969
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5304

    瀏覽量

    106323
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35065

    瀏覽量

    279339
  • 美團
    +關(guān)注

    關(guān)注

    0

    文章

    125

    瀏覽量

    10657

原文標題:美團機器學(xué)習(xí)平臺使用 NVIDIA GPU 助力公司 CTR 預(yù)測服務(wù)升級

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    提升AI訓(xùn)練性能GPU資源優(yōu)化的12個實戰(zhàn)技巧

    在人工智能與機器學(xué)習(xí)技術(shù)迅速發(fā)展的背景下,GPU計算資源的高效利用已成為關(guān)鍵技術(shù)指標。優(yōu)化GPU資源分配不僅能顯著提升模型訓(xùn)練速度,還能實現(xiàn)計算成本的有效控制。根據(jù)AI基礎(chǔ)設(shè)施聯(lián)盟2
    的頭像 發(fā)表于 05-06 11:17 ?496次閱讀
    提升<b class='flag-5'>AI</b>訓(xùn)練<b class='flag-5'>性能</b>:<b class='flag-5'>GPU</b>資源<b class='flag-5'>優(yōu)化</b>的12個實戰(zhàn)技巧

    RK3588核心板在邊緣AI計算中的顛覆性優(yōu)勢與場景落地

    推理任務(wù),需額外部署GPU加速卡,導(dǎo)致成本與功耗飆升。 擴展性受限:老舊接口(如USB 2.0、百兆網(wǎng)口)無法支持5G模組、高速存儲等現(xiàn)代外設(shè),升級困難。 開發(fā)周期長:BSP適配不完善,跨平臺AI
    發(fā)表于 04-15 10:48

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同時降低了擴展測試時計算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 推理優(yōu)化
    的頭像 發(fā)表于 03-20 15:03 ?641次閱讀

    摩爾線程GPU原生FP8計算助力AI訓(xùn)練

    近日,摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓(xùn)練策略和高性能算子庫,這兩大框架在國產(chǎn)全功能
    的頭像 發(fā)表于 03-17 17:05 ?594次閱讀
    摩爾線程<b class='flag-5'>GPU</b>原生FP8計算助力<b class='flag-5'>AI</b>訓(xùn)練

    無法在GPU運行ONNX模型的Benchmark_app怎么解決?

    在 CPU 和 GPU 運行OpenVINO? 2023.0 Benchmark_app推斷的 ONNX 模型。 在 CPU 推理成功,但在
    發(fā)表于 03-06 08:02

    無法調(diào)用GPU插件推理的遠程張量API怎么解決?

    運行了使用 GPU 插件的遠程張量 API 的推理。但是,它未能共享 OpenCL* 內(nèi)存,但結(jié)果不正確。
    發(fā)表于 03-06 06:13

    AI推理帶火的ASIC,開發(fā)成敗在此一舉!

    的應(yīng)用性價比遠超GPU,加上博通財報AI業(yè)務(wù)同比大增220%,掀起了AI推理端的ASIC熱潮。 ? 那么ASIC跟傳統(tǒng)的GPU有哪些區(qū)別,開
    的頭像 發(fā)表于 03-03 00:13 ?3290次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>帶火的ASIC,開發(fā)成敗在此一舉!

    使用NVIDIA推理平臺提高AI推理性能

    NVIDIA推理平臺提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬美元。
    的頭像 發(fā)表于 02-08 09:59 ?706次閱讀
    使用NVIDIA<b class='flag-5'>推理</b>平臺提高<b class='flag-5'>AI</b><b class='flag-5'>推理性能</b>

    SSM框架性能優(yōu)化技巧 SSM框架中RESTful API的實現(xiàn)

    SSM框架性能優(yōu)化技巧 SSM(Spring + Spring MVC + MyBatis)框架性能
    的頭像 發(fā)表于 12-17 09:10 ?784次閱讀

    SSM框架在Java開發(fā)中的應(yīng)用 如何使用SSM進行web開發(fā)

    。以下是對SSM框架在Java開發(fā)中的應(yīng)用,以及如何使用SSM進行web開發(fā)的介紹: SSM框架的組件及其作用 Spring :Spring是一個開源的Java/Java EE全功能棧
    的頭像 發(fā)表于 12-16 17:28 ?1572次閱讀

    Arm KleidiAI助力提升PyTorchLLM推理性能

    熱門的深度學(xué)習(xí)框架尤為突出,許多企業(yè)均會選擇其作為開發(fā) AI 應(yīng)用的庫。通過部署 Arm Kleidi 技術(shù),Arm 正在努力優(yōu)化 PyTorch,以加速在基于 Arm 架構(gòu)的處理器
    的頭像 發(fā)表于 12-03 17:05 ?1481次閱讀
    Arm KleidiAI助力提升PyTorch<b class='flag-5'>上</b>LLM<b class='flag-5'>推理性能</b>

    《算力芯片 高性能 CPUGPUNPU 微架構(gòu)分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變

    對卷積核優(yōu)化的思考。 GPU的存儲體系采用了獨特的倒金字塔結(jié)構(gòu),在我看來這是其計算性能的關(guān)鍵。大容量寄存器設(shè)計破解了傳統(tǒng)馮諾依曼架構(gòu)的內(nèi)存瓶頸,合并訪存機制巧妙解決了內(nèi)存帶寬限制。NVIDIA
    發(fā)表于 11-24 17:12

    NPU與GPU性能對比

    它們在不同應(yīng)用場景下的表現(xiàn)。 一、設(shè)計初衷與優(yōu)化方向 NPU : 專為加速AI任務(wù)而設(shè)計,包括深度學(xué)習(xí)和推理。 針對神經(jīng)網(wǎng)絡(luò)的計算模式進行了優(yōu)化,能夠高效地執(zhí)行矩陣乘法、卷積等操作。
    的頭像 發(fā)表于 11-14 15:19 ?4125次閱讀

    TI TDA2x SoC基于GPU的環(huán)視優(yōu)化

    電子發(fā)燒友網(wǎng)站提供《TI TDA2x SoC基于GPU的環(huán)視優(yōu)化.pdf》資料免費下載
    發(fā)表于 10-10 09:14 ?0次下載
    TI TDA2x SoC<b class='flag-5'>上</b>基于<b class='flag-5'>GPU</b>的環(huán)視<b class='flag-5'>優(yōu)化</b>

    揭秘動態(tài)化跨端框架在鴻蒙系統(tǒng)下的高性能解決方案

    平臺解決方案。 在研發(fā)團隊使用后可大幅降低研發(fā)人力成本;為業(yè)務(wù)提供實時觸達、A/B觸達等能力以提升業(yè)務(wù)投放效率;同時保障了C端用戶優(yōu)秀的用戶體驗。 一、動態(tài)化跨端框架原理介紹 ? ? ? ? ? 通過上圖,我們先了解一下動態(tài)化跨端框架在iOS、Android等多個平臺實現(xiàn)
    的頭像 發(fā)表于 10-08 13:46 ?1467次閱讀
    揭秘動態(tài)化跨端<b class='flag-5'>框架在</b>鴻蒙系統(tǒng)下的高<b class='flag-5'>性能</b>解決方案