99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Merlin 助力陌陌推薦業(yè)務(wù)實現(xiàn)高性能訓練優(yōu)化

NVIDIA英偉達 ? 來源:未知 ? 2023-11-09 10:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

通過 Merlin 大幅提升大規(guī)模深度多目標精排模型訓練性能

本案例中,NVIDIA 團隊與陌陌推薦系統(tǒng)團隊深度合作,共同使用 NVIDIA GPU Merlin 軟件解決方案替代其原有解決方案。

通過使用 Merlin TensorFlow Plugin (即 Sparse Operation Kit,SOK) 和 HierarchicalKV(HKV),相較于原方案在相同規(guī)模模型和 GPU 下,顯著提高了陌陌大規(guī)模深度多目標精排模型的訓練性能。在不影響模型效果的前提下,模型整體吞吐提升了 5 倍以上,再結(jié)合通信和 IO 等進一步優(yōu)化后,極限情況下可以提升 12 倍吞吐。

客戶簡介

摯文集團于 2011 年成立,2014 年 12 月 11 日在美國納斯達克交易所掛牌上市(NASDAQ: MOMO),擁有陌陌、探探等多款手機應用,以及電影制作發(fā)行、節(jié)目制作等多元業(yè)務(wù)。陌陌是摯文集團于 2011 年 8 月推出的一款基于地理位置的移動視頻社交應用,是中國領(lǐng)先的開放式社交平臺之一。

訓練速度面臨挑戰(zhàn),

需有效提升算法迭代

陌陌的原始解決方案本質(zhì)是基于 PS-Worker 的 CPU + GPU 混合訓練方案,可支持大規(guī)模稀疏參數(shù)的訓練。然而,隨著用戶規(guī)模的增加和業(yè)務(wù)的發(fā)展,對于推薦算法的準確度也有了更高的要求。這導致模型的復雜性和訓練樣本量顯著增加,對單次模型訓練速度和新模型算法探索效率都有更大的挑戰(zhàn)。盡管原方案在功能上支持了大規(guī)模稀疏參數(shù)的訓練,但在性能上難以滿足業(yè)務(wù)日益增長的需求。因此,陌陌亟需對訓練速度進行優(yōu)化,加快算法迭代,以提高業(yè)務(wù)效果。

SOK 和 HKV

為推薦系統(tǒng)提升性能與靈活性

NVIDIA Merlin HugeCTR 是 NVIDIA 推出的可以高效利用 GPU 來進行推薦系統(tǒng)訓練的解決方案,為了使它能直接被其他 DL 用戶,比如 TensorFlow 所直接使用,NVIDIA 開發(fā)了 Merlin TensorFlow Plugin (以下簡稱 SOK),將 HugeCTR 中的高級特性封裝為 TensorFlow 可直接調(diào)用的形式,從而幫助用戶在 TensorFlow 中直接使用 HugeCTR 中的高級特性來加速他們的推薦系統(tǒng)。

wKgZomVMSOCAaFAxAAB8kg4r-to254.jpg

圖 1. Merlin TensorFlow Plugin(SOK)模型并行示意圖

Merlin TensorFlow Plugin 以數(shù)據(jù)并行的方式接收輸入數(shù)據(jù),將稀疏參數(shù)以模型并行的方式分布在多個 GPU 上,將稠密參數(shù)以數(shù)據(jù)并行的方式分布在多個 GPU 上,內(nèi)部實現(xiàn)“數(shù)據(jù)并行-模型并行-數(shù)據(jù)并行”的轉(zhuǎn)換流程。整個使用方式上盡可能的與原有 TensorFlow 算子對齊,減少對用戶已有的代碼的修改,以更方便、快捷地在多個 GPU 上進行擴展。此外,SOK 針對 embedding vector 的拷貝和 combiner 進行了高度優(yōu)化和內(nèi)核融合,使整個 lookup 的前后向過程擁有更好的性能。

Merlin HierarchicalKV (以下簡稱HKV)是 Merlin 下的針對于推薦系統(tǒng)訓練設(shè)計的 KV 加速庫。為兼容大模型訓練支持了層次化動態(tài) Embedding 存儲(CPU+GPU),靈活的 eviction(淘汰) 機制和豐富的 API。目前已經(jīng)集成入 SOK, 協(xié)同加速推薦系統(tǒng) Embedding 的相關(guān)計算。

在應用了 SOK 和 HKV 后,相同規(guī)模模型和 GPU 下,陌陌精排模型的訓練性能相比于原方案,整體吞吐提升了 5 倍以上。除此之外,陌陌推薦團隊在當前 SOK + HKV 的架構(gòu)基礎(chǔ)上,基于業(yè)務(wù)場景特點,進一步優(yōu)化整體性能,包括梯度合并,減少梯度計算的通信開銷;并行特征數(shù)據(jù)讀取與轉(zhuǎn)換,以及特征數(shù)據(jù)預取到 GPU 等操作提速特征 IO;使用 XLA 進行編譯優(yōu)化,融合 kernel 以減少 kernel launch 時間;設(shè)置 GPU 親和等操作,使得整體性能提升達到 12 倍。

wKgZomVMSOCASRl0AABRC-I4vSg388.jpg

圖 2. 性能加速效果

在陌陌的實際應用中,動態(tài) Embedding 的特性大大簡化了推薦系統(tǒng)中連續(xù)訓練需人工控制顯存中 embedding tab 大小的問題。而 SOK 與 HKV 為陌陌提供了完整的功能和性能支持。

除此之外,我們跟陌陌的合作過程中,也結(jié)合產(chǎn)品部署中的需求進一步對產(chǎn)品進行了性能優(yōu)化和功能迭代,比如:

SOK 針對 embedding vector 的拷貝和 combiner 進行了高度優(yōu)化和 kernel 融合,使整個 lookup 的前后向過程擁有更好的性能。

在陌陌 GPU 高水位線的實際業(yè)務(wù)中,基于陌陌的測試和反饋,SOK 通過優(yōu)化了性能和功能的平衡點,使得其在保證性能的基礎(chǔ)上,穩(wěn)定性也大大提升。

另外,在陌陌的實際應用中,面臨著模型實時訓練的挑戰(zhàn),即需要減少對計算資源的占用,因此我們引入了 HKV,它支持了層次化動態(tài)嵌入存儲(包括 CPU 和 GPU),并提供了靈活的 eviction 機制以及豐富的 API。這種引入在降低資源占用的同時,也提高了系統(tǒng)的靈活性。

陌陌的實際業(yè)務(wù)場景和 GPU 使用方式對于 SOK 的開發(fā)和迭代提供了非常寶貴的經(jīng)驗,同時陌陌的大量測試反饋也幫助 SOK 提升了應對復雜場景的能力,使得 SOK 的 feature 更加穩(wěn)定和貼近客戶。

持續(xù)合作:

優(yōu)化推薦模型性能,降低訓練成本

雙方團隊通過 SOK 和 HKV 對原方案進行深度優(yōu)化后,成功幫助陌陌提升了 12 倍的訓練效率,極大的降低了模型訓練的成本和新模型算法嘗試的成本。目前,整體方案已上線,全面支持陌陌推薦系統(tǒng)模型訓練。

近期,NVIDIA 團隊還與陌陌進行了基于 Transformer 的推薦模型性能優(yōu)化。NVIDIA JOC 團隊和 Merlin 團隊基于客戶的模型做了一系列性能分析,將 XLA+AMP+半精度 allreduce 應用到該模型上后,端到端性能實現(xiàn)了 50% 的加速。在此基礎(chǔ)上,團隊們進一步對性能熱點 multi-head-attention 部分進行優(yōu)化,正在將 Flash-Attention 以 tf-plugin 形式進行集成,預計此項優(yōu)化集成后,整體加速比可達到 3 倍,同時整體的優(yōu)化方案使得顯存使用量下降約 70%,可以顯著地緩解顯存緊張的問題。

未來,陌陌與 NVIDIA 將繼續(xù)在推薦系統(tǒng)訓練和推理等方面持續(xù)合作,持續(xù)推進 GPU 和 AI 軟件加速計算在陌陌的全面落地,期待能夠為陌陌的業(yè)務(wù)及場景應用帶來更大的價值。

了解更多本案例中相關(guān)的 NVIDIA 產(chǎn)品信息,敬請查閱:

  • NVIDIA Merlin:

    https://developer.nvidia.cn/merlin

  • Merlin TensorFlow Plugin (SOK) :

    https://github.com/NVIDIA-Merlin/HugeCTR/tree/main/sparse_operation_kit

  • Merlin HierarchicalKV (HKV):

    https://github.com/NVIDIA-Merlin/HierarchicalKV

GTC 2024 將于 2024 年 3 月 18 至 21 日在美國加州圣何塞會議中心舉行,線上大會也將同期開放。點擊“閱讀原文”掃描下方海報二維碼,立即注冊 GTC 大會。


原文標題:NVIDIA Merlin 助力陌陌推薦業(yè)務(wù)實現(xiàn)高性能訓練優(yōu)化

文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英偉達
    +關(guān)注

    關(guān)注

    22

    文章

    3953

    瀏覽量

    93811

原文標題:NVIDIA Merlin 助力陌陌推薦業(yè)務(wù)實現(xiàn)高性能訓練優(yōu)化

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    奇異摩爾田晨榮獲中國半導體行業(yè)領(lǐng)軍人物獎

    實力與發(fā)展成果。奇異摩爾創(chuàng)始人兼 CEO 田晨憑借在AI網(wǎng)絡(luò)互聯(lián)領(lǐng)域的創(chuàng)新成就,榮膺 “領(lǐng)軍人物獎”。
    的頭像 發(fā)表于 07-08 17:04 ?508次閱讀

    快手上線鴻蒙應用高性能解決方案:數(shù)據(jù)反序列化性能提升90%

    普通對象(如 JSON 數(shù)據(jù))與類實例進行互轉(zhuǎn),是實現(xiàn)面向?qū)ο缶幊膛c數(shù)據(jù)序列化解耦的核心工具。隨著業(yè)務(wù)復雜度的提升,該庫在反序列化過程中逐漸暴露出性能瓶頸,影響用戶核心體驗。因此
    發(fā)表于 05-15 10:01

    鴻蒙原生頁面高性能解決方案上線OpenHarmony社區(qū) 助力打造高性能原生應用

    高性能鴻蒙原生應用。 Nodepool:優(yōu)化頁面滑動流暢性Nodepool旨在解決應用頁面滑動卡頓問題。開發(fā)中,相似頁面因業(yè)務(wù)和代碼差異,組件復用性差,引發(fā)卡頓、丟幀,影響用戶體驗。Nodepool通過
    發(fā)表于 01-02 18:00

    怎么做電子元器件的銷售啊,不知道如何去地推拜,有沒有師哥能幫我解答一下,跪謝~

    在成都賣一些TVS管、MOS管、PHY芯片等,也是剛做這行的銷售,大學學的物聯(lián)網(wǎng)嵌入式,今年的畢業(yè)生,不清楚如何去做地推拜,求大佬指點一下小弟
    發(fā)表于 12-17 09:40

    助力AIoT應用:在米爾FPGA開發(fā)板上實現(xiàn)Tiny YOLO V4

    、 性能優(yōu)化與調(diào)試技巧為提高性能,可以進行以下調(diào)整: 內(nèi)存訪問:設(shè)計數(shù)據(jù)存儲方式,最大限度利用緩存并減少數(shù)據(jù)傳輸,降低內(nèi)存瓶頸。 降低延遲:重新評估關(guān)鍵路徑延遲。若延遲過高,調(diào)整 Vitis HLS 中
    發(fā)表于 12-06 17:18

    全新NVIDIA NIM微服務(wù)實現(xiàn)突破性進展

    全新 NVIDIA NIM 微服務(wù)實現(xiàn)突破性進展,可助力氣象技術(shù)公司開發(fā)和部署 AI 模型,實現(xiàn)對降雪、結(jié)冰和冰雹的預測。
    的頭像 發(fā)表于 11-21 10:07 ?676次閱讀

    如何優(yōu)化MEMS設(shè)計以提高性能

    優(yōu)化MEMS(微機電系統(tǒng))設(shè)計以提高性能是一個復雜且多維的任務(wù),涉及多個學科和技術(shù)的綜合應用。以下是一些關(guān)鍵的優(yōu)化策略和方法: 一、系統(tǒng)級設(shè)計優(yōu)化 明確功能需求和技術(shù)指標 : 在設(shè)計之
    的頭像 發(fā)表于 11-20 10:21 ?1361次閱讀

    NVIDIA AI助力實現(xiàn)更好的癌癥檢測

    由美國頂級醫(yī)療中心和研究機構(gòu)的專家組成了一個專家委員會,該委員會正在使用 NVIDIA 支持的聯(lián)邦學習來評估聯(lián)邦學習和 AI 輔助注釋對訓練 AI 腫瘤分割模型的影響。
    的頭像 發(fā)表于 11-19 15:54 ?509次閱讀

    2024CHINTERGEO武漢測繪展,帆科技攜創(chuàng)新無人機保險產(chǎn)品、技術(shù)首亮相

    11月6-8日,亞太地區(qū)最大的測繪地理信息行業(yè)專業(yè)展會——)CHINTERGEO2024中國測繪地理信息技術(shù)裝備展覽會(以下簡稱:CHINTERGEO展覽會)在武漢光谷科技會展中心隆重開幕。帆
    的頭像 發(fā)表于 11-11 10:45 ?633次閱讀
    2024CHINTERGEO武漢測繪展,帆<b class='flag-5'>陌</b>科技攜創(chuàng)新無人機保險產(chǎn)品、技術(shù)首亮相

    什么是協(xié)議分析儀和訓練

    )是一種專用硬件或軟件工具,用于監(jiān)視、分析和診斷計算機網(wǎng)絡(luò)中的通信協(xié)議。它能夠捕獲數(shù)據(jù)包、解析協(xié)議頭部信息、展示通信流量,并幫助用戶識別網(wǎng)絡(luò)中的問題或優(yōu)化性能。 功能: 數(shù)據(jù)包捕獲:準確捕獲網(wǎng)絡(luò)通信
    發(fā)表于 10-29 14:33

    NVIDIA助力麗蟾科技打造AI訓練與推理加速解決方案

    麗蟾科技通過 Leaper 資源管理平臺集成 NVIDIA AI Enterprise,為企業(yè)和科研機構(gòu)提供了一套高效、靈活的 AI 訓練與推理加速解決方案。無論是在復雜的 AI 開發(fā)任務(wù)中,還是在高并發(fā)推理場景下,都能夠確保項目的順利進行,并顯著提升
    的頭像 發(fā)表于 10-27 10:03 ?833次閱讀
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>助力</b>麗蟾科技打造AI<b class='flag-5'>訓練</b>與推理加速解決方案

    Wolfspeed碳化硅助力實現(xiàn)高性能功率系統(tǒng)

    Wolfspeed碳化硅助力實現(xiàn)高性能功率系統(tǒng)
    發(fā)表于 10-24 10:51 ?1次下載

    NVIDIA Nemotron-4 340B模型幫助開發(fā)者生成合成訓練數(shù)據(jù)

    Nemotron-4 340B 是針對 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 優(yōu)化的模型系列,該系列包含最先進的指導和獎勵模型,以及一個用于生成式 AI 訓練
    的頭像 發(fā)表于 09-06 14:59 ?738次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron-4 340B模型幫助開發(fā)者生成合成<b class='flag-5'>訓練</b>數(shù)據(jù)

    FP8模型訓練中Debug優(yōu)化思路

    目前,市場上許多公司都積極開展基于 FP8 的大模型訓練,以提高計算效率和性能。在此,我們整理并總結(jié)了客戶及 NVIDIA 技術(shù)團隊在 FP8 模型訓練過程中的 debug 思路和方法
    的頭像 發(fā)表于 09-06 14:36 ?932次閱讀
    FP8模型<b class='flag-5'>訓練</b>中Debug<b class='flag-5'>優(yōu)化</b>思路

    SOK在手機行業(yè)的應用案例

    通過封裝 NVIDIA Merlin HugeCTR,Sparse Operation Kit(以下簡稱 SOK)使得 TensorFlow 用戶可以借助 HugeCTR 的一些相關(guān)特性和優(yōu)化加速 GPU 上的分布式 Embed
    的頭像 發(fā)表于 07-25 10:01 ?897次閱讀
    SOK在手機行業(yè)的應用案例