99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

探究超大Transformer語言模型的分布式訓練框架

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 作者:NVIDIA英偉達企業(yè)解 ? 2021-10-20 09:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

NVIDIA Megatron 是一個基于 PyTorch 的框架,用于訓練基于 Transformer 架構的巨型語言模型。本系列文章將詳細介紹Megatron的設計和實踐,探索這一框架如何助力大模型的預訓練計算。 上篇主要介紹了大模型訓練的發(fā)展趨勢、NVIDIA Megatron的模型并行設計,本篇將承接上篇的內容,解析Megatron 在NVIDIA DGX SuperPOD 上的實踐。

優(yōu)化的分布式集群架構:NVIDIA DGX SuperPOD

有了高效的分布式訓練框架,自然也需要優(yōu)化的分布式訓練集群。

NVIDIA DGX SuperPOD 便是 NVIDIA 推出的一個分布式集群的參考架構,最新一代是基于NVIDIA DGX A100 和NVIDIA HDR 200Gb/s ConnectX-6 HCAs組建,旨在幫助AI 研究人員快速搭建一套強大、靈活、高效的系統(tǒng),以滿足工業(yè)界日益復雜、多變的模型對計算資源不同程度的需求。尤其對于超大語言模型預訓練這一復雜場景,DGX SuperPOD 架構尤為重要。

DGX SuperPOD 采用模塊化的設計,支持不同規(guī)模大小的設計。一個標準的SuperPOD 由140 臺DGX A100和三層Infiniband 交換機通過胖樹結構全互聯(lián)起來。每臺DGX A100 配有8個200Gb/s 的高速計算網(wǎng),并配有2個200Gb/s的高速存儲網(wǎng),采用計算和存儲網(wǎng)絡分離的方案。

多個POD之間可以通過核心層交換機直連起來,可以支持多達560 臺DGX A100的互聯(lián)規(guī)模。

更多關于NVIDIA DGX SuperPOD 架構的詳細設計,請參閱下列連接中的白皮書:https://images.nvidia.com/aem-dam/Solutions/Data-Center/gated-resources/nvidia-dgx-superpod-a100.pdf

NVIDIA Megatron 在 DGX SuperPOD 上的實踐

基于DGX SuperPOD 的Megatron實踐在不同大小的模型上,都表現(xiàn)出了很好的計算效率。

模型從1.7B 到1T ,訓練規(guī)模從32 卡到3072 卡。

基于GPT-3 175B 模型的訓練,采用如下的配置:

128 臺 DGX A100,總共 1024張 A100

Tensor 并行度:8;Pipeline 并行度:16; 數(shù)據(jù)并行度:8

全局Batch size : 1536;Micro-batch size: 1

在如此大的訓練規(guī)模下,GPU 仍可達到44% 左右的計算效率,在規(guī)模和效率上,都遠遠超過已有的公開結果。

詳細內容請參考以下鏈接:

Megatron repro: https://github.com/nvidia/megatron-lm

GPT3-175B training scripts: https://github.com/NVIDIA/Megatron-LM/blob/main/examples/pretrain_gpt3_175B.sh

總結

1. 大模型是大勢所趨。

2. 大規(guī)模分布式訓練是訓練大模型的必須。

3. NVIDIA Megatron 是開源的、軟硬協(xié)同設計的訓練框架,專為Transformer-based的超大語言模型設計。

4. NVIDIA DGX SuperPOD 是開放的集群參考設計架構,專為大規(guī)模分布式訓練而準備。

5. Megatron 優(yōu)化的Tensor模型并行:用于intra-transformer 層,可以高效地執(zhí)行在HGX based的系統(tǒng)上。

6. Megatron優(yōu)化的 Pipeline 模型并行:用于inter-transformer 層,可以有效地利用集群中多網(wǎng)卡的設計。

7. 數(shù)據(jù)并行的加持,可以擴展到更大規(guī)模、訓練更快。

8. GPT-3 175B 的大模型,在1024 張 A100上可達到44%左右的計算效率。

9. NVIDIA Megatron 的設計和實踐,已廣泛用于學術界和工業(yè)界。

編輯:jq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)

    關注

    8

    文章

    7250

    瀏覽量

    91622
  • NVIDIA
    +關注

    關注

    14

    文章

    5284

    瀏覽量

    106125
  • 交換機
    +關注

    關注

    22

    文章

    2731

    瀏覽量

    101696
  • 分布式
    +關注

    關注

    1

    文章

    993

    瀏覽量

    75299

原文標題:NVIDIA Megatron:超大Transformer語言模型的分布式訓練框架 (二)

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    雙電機分布式驅動汽車高速穩(wěn)定性機電耦合控制

    摘要:為了利用所設計的雙電機防滑差速驅動系統(tǒng)來提高分布式驅動汽車的動力學性能,在前期同軸耦合驅動控制理論研究的基礎上,開展該車的高速穩(wěn)定性機電耦合控制研究。建立并驗證包含所設計驅動系統(tǒng)在內的分布式
    發(fā)表于 06-18 16:37

    潤和軟件StackRUNS異構分布式推理框架的應用案例

    江蘇潤和軟件股份有限公司(以下簡稱“潤和軟件”)自主研發(fā)的StackRUNS異構分布式推理框架已在實際場景中取得顯著成效,成功應用于大型園區(qū)多模態(tài)模型演練及高校滿血版DeepSeek-MoE 671B的運行,有效推動了大
    的頭像 發(fā)表于 06-13 09:11 ?393次閱讀
    潤和軟件StackRUNS異構<b class='flag-5'>分布式</b>推理<b class='flag-5'>框架</b>的應用案例

    潤和軟件發(fā)布StackRUNS異構分布式推理框架

    當下,AI模型規(guī)模持續(xù)膨脹、多模態(tài)應用場景日益復雜,企業(yè)正面臨異構算力資源碎片化帶來的嚴峻挑戰(zhàn)。為應對行業(yè)痛點,江蘇潤和軟件股份有限公司(以下簡稱“潤和軟件”)正式發(fā)布自主研發(fā)的StackRUNS異構分布式推理框架,高效融合異構
    的頭像 發(fā)表于 06-13 09:10 ?400次閱讀
    潤和軟件發(fā)布StackRUNS異構<b class='flag-5'>分布式</b>推理<b class='flag-5'>框架</b>

    AI原生架構升級:RAKsmart服務器在超大規(guī)模模型訓練中的算力突破

    近年來,隨著千億級參數(shù)模型的崛起,AI訓練對算力的需求呈現(xiàn)指數(shù)級增長。傳統(tǒng)服務器架構在應對分布式訓練、高并發(fā)計算和顯存優(yōu)化等場景時逐漸顯露瓶頸。而RAKsmart為
    的頭像 發(fā)表于 04-24 09:27 ?255次閱讀

    淺談工商企業(yè)用電管理的分布式儲能設計

    文章設計了一種新的用于工商業(yè)用電管理的分布式儲能系統(tǒng)。由于儲能系統(tǒng)硬件置換成本高,選擇在傳統(tǒng)儲能系統(tǒng)的硬件框架基礎上,對控制軟件進行優(yōu)化設計,建立分布式儲能系統(tǒng)模型,分析發(fā)電量、儲電量
    的頭像 發(fā)表于 03-24 15:43 ?3033次閱讀
    淺談工商企業(yè)用電管理的<b class='flag-5'>分布式</b>儲能設計

    騰訊公布大語言模型訓練新專利

    近日,騰訊科技(深圳)有限公司公布了一項名為“大語言模型訓練方法、裝置、計算機設備及存儲介質”的新專利。該專利的公布,標志著騰訊在大語言模型
    的頭像 發(fā)表于 02-10 09:37 ?383次閱讀

    分布式云化數(shù)據(jù)庫有哪些類型

    分布式云化數(shù)據(jù)庫有哪些類型?分布式云化數(shù)據(jù)庫主要類型包括:關系型分布式數(shù)據(jù)庫、非關系型分布式數(shù)據(jù)庫、新SQL分布式數(shù)據(jù)庫、以列方式存儲數(shù)據(jù)、
    的頭像 發(fā)表于 01-15 09:43 ?456次閱讀

    模型訓練框架(五)之Accelerate

    Hugging Face 的 Accelerate1是一個用于簡化和加速深度學習模型訓練的庫,它支持在多種硬件配置上進行分布式訓練,包括 CPU、GPU、TPU 等。Accelerat
    的頭像 發(fā)表于 01-14 14:24 ?664次閱讀

    語言模型開發(fā)框架是什么

    語言模型開發(fā)框架是指用于訓練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹
    的頭像 發(fā)表于 12-06 10:28 ?508次閱讀

    分布式通信的原理和實現(xiàn)高效分布式通信背后的技術NVLink的演進

    的大小已經(jīng)超出了單個 GPU 的范圍。所以就需要實現(xiàn)跨多個 GPU 的模型訓練,這種訓練方式就涉及到了分布式通信和 NVLink。 當談及分布式
    的頭像 發(fā)表于 11-18 09:39 ?1234次閱讀
    <b class='flag-5'>分布式</b>通信的原理和實現(xiàn)高效<b class='flag-5'>分布式</b>通信背后的技術NVLink的演進

    分布式光纖測溫解決方案

    分布式光纖測溫解決方案
    的頭像 發(fā)表于 11-12 01:02 ?535次閱讀
    <b class='flag-5'>分布式</b>光纖測溫解決方案

    分布式故障在線監(jiān)測|高精度技術選用 行波特征 故診模型

    、高精度技術選用、行波特征及故障診斷模型的相關信息: 一、分布式故障在線監(jiān)測: 1、工作原理:通過在監(jiān)測對象(輸電線路)的不同位置分布式地安裝監(jiān)測終端,實時采集監(jiān)測對象的各種參數(shù),如工頻電流、行波電流等。這些監(jiān)
    的頭像 發(fā)表于 10-11 12:00 ?401次閱讀

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    收集海量的文本數(shù)據(jù)作為訓練材料。這些數(shù)據(jù)集不僅包括語法結構的學習,還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 自監(jiān)督學習:模型采用自監(jiān)督學習策略,在大量無標簽文本數(shù)據(jù)上學習
    發(fā)表于 08-02 11:03

    語言模型的預訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型的預訓練是這一技術發(fā)展的關鍵步驟,它通過在海量無標簽數(shù)據(jù)上進行訓練,使模型學習到
    的頭像 發(fā)表于 07-11 10:11 ?948次閱讀

    Transformer語言模型簡介與實現(xiàn)過程

    在自然語言處理(NLP)領域,Transformer模型以其卓越的性能和廣泛的應用前景,成為了近年來最引人注目的技術之一。Transformer模型
    的頭像 發(fā)表于 07-10 11:48 ?2928次閱讀