99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

從零開始訓(xùn)練一個(gè)大語(yǔ)言模型需要投資多少錢?

jf_23871869 ? 來(lái)源:jf_23871869 ? 作者:jf_23871869 ? 2024-11-08 14:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一,前言

AI領(lǐng)域,訓(xùn)練一個(gè)大型語(yǔ)言模型(LLM)是一個(gè)耗時(shí)且復(fù)雜的過(guò)程。幾乎每個(gè)做大型語(yǔ)言模型(LLM)訓(xùn)練的人都會(huì)被問(wèn)到:“從零開始,訓(xùn)練大語(yǔ)言模型需要多久和花多少錢?”雖然網(wǎng)上有很多關(guān)于訓(xùn)練技巧和模型評(píng)估的文章,但很少有直接告訴你如何估算訓(xùn)練時(shí)間和成本的。前面分享了一些關(guān)于大模型/本地知識(shí)庫(kù)的安裝部署方法,無(wú)需編寫代碼,即可使用Ollama+AnythingLLM搭建企業(yè)私有知識(shí)庫(kù),或者,三步完成Llama3.2在算力魔方的INT4量化和部署...本篇文章就教你一個(gè)簡(jiǎn)單的方法,幫你快速估算基于大語(yǔ)言模型權(quán)重大小、數(shù)據(jù)量以及可用GPU算力訓(xùn)練大語(yǔ)言模型所需的時(shí)間和成本。

二,估算方法

訓(xùn)練模型時(shí),處理數(shù)據(jù)和更新模型參數(shù)需要大量的計(jì)算,我們用浮點(diǎn)運(yùn)算次數(shù)(FLOPs)來(lái)表示。首先,我們要估算處理一個(gè)token所需的FLOPs,包括前向傳遞和反向傳遞兩個(gè)部分。

  • 前向傳遞:

每個(gè)token的前向傳遞涉及的加乘操作數(shù)大約為:

FLOPsforward= 2 x N2+2 x N x Dmodel

這里N表示模型的參數(shù)量,Dmodel是模型的維度。系數(shù)2來(lái)源于矩陣乘法中的累加操作。

  • 反向傳遞:

大約需要前向傳遞的兩倍計(jì)算量,因?yàn)橐?jì)算權(quán)重和激活值的梯度。

FLOPsbackward=(2 x N2+2 x N x Dmodel)x 2

  • 所以,一個(gè)token總的計(jì)算量大概是前向傳遞的三倍。因此,每個(gè)訓(xùn)練token的浮點(diǎn)運(yùn)算可以估算為:

FLOPstotal=(2 x N2+2 x N x Dmodel)x 3

三,GPU性能

現(xiàn)在大多數(shù)模型都是用GPU來(lái)訓(xùn)練的。不同的GPU有不同的性能,比如NVIDIA的H100、A100或V100。每個(gè)GPU的性能可以用每秒浮點(diǎn)運(yùn)算次數(shù)(FLOPS)來(lái)衡量。不過(guò),實(shí)際訓(xùn)練時(shí),由于多GPU之間的通信等因素,實(shí)際性能可能達(dá)不到理論上的最高值。

GPU Model Peak FLOPS (FP32)
H100 67 TFLOPS
A100 19.5 TFLOPS
V100 14 TFLOPS

一個(gè)重要的概念是模型FLOPS利用率(MFU),它反映了實(shí)際計(jì)算效率與理論最大值的比例。通常情況下,隨著GPU數(shù)量的增加,MFU會(huì)下降。LLaMA 3的研究者們用16,000個(gè)GPU訓(xùn)練模型時(shí),每個(gè)GPU的實(shí)際效率為380 teraflops,MFU為38%。

wKgaoWctrHiAWQXlAAAUop8DYW8628.png

四,實(shí)際案例

1,l Llama 3 405B 參數(shù)模型

LLaMA 3.1(405B參數(shù))是在15.6萬(wàn)億token的數(shù)據(jù)集上訓(xùn)練的。訓(xùn)練這樣一個(gè)規(guī)模的模型所需的總FLOPs可以通過(guò)以下方式計(jì)算:

  • 模型大小N = 405B
  • 數(shù)據(jù)集大小P = 15.6T

模型使用了16,000個(gè)H100 GPU進(jìn)行訓(xùn)練。據(jù)了解,平均吞吐量為每個(gè)GPU 400 teraflops。這意味著訓(xùn)練基礎(chǔ)設(shè)施可以提供的總吞吐量為:

TotalThroughput

=400TFLOPs/GPU×16,000GPUs

=6.4ExaFLOPs

最后,通過(guò)將所需的總FLOPs除以可用吞吐量,并將結(jié)果轉(zhuǎn)換為天數(shù)(因?yàn)槲覀冋嬲P(guān)心的是訓(xùn)練天數(shù)),我們可以得到訓(xùn)練時(shí)間。

3.8 x 1025FLOPs ÷ 6.4 x1018FLOPs/秒 =61

2,成本估算

訓(xùn)練模型不僅耗時(shí),還非常昂貴。以LLaMA 3.1為例,如果一個(gè)H100 GPU每小時(shí)的費(fèi)用是2美元,那么用16,000個(gè)H100訓(xùn)練這個(gè)模型的總成本大約為2 x 24 x 61 x 16,000 = 46,848,000美元。

五,總結(jié)

訓(xùn)練大型語(yǔ)言模型是一項(xiàng)技術(shù)復(fù)雜且資金密集的任務(wù)。從零開始,把一個(gè)LLaMA 3.1(405B參數(shù))的模型在15.6萬(wàn)億token數(shù)據(jù)集上訓(xùn)練出來(lái),大約需要花費(fèi)61天(假設(shè)沒(méi)有訓(xùn)練中斷)和46,848,000美元(僅估算GPU租金、數(shù)據(jù)集制作費(fèi)用和研發(fā)人力成本未計(jì)入),你算對(duì)了嗎?

更多精彩內(nèi)容請(qǐng)點(diǎn)擊下方名片,關(guān)注“算力魔方?”公眾號(hào)!


審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35136

    瀏覽量

    279778
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10788
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3141

    瀏覽量

    4066
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    從零開始之電機(jī)FOC控制

    我們將撕開FOC神秘而虛偽的面紗,以說(shuō)人話的方式講述它。真正的做到從零開始,小白看就會(huì),學(xué)就廢。如果覺(jué)得有用的話,就點(diǎn)個(gè)贊唄,純手碼。、什么是FOC?FOC
    的頭像 發(fā)表于 04-23 19:34 ?1806次閱讀
    <b class='flag-5'>從零開始</b>之電機(jī)FOC控制

    從零開始學(xué)電源

    從零開始學(xué)電源···內(nèi)部篇 從零開始學(xué)電源---------內(nèi)部篇 (寫這篇文的著眼點(diǎn)就在“從零開始”上,所以涉及到些詞匯和技術(shù)的時(shí)候,我會(huì)采取戲說(shuō)的方式。網(wǎng)上電源高手甚多,且科班出
    發(fā)表于 04-07 15:30

    小白學(xué)大模型訓(xùn)練語(yǔ)言模型的深度指南

    在當(dāng)今人工智能飛速發(fā)展的時(shí)代,大型語(yǔ)言模型(LLMs)正以其強(qiáng)大的語(yǔ)言理解和生成能力,改變著我們的生活和工作方式。在最近的項(xiàng)研究中,科學(xué)家們?yōu)榱松钊肓私馊绾胃咝У?/div>
    的頭像 發(fā)表于 03-03 11:51 ?730次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:<b class='flag-5'>訓(xùn)練</b>大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>的深度指南

    用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 之前我們分享了《從零開始訓(xùn)練個(gè)大語(yǔ)言模型
    的頭像 發(fā)表于 02-19 16:10 ?996次閱讀
    用PaddleNLP在4060單卡上實(shí)踐大<b class='flag-5'>模型</b>預(yù)<b class='flag-5'>訓(xùn)練</b>技術(shù)

    騰訊公布大語(yǔ)言模型訓(xùn)練新專利

    語(yǔ)言模型訓(xùn)練過(guò)程中引入第摘要文本和第二摘要文本,為模型提供了更為豐富的學(xué)習(xí)信息。這兩個(gè)摘要
    的頭像 發(fā)表于 02-10 09:37 ?408次閱讀

    采用FP8混合精度,DeepSeek V3訓(xùn)練成本僅557.6萬(wàn)美元!

    , 前言? ? 在AI領(lǐng)域,訓(xùn)練個(gè)大語(yǔ)言模型(LLM)是
    的頭像 發(fā)表于 01-13 11:12 ?1271次閱讀

    小白學(xué)大模型:構(gòu)建LLM的關(guān)鍵步驟

    隨著大規(guī)模語(yǔ)言模型(LLM)在性能、成本和應(yīng)用前景上的快速發(fā)展,越來(lái)越多的團(tuán)隊(duì)開始探索如何自主訓(xùn)練LLM模型。然而,是否
    的頭像 發(fā)表于 01-09 12:12 ?965次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:構(gòu)建LLM的關(guān)鍵步驟

    云端語(yǔ)言模型開發(fā)方法

    云端語(yǔ)言模型的開發(fā)是個(gè)復(fù)雜而系統(tǒng)的過(guò)程,涉及數(shù)據(jù)準(zhǔn)備、模型選擇、訓(xùn)練優(yōu)化、部署應(yīng)用等多個(gè)環(huán)節(jié)。
    的頭像 發(fā)表于 12-02 10:48 ?688次閱讀

    什么是大模型、大模型是怎么訓(xùn)練出來(lái)的及大模型作用

    ,基礎(chǔ)模型。 ? 大模型個(gè)簡(jiǎn)稱,完整的叫法,應(yīng)該是“人工智能預(yù)訓(xùn)練模型”。預(yù)
    的頭像 發(fā)表于 11-25 09:29 ?1.3w次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓(xùn)練</b>出來(lái)的及大<b class='flag-5'>模型</b>作用

    如何訓(xùn)練自己的LLM模型

    訓(xùn)練自己的大型語(yǔ)言模型(LLM)是個(gè)復(fù)雜且資源密集的過(guò)程,涉及到大量的數(shù)據(jù)、計(jì)算資源和專業(yè)知識(shí)。以下是
    的頭像 發(fā)表于 11-08 09:30 ?1515次閱讀

    語(yǔ)言模型如何開發(fā)

    語(yǔ)言模型的開發(fā)是個(gè)復(fù)雜且細(xì)致的過(guò)程,涵蓋了數(shù)據(jù)準(zhǔn)備、模型架構(gòu)設(shè)計(jì)、訓(xùn)練、微調(diào)和部署等多個(gè)階段
    的頭像 發(fā)表于 11-04 10:14 ?604次閱讀

    如何訓(xùn)練自己的AI大模型

    訓(xùn)練自己的AI大模型個(gè)復(fù)雜且耗時(shí)的過(guò)程,涉及多個(gè)關(guān)鍵步驟。以下是個(gè)詳細(xì)的
    的頭像 發(fā)表于 10-23 15:07 ?4965次閱讀

    摩爾線程與羽人科技完成大語(yǔ)言模型訓(xùn)練測(cè)試

    (YuRen-7b)大語(yǔ)言模型訓(xùn)練測(cè)試。測(cè)試結(jié)果顯示,訓(xùn)練效率達(dá)到預(yù)期,夸娥千卡智算集群展現(xiàn)出了高度的兼容性和穩(wěn)定性,為羽人科技未來(lái)的
    的頭像 發(fā)表于 08-27 16:19 ?821次閱讀

    使用AD8001放大個(gè)100mv左右的信號(hào),經(jīng)過(guò)放大的信號(hào)低電平都是三點(diǎn)幾伏,不能夠從零開始,為什么?

    請(qǐng)問(wèn),如圖我想使用AD8001放大個(gè)100mv左右的信號(hào),然后使用比較器輸出信號(hào)進(jìn)行計(jì)數(shù),但是現(xiàn)在經(jīng)過(guò)放大的信號(hào)低電平都是三點(diǎn)幾伏,不能夠從零開始,請(qǐng)問(wèn)這是什么原因呢?如圖,紅色是需要
    發(fā)表于 08-20 06:17

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    的表達(dá)方式和生成能力。通過(guò)預(yù)測(cè)文本中缺失的部分或下一個(gè)詞,模型逐漸掌握語(yǔ)言的規(guī)律和特征。 常用的模型結(jié)構(gòu) Transformer架構(gòu):大語(yǔ)言
    發(fā)表于 08-02 11:03