99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大規(guī)模神經(jīng)網(wǎng)絡(luò)優(yōu)化:超參最佳實(shí)踐與規(guī)模律

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:未知 ? 2023-12-10 21:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

從理論分析入手把握大規(guī)模神經(jīng)網(wǎng)絡(luò)優(yōu)化的規(guī)律,可以指導(dǎo)實(shí)踐中的超參數(shù)選擇。反過來,實(shí)踐中的超參數(shù)選擇也可以指導(dǎo)理論分析。本篇文章聚焦于大語言模型,介紹從 GPT 以來大家普遍使用的訓(xùn)練超參數(shù)的變化。


規(guī)模律研究的是隨著神經(jīng)網(wǎng)絡(luò)規(guī)模的增大,超參數(shù)、性能是如何改變的。規(guī)模律是對(duì)模型、數(shù)據(jù)、優(yōu)化器關(guān)系的深刻刻畫,揭示大模型優(yōu)化時(shí)的普遍規(guī)律。通過規(guī)模律,我們可以用少量成本在小模型上驗(yàn)證超參數(shù)的選擇和性能的變化情況,繼而外推到大模型上。


在 LLM 中規(guī)模性常常變換模型大小和數(shù)據(jù)規(guī)模,進(jìn)行大量調(diào)參而保持優(yōu)化器不變。故對(duì)于大模型優(yōu)化器而言,規(guī)模性是其性能很好的展現(xiàn)(性能上限)。設(shè)計(jì)更好的優(yōu)化器(用更少的數(shù)據(jù)達(dá)到相同的性能)就是在挑戰(zhàn)現(xiàn)有的規(guī)模律。



超參最佳實(shí)踐
我們首先回顧從 GPT 以來重要文章中使用的超參數(shù),本文將不同模型的超參數(shù)列舉在下方。首先,除了 Google 的 T5, PaLM 外,其它的模型都是用了 Adam 類的優(yōu)化器(Adam 或 AdamW)。其次,超參數(shù)選擇上的更新都是在前人的基礎(chǔ)上慢慢變化,并被后續(xù)采納的。這包括使用 dropuout、梯度范數(shù)裁剪(Megatron-LM),批量的動(dòng)態(tài)變化(GPT-3),Adam (GPT-3)。

學(xué)習(xí)率:我們發(fā)現(xiàn)隨著模型的增大,學(xué)習(xí)率越來越小。學(xué)習(xí)率與數(shù)據(jù)量、批量大小都沒有明顯的關(guān)系,且一般使用 左右的學(xué)習(xí)率。學(xué)習(xí)率的變化策略都包括 warmup 和衰減(decay)兩階段。目前普遍使用 GPT-3 中余弦衰減到原學(xué)習(xí)率的十分之一。谷歌則傾向于使用平方根衰減(優(yōu)點(diǎn)之一在于不用提前知道訓(xùn)練步數(shù))。

批量大?。?/span>訓(xùn)練使用的批量大小隨著模型的增大也在不斷增大,從 GPT 的 32k、BERT 的 128k,到 GPT-3 的 3.2M、LLaMA 的 4M。值得注意的是,GPT-3 的批量大小是從 32k 開始,在 12B tokens 的訓(xùn)練中逐漸增加到 4M 的,批量大小增加了 125 倍。

OpenAI 在論文中認(rèn)為隨著學(xué)習(xí)的進(jìn)行,模型能夠承載的批量大小快速增加。而后續(xù)很多工作直接使用了更大的批量。這可能是批量增大的過程只占總數(shù)據(jù)的 2%,即使直接使用最大批量也不會(huì)造成太大的問題。

權(quán)重衰減 /L2 正則化:在 L2 正則化(或 weight decay)上,GPT 與 BERT 都使用了正則化,后續(xù)的模型有些使用而有些沒有使用。首先注意到,在 GPT 和 BERT 時(shí)代,數(shù)據(jù)量還是大于模型參數(shù)量的(over-parameterized),訓(xùn)練時(shí)也是使用多輪訓(xùn)練(multi-epoch)。

而隨著人們意識(shí)到數(shù)據(jù)的重要性,數(shù)據(jù)量已經(jīng)超越模型的參數(shù)量的(GPT3, 680B tokens, 175B params, under-parameterized),訓(xùn)練時(shí)也只使用了一輪訓(xùn)練(single-epoch)。根據(jù) [ADV+23] 中的分析,在 over-parameterized 網(wǎng)絡(luò)中使用 weight decay 相當(dāng)于對(duì)優(yōu)化器施加了潛在的正則;而在 under-parameterized 網(wǎng)絡(luò)中,weight decay 只是改變了實(shí)際的學(xué)習(xí)率。隨著網(wǎng)絡(luò)訓(xùn)練權(quán)重的變化,相當(dāng)于施加了自適應(yīng)的學(xué)習(xí)率變化策略。

在本文的最后列舉了不同模型的超參選擇。其中 Adam 括號(hào)中的數(shù)字代表 ,sch 為學(xué)習(xí)率調(diào)整策略,bs為批量大小,L2 為權(quán)重衰減的 權(quán)重,init 為初始化方法。


神經(jīng)網(wǎng)絡(luò)規(guī)模律

神經(jīng)網(wǎng)絡(luò)規(guī)模律(neural scaling laws)通過廉價(jià)的小規(guī)模實(shí)驗(yàn)來預(yù)測(cè)大規(guī)模模型的表現(xiàn),從而決定最佳的架構(gòu)、算法、數(shù)據(jù)集、超參數(shù)等等。從廣義上講所有因素都可以研究:模型的寬度,數(shù)據(jù)數(shù)量,計(jì)算資源(FLOPs)等等。

上圖是強(qiáng)化學(xué)習(xí)中的一些例子,黑色點(diǎn)為實(shí)驗(yàn)數(shù)據(jù),紅色線為擬合的規(guī)模律,綠色點(diǎn)為驗(yàn)證數(shù)據(jù)??梢钥吹剑绻?guī)模律的擬合效果好,就可以用來預(yù)測(cè)大規(guī)模模型的表現(xiàn)。除了上述單調(diào)的規(guī)模律,還有一些非單調(diào)的規(guī)模律,如下圖所示。Tranformer 的性能隨著模型的寬度增加先增加后減小最后再增加。

神經(jīng)網(wǎng)絡(luò)規(guī)模律的研究重點(diǎn)之一在于研究什么樣的曲線能夠擬合上述現(xiàn)象。一個(gè)簡(jiǎn)單的擬合策略是使用 ,這可以對(duì)付不少情況,然而無法應(yīng)對(duì)上述非單調(diào)的情況。[CGR+23] 提出了自己的擬合曲線 BNSL(broken neural scaling laws)
其中 對(duì)應(yīng)橫坐標(biāo),其它參數(shù)為擬合參數(shù)。其中, 代表了曲線由 段組成,當(dāng) 時(shí)就是 。大家不用糾結(jié)于公式的具體形式,該公式只是希望“大包大攬”,把所有可能的規(guī)模性都考慮進(jìn)來。這個(gè)公式允許出現(xiàn)下圖中所示的三種變化方式,具有很高的靈活性。



大語言模型規(guī)模律

討論大語言模型規(guī)模律最重要的兩篇可以說是 OpenAI 的 [KMH+20] 和 DeepMind 的 Chinchilla[HBM+22] 了。我們將主要介紹這兩篇文章的結(jié)論。
定義 為模型參數(shù)量, 為數(shù)據(jù)量, 為計(jì)算量(FLOPs), 為損失值。超參數(shù)分為優(yōu)化超參數(shù)(學(xué)習(xí)率等)和架構(gòu)超參數(shù)(如深度、寬度)。 為批量大小, 為訓(xùn)練步數(shù),對(duì)于單輪訓(xùn)練,。其中對(duì)于大語言模型,確定 大小后,就可以估算出 。
實(shí)際中我們擁有的計(jì)算量為 時(shí),為了獲得最低的損失 ,我們希望通過選擇 使得 最小。記 為給定計(jì)算量下最佳的 ,即
1. 模型性能與 密切相關(guān),與架構(gòu)超參數(shù)關(guān)系不大。
2. L與 成冪律分布(Power-law),

這里 指的是在給定 下的最佳性能,即最低的損失值。該規(guī)律的前提條件是不受另外兩個(gè)因素制約。由于 ,該規(guī)律最終會(huì)失效,但 [KMH+22] 的實(shí)驗(yàn)規(guī)模使我們看不到這一點(diǎn)。
3. 給定計(jì)算量后, 。
該結(jié)論即當(dāng)模型參數(shù)翻倍后,數(shù)據(jù)量也應(yīng)該翻倍從而得到最優(yōu)性能。這是 [HBM+22] 中對(duì) [KMH+20] 主要糾正的結(jié)論。下圖中黑色虛線為 [KMH+20] 的結(jié)論,其它三色線是 [HBM+22] 用三個(gè)方法得出的相同結(jié)論,并且根據(jù)該放縮率訓(xùn)練了 Chinchilla 模型。

在 [KMH+20] 中,作者認(rèn)為模型增大 5 倍,數(shù)據(jù)量增大 8 倍。[HBM+22] 認(rèn)為兩個(gè)因素導(dǎo)致了[KMH+20] 中的錯(cuò)誤:
  • 對(duì)不同的 沒有嘗試使用不同的學(xué)習(xí)率調(diào)整策略(正確的學(xué)習(xí)率調(diào)整策略對(duì)訓(xùn)練影響很大)
  • [KMH+20] 使用的 較小。規(guī)模性存在曲率,導(dǎo)致用太小的得到的結(jié)論不準(zhǔn)確。(規(guī)模性存在曲率也說明了最終該規(guī)律會(huì)失效)

這里展式 [HBM+20] 中的一種論證,即繪制相同 下不同 與最優(yōu) 的關(guān)系,從而得到最優(yōu)配置。

Chinchilla 規(guī)模律的最終擬合結(jié)果如下,通過代入 我們可以計(jì)算得到述 的取值,并可以揭示數(shù)據(jù)與模型規(guī)模應(yīng)該同時(shí)增加的規(guī)律。此外,在 Chinchilla 的設(shè)置下,。
4. 臨界批量大小 ,與其它因素弱相關(guān)。
臨界批量大小在大規(guī)模神經(jīng)網(wǎng)絡(luò)優(yōu)化:批量與噪聲中有過介紹,可以理解為使用相同 可以達(dá)到相同 的最大 。在 [KMH+20] 中,擬合得到 。 約小可以用的批量越大也解釋了上文 GPT-3 模型中批量大小的增大。

另一方面,訓(xùn)練損失隨著訓(xùn)練步數(shù)呈現(xiàn)快速下降-線性-平坦三個(gè)階段的特點(diǎn)(見下圖 Llama 訓(xùn)練圖)。由于訓(xùn)練早期訓(xùn)練損失的快速下降,臨界批量大小又隨損失冪律下降,可見臨界批量大小隨訓(xùn)練步數(shù)下降的很快。我們用將 llama 的損失帶入計(jì)算,當(dāng)訓(xùn)練的非常前期損失就能下降到 2.2,臨界批量大小 4.7M,這與 llama 使用的 4M 批量大小吻合。這也解釋了為什么可以省略掉批量大小的調(diào)整。

如果損失能夠下降到 1.5,臨界批量大小就會(huì)增加到 30M,所以 llama 可以在訓(xùn)練中進(jìn)一步增加批量大小的使用。按此推斷,GPT-4 最終使用了 60M 的批量大小,對(duì)應(yīng)的訓(xùn)練損失可能為 1.3。

5. 模型的遷移泛化能力與在訓(xùn)練數(shù)據(jù)集上的泛化能力正相關(guān)。

如右圖所示,在訓(xùn)練數(shù)據(jù)集上的測(cè)試損失越低,則在其它數(shù)據(jù)集上的損失也越低(如訓(xùn)練在 Wikipedia,測(cè)試在 WebText2)。右圖則顯示隨著參數(shù)量增大,模型的測(cè)試損失越低。且在不同數(shù)據(jù)集上的測(cè)試損失與在訓(xùn)練集上的測(cè)試測(cè)試損失僅僅相差一個(gè)常數(shù)偏移。

6. 更大的模型收斂更快(更少的數(shù)據(jù)量達(dá)到相同的損失)

下圖中越亮的線代表更大的模型。左圖說明達(dá)到相同的測(cè)試損失,使用大模型需要見到的數(shù)據(jù)量更少。右圖中則是使用相同計(jì)算量的比較。兩條線的交點(diǎn)分割了使用大小模型的優(yōu)劣:在交點(diǎn)左側(cè)應(yīng)該使用小模型,在交點(diǎn)右側(cè)應(yīng)該使用大模型。

圖中另外一個(gè)重要的觀察是,訓(xùn)練后期損失下降的更慢。故與其訓(xùn)練一個(gè)小模型到收斂,不如用相同的資源訓(xùn)練一個(gè)不到收斂的大模型更加高效。


大語言模型規(guī)模律拾遺

除了上述兩篇經(jīng)典文章之外,不少文章也給出了自己的洞見。

3.1 涌現(xiàn)是指標(biāo)選擇的結(jié)果,連續(xù)指標(biāo)與參數(shù)規(guī)模符合冪律分布

涌現(xiàn)現(xiàn)象指的是模型的某些性能隨著模型參數(shù)增加到一定規(guī)模突然不可預(yù)測(cè)的快速提升。這被認(rèn)為是大模型能力的重要體現(xiàn)。這里我們研究的是指標(biāo)性能與模型參數(shù)的關(guān)系,也是一種規(guī)模律。

[SMK23] 論文則指出,大部分所謂的涌現(xiàn)現(xiàn)象,都出現(xiàn)在兩種指標(biāo)上:多選題的正確性,以及完全字符串匹配正確性。更換指標(biāo)可以更好的對(duì)模型能力的規(guī)模性進(jìn)行預(yù)測(cè)。

上文中我們已經(jīng)知道,模型損失值隨模型參數(shù)指數(shù)下降(圖A),從而可以得到單個(gè)樣本預(yù)測(cè)的正確率指數(shù)上升(圖B)。如果將非線性指標(biāo)“完全字符串匹配正確率”替換為“錯(cuò)誤預(yù)測(cè)的 Token 數(shù)”,可以發(fā)現(xiàn)同樣的冪律分布。同理,將不連續(xù)的選擇正確率替換為連續(xù)的選擇正確率,也可以得到冪律分布。

筆者認(rèn)為,這篇文章不應(yīng)該看做對(duì)”涌現(xiàn)“重要性的否定。在現(xiàn)實(shí)世界、生活、市場(chǎng)中,我們關(guān)心的指標(biāo)就是非線性,或者說非連續(xù)指標(biāo)。這篇文章的意義在于,我們可以用連續(xù)指標(biāo)更好的建模規(guī)模律,從而預(yù)測(cè)非連續(xù)指標(biāo)的變化。同時(shí),這也揭示了大模型中”量變產(chǎn)生質(zhì)變“的背后機(jī)理,并不需要用“整體的復(fù)雜交互”進(jìn)行解釋。

3.2 大模型需要更小的學(xué)習(xí)率

通過上文中的大模型參數(shù)經(jīng)驗(yàn),我們很容易就發(fā)現(xiàn)大模型需要更小的學(xué)習(xí)率。[YHB+22] 在下左圖中展示了這點(diǎn)。其認(rèn)為這是為了控制總方差在一定值(方差隨參數(shù)量以 增大)。對(duì)于這點(diǎn)筆者暫未找到詳細(xì)的理論解釋。[YHB+22] 中還提出了一種新的初始化和參數(shù)設(shè)置方法以保證不同規(guī)模的模型可以使用相同的學(xué)習(xí)率,這里不再展開。

3.3 使用重復(fù)數(shù)據(jù)訓(xùn)練時(shí)(multi-epoch),應(yīng)該用更多的輪次訓(xùn)練較小的模型

[MRB+23] 探究了當(dāng)數(shù)據(jù)有限時(shí),如何訓(xùn)練大模型。左圖中,當(dāng)輪次小于 4 時(shí),與使用新數(shù)據(jù)效果相當(dāng)(GPT-4 中重復(fù)了文本兩次,代碼四次,與該結(jié)果印證)。當(dāng)輪次大于 40 次時(shí),則幾乎沒有提升。右圖中,用左圖的擬合結(jié)果可以計(jì)算得到,相比于 Chinchilla 的規(guī)模性,使用重復(fù)數(shù)據(jù)訓(xùn)練時(shí),應(yīng)該用更多的數(shù)據(jù)(重復(fù)數(shù))訓(xùn)練較小的模型。

3.4 使用重復(fù)數(shù)據(jù)訓(xùn)練對(duì)訓(xùn)練幫助很小

[XFZ+23] 進(jìn)行了大量的實(shí)驗(yàn)驗(yàn)證了一系列觀點(diǎn)。下左圖中,作者在 Encoder-Decoder 模型上驗(yàn)證了 Chinchilla 規(guī)模律同樣成立(即數(shù)據(jù)量與模型參數(shù)量應(yīng)該同時(shí)增加)。右圖則顯示了使用出發(fā)數(shù)據(jù)訓(xùn)練對(duì)性能沒有幫助。文中還嘗試了高質(zhì)量數(shù)據(jù)、UL2 訓(xùn)練目標(biāo)、不同的正則化方法,最終發(fā)現(xiàn)除了 Dropout 之外對(duì)重復(fù)訓(xùn)練都沒有幫助。

3.5 訓(xùn)練比 Chinchilla 規(guī)模律更小的模型

Chinchilla 規(guī)模律的出發(fā)點(diǎn)是給定計(jì)算量,通過分配參數(shù)量和數(shù)據(jù)量最小化損失值。換言之,給定要達(dá)到的損失值,最小化計(jì)算量。然而在實(shí)際中,訓(xùn)練一個(gè)小模型能帶來計(jì)算量(代表訓(xùn)練開銷)以外的收益:

  • 小模型部署后進(jìn)行推理成本更小
  • 小模型訓(xùn)練所需的集群數(shù)量更少

故 [H23] 提出,在不大幅度增加訓(xùn)練開銷的前提下,盡可能減小模型的參數(shù)量。具體而言,作者在 Chinchilla 規(guī)模律的基礎(chǔ)上,讓模型的參數(shù)量變?yōu)?,進(jìn)而計(jì)算出達(dá)到相同損失所需的數(shù)據(jù)量 。通過推導(dǎo)可得 無關(guān),即無論訓(xùn)練開銷多大, 的關(guān)系都是一致的。下圖展示了計(jì)算量的增加值 的關(guān)系。

其中,LLaMA-7B 就比 Chinchilla 中對(duì)應(yīng)的最優(yōu)解使用了更小的模型和更多的計(jì)算量(數(shù)據(jù))。由于參數(shù)量減小到一定程度,需要的計(jì)算量會(huì)有急劇的上升,作者認(rèn)為模型的大小不應(yīng)該小于臨界模型大小。譬如當(dāng)使用 30% 的參數(shù)量時(shí),所需計(jì)算量會(huì)增加 100%。參數(shù)量不應(yīng)該再繼續(xù)減?。ǚ駝t計(jì)算量會(huì)上升很多)。
在 Llama-2 上我們也能看到類似的現(xiàn)象。根據(jù) Chinchilla 規(guī)模性,2T 數(shù)據(jù)對(duì)應(yīng)大約 50B 的參數(shù)量。所以對(duì)于 Llama-2-7b 來說,訓(xùn)練了一個(gè)相對(duì)更小的模型。而對(duì)于 Llama-2-70b 來說,則不夠效率。

Werra認(rèn)為我們應(yīng)該用更多的數(shù)據(jù)繼續(xù)訓(xùn)練更小的模型。這其中的難點(diǎn)在于:

  • 訓(xùn)練所需的數(shù)據(jù)量不夠(正如 [XFZ+23] 指出的,我們正在用盡互聯(lián)網(wǎng)上所有的 tokens)。
  • 小集群上訓(xùn)練小模型需要更長(zhǎng)的訓(xùn)練時(shí)間(Llama2 500k its);如果使用大集群訓(xùn)練則更困難(比如要使用更大的批量大小才能提高效率)。



LLM 的超參選擇

4.1 GPT(117M):

  • Adam
  • lr:2.5e-4
  • sch: warmup linear 2k, cosine decay to 0
  • bs: 32k=64x512
  • its: 3M (100e)
  • L2: 0.01
  • init: N(0, 0.02)
4.2 BERT(330M):
  • Adam(0.9,0.999)
  • lr: 1e-4
  • sch: warmup 10k, linear decay to 0
  • bs: 128k=256x512
  • its: 1M (40e)
  • L2: 0.01
  • dropout: 0.1

4.3 Megatron-LM(GPT2 8.3B & Bert 3.9B):

  • Adam
  • lr: 1.5e-4
  • sch: warmup 2k, cosine decay to 1e-5
  • bs: 512k=512x1024
  • its: 300k
  • L2: 0.01
  • dropout: 0.1
  • gradient norm clipping: 1.0
init: N(0, 0.02), weights before residual layer
4.4 T5(11B)
  • AdaFactor
  • lr: 1e-2
  • sch: warmup constant 10k, sqrt decay
  • bs: 65k=128x512
  • its: 500k (1e)
4.5 GPT-3
  • Adam(0.9, 0.95, eps=1e-8)
  • lr & final bs:?

  • sch: warmup linear 375m tokens, cosine decay to 0.1xlr 260b tokens, continue training with 0.1xlr
  • bs sch: 32k to final bs gradually in 4-12B tokens
  • seq length: 2048
  • data: 680B
  • gradient norm clipping: 1.0
4.6 Gopher
  • Adam (Adafactor unstable beyond 7.1B)
  • lr & final bs:?

  • sch: warmup 1.5k, cosine decay to 0.1xlr
  • gradient norm clipping: 0.25 for 7.1B & 280B, 1.0 for the rest
4.7 Chinchilla(70B)
  • AdamW
  • lr: 1e-4
  • bs: 1.5M to 3M
  • others follow Gopher
4.8 OPT
  • Adam(0.9, 0.95) (SGD plateau quickly)
  • lr & bs:?

  • sch: warmup linear 2k, decay to 0.1xlr
  • L2: 0.1
  • dropout: 0.1
  • gradient norm clipping: 1.0
  • init: N(0, 0.006), output layer N(0, 0.006*
4.9 PaLM
  • Adafactor(0.9, 1-)
  • lr 1e-2

sch: warmup 10k, decay at
?

  • bs: 1M (<50k), 2M (<115k), 4M (<255k)

L2: lr

  • dropout: 0.1
  • gradient norm clipping: 1.0
  • its: 255k?init: N(0,embedding N(0,1)
4.10 LLaMA(RMSNorm, SwiGLU, RoPE)
  • AdamW(0.9, 0.95)
  • lr & bs:

  • sch: warmup 2k, decay to 0.1xlr
  • L2: 0.1
  • gradient norm clipping: 1.0
4.11 LLaMA2
  • AdamW(0.9, 0.95, eps=1e-5)
  • lr?

  • sch: warmup 2k, decay to 0.1xlr
  • L2: 0.1
  • gradient norm clipping: 1.0


參考文獻(xiàn)

[ADV+23] Why do we need weight decay in modern deep learning?
[CGR+23] Broken neural scaling laws
[HBM+22] Training Compute-Optimal Large Language Models
[KMH+20] Scaling Laws for Neural Language Models
[SMK23] Are Emergent Abilities of Large Language Models a Mirage?
[YHB+22] Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer
[MRB+23] Scaling Data-Constrained Language Models
[XFZ+23] To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis
[H23]Go smol or go home



原文標(biāo)題:大規(guī)模神經(jīng)網(wǎng)絡(luò)優(yōu)化:超參最佳實(shí)踐與規(guī)模律

文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:大規(guī)模神經(jīng)網(wǎng)絡(luò)優(yōu)化:超參最佳實(shí)踐與規(guī)模律

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    構(gòu)建大規(guī)模Simulink模型的標(biāo)準(zhǔn)化最佳實(shí)踐

    隨著系統(tǒng)規(guī)模和復(fù)雜性的增長(zhǎng),工程團(tuán)隊(duì)面臨著一系列在小規(guī)模上不存在的全新挑戰(zhàn)。
    的頭像 發(fā)表于 04-24 13:03 ?404次閱讀
    構(gòu)建<b class='flag-5'>大規(guī)模</b>Simulink模型的標(biāo)準(zhǔn)化<b class='flag-5'>最佳</b><b class='flag-5'>實(shí)踐</b>

    BP神經(jīng)網(wǎng)絡(luò)的調(diào)技巧與建議

    BP神經(jīng)網(wǎng)絡(luò)的調(diào)是一個(gè)復(fù)雜且關(guān)鍵的過程,涉及多個(gè)參數(shù)的優(yōu)化和調(diào)整。以下是一些主要的調(diào)技巧與建議: 一、學(xué)習(xí)率(Learning Rat
    的頭像 發(fā)表于 02-12 16:38 ?806次閱讀

    BP神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的比較

    BP神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)在多個(gè)方面存在顯著差異,以下是對(duì)兩者的比較: 一、結(jié)構(gòu)特點(diǎn) BP神經(jīng)網(wǎng)絡(luò) : BP神經(jīng)網(wǎng)絡(luò)是一種多層的前饋神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 02-12 15:53 ?662次閱讀

    如何優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率

    優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率是提高模型訓(xùn)練效率和性能的關(guān)鍵步驟。以下是一些優(yōu)化BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率的方法: 一、理解學(xué)習(xí)率的重要性 學(xué)習(xí)率決定了模型參數(shù)在每次迭代時(shí)更新的幅度。過大的學(xué)習(xí)率可
    的頭像 發(fā)表于 02-12 15:51 ?930次閱讀

    什么是BP神經(jīng)網(wǎng)絡(luò)的反向傳播算法

    BP神經(jīng)網(wǎng)絡(luò)的反向傳播算法(Backpropagation Algorithm)是一種用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的有效方法。以下是關(guān)于BP神經(jīng)網(wǎng)絡(luò)的反向傳播算法的介紹: 一、基本概念 反向傳播算法是BP
    的頭像 發(fā)表于 02-12 15:18 ?765次閱讀

    BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系

    BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)之間存在著密切的關(guān)系,以下是對(duì)它們之間關(guān)系的介紹: 一、BP神經(jīng)網(wǎng)絡(luò)的基本概念 BP神經(jīng)網(wǎng)絡(luò),即反向傳播神經(jīng)網(wǎng)絡(luò)(Backpropagation Neural N
    的頭像 發(fā)表于 02-12 15:15 ?851次閱讀

    人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法

    在上一篇文章中,我們介紹了傳統(tǒng)機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)和多種算法。在本文中,我們會(huì)介紹人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法,供各位老師選擇。 01 人工神經(jīng)網(wǎng)絡(luò) ? 人工神經(jīng)網(wǎng)絡(luò)模型之所
    的頭像 發(fā)表于 01-09 10:24 ?1184次閱讀
    人工<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的原理和多種<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>架構(gòu)方法

    卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的比較

    在深度學(xué)習(xí)領(lǐng)域,神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用于各種任務(wù),如圖像識(shí)別、自然語言處理和游戲智能等。其中,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)是兩種常見的模型。 1. 結(jié)構(gòu)差異 1.1 傳統(tǒng)神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 11-15 14:53 ?1866次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)的常見調(diào)技巧

    循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,簡(jiǎn)稱RNN)是一種用于處理序列數(shù)據(jù)的深度學(xué)習(xí)模型,它能夠捕捉時(shí)間序列中的動(dòng)態(tài)特征。然而,RNN的訓(xùn)練往往比傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)更具
    的頭像 發(fā)表于 11-15 10:13 ?743次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)優(yōu)化技巧

    循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,簡(jiǎn)稱RNN)是一種用于處理序列數(shù)據(jù)的深度學(xué)習(xí)模型,它能夠捕捉時(shí)間序列中的動(dòng)態(tài)特征。然而,RNN在訓(xùn)練過程中可能會(huì)遇到梯度消失或梯度
    的頭像 發(fā)表于 11-15 09:51 ?763次閱讀

    RNN模型與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的區(qū)別

    神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)領(lǐng)域中的一種強(qiáng)大工具,它們能夠模擬人腦處理信息的方式。隨著技術(shù)的發(fā)展,神經(jīng)網(wǎng)絡(luò)的類型也在不斷增加,其中循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(如前饋
    的頭像 發(fā)表于 11-15 09:42 ?1125次閱讀

    LSTM神經(jīng)網(wǎng)絡(luò)的調(diào)技巧

    長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),它能夠?qū)W習(xí)長(zhǎng)期依賴信息。在實(shí)際應(yīng)用中,LSTM網(wǎng)絡(luò)的調(diào)是一個(gè)復(fù)雜且關(guān)鍵的
    的頭像 發(fā)表于 11-13 10:01 ?1857次閱讀

    Moku人工神經(jīng)網(wǎng)絡(luò)101

    不熟悉神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)知識(shí),或者想了解神經(jīng)網(wǎng)絡(luò)如何優(yōu)化加速實(shí)驗(yàn)研究,請(qǐng)繼續(xù)閱讀,探索基于深度學(xué)習(xí)的現(xiàn)代智能化實(shí)驗(yàn)的廣闊應(yīng)用前景。什么是神經(jīng)網(wǎng)絡(luò)?“人工
    的頭像 發(fā)表于 11-01 08:06 ?662次閱讀
    Moku人工<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>101

    matlab 神經(jīng)網(wǎng)絡(luò) 數(shù)學(xué)建模數(shù)值分析

    matlab神經(jīng)網(wǎng)絡(luò) 數(shù)學(xué)建模數(shù)值分析 精通的可以討論下
    發(fā)表于 09-18 15:14

    如何構(gòu)建多層神經(jīng)網(wǎng)絡(luò)

    構(gòu)建多層神經(jīng)網(wǎng)絡(luò)(MLP, Multi-Layer Perceptron)模型是一個(gè)在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域廣泛使用的技術(shù),尤其在處理分類和回歸問題時(shí)。在本文中,我們將深入探討如何從頭開始構(gòu)建一個(gè)多層神經(jīng)網(wǎng)絡(luò)模型,包括模型設(shè)計(jì)、數(shù)據(jù)預(yù)處理、模型訓(xùn)練、評(píng)估以及
    的頭像 發(fā)表于 07-19 17:19 ?1557次閱讀