99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

決定神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)處理速度的因素

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-11-20 09:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今天的文章會(huì)重點(diǎn)關(guān)注決定神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)處理速度的因素,以及獲得預(yù)測(cè)的精確度,即優(yōu)化策略的選擇。我們會(huì)講解多種主流的優(yōu)化策略,研究它們的工作原理,并進(jìn)行相互比較。

機(jī)器學(xué)習(xí)算法的優(yōu)化

優(yōu)化是尋找可以讓函數(shù)最小化或最大化的參數(shù)的過程。當(dāng)我們訓(xùn)練機(jī)器學(xué)習(xí)模型時(shí),我們通常會(huì)使用間接優(yōu)化,選擇一種特定的衡量尺度,例如精確度或查全率等可以表現(xiàn)模型解決方法表現(xiàn)的指標(biāo)。但是我們現(xiàn)在進(jìn)行優(yōu)化的是另一種不同的價(jià)值函數(shù)J(θ),希望通過將它的值最小化后,提高目標(biāo)指標(biāo)的表現(xiàn)。當(dāng)然,價(jià)值函數(shù)的選擇通常和正在解決的問題有關(guān),更重要的是,它通常表示我們距離理想解決方案的距離??梢韵胂?,這一話題非常復(fù)雜。

優(yōu)化算法的可視化

陷阱無處不在

通常,找到非凸價(jià)值函數(shù)的最小值并不容易,我們必須用高級(jí)的優(yōu)化策略定位它們。如果你學(xué)過微積分,你會(huì)了解“局部最小值”的定義——這可能是優(yōu)化器最容易陷入的陷阱。此類情景的例子可以從上圖左邊看到,可以清楚地發(fā)現(xiàn),優(yōu)化器定位的點(diǎn)并不是最優(yōu)解。

想克服所謂的“鞍點(diǎn)”問題會(huì)更困難。在水平處,價(jià)值函數(shù)的值幾乎是常數(shù),上圖右側(cè)體現(xiàn)了這一問題,在這些點(diǎn)上,梯度在各個(gè)方向上幾乎為零,所以很難逃脫。

有時(shí),尤其是在多層網(wǎng)絡(luò)中,我們要處理的價(jià)值函數(shù)可能很陡。在這種區(qū)域,梯度的值可能會(huì)急劇增加,即形成梯度爆炸,導(dǎo)致巨大的步長。但是這一問題可以通過梯度裁剪(gradient clipping)避免。

梯度下降

在了解高級(jí)算法之前,先讓我們看看基礎(chǔ)算法。也許最直接的方法之一就是向梯度的相反方向發(fā)展。這一策略可以用以下公式表示:

其中α是一個(gè)稱為學(xué)習(xí)速率的超參數(shù),是每次迭代中采取的步長長度。在某種程度上,它的選擇表示了在學(xué)習(xí)速度和精確度之間的權(quán)衡。選擇的步長太小就會(huì)導(dǎo)致繁瑣的計(jì)算,不可避免地會(huì)進(jìn)行多次迭代。但是,選擇的值過大,又無法找到最小值。如下圖所示,我們可以看到在相鄰的兩次迭代上是如何變化的,而不是趨于穩(wěn)定。同時(shí),如果模型確定了合適的步長,可能會(huì)立刻找到一個(gè)最小值。

低學(xué)習(xí)率和高學(xué)習(xí)率下梯度下降

除此之外,算法還對(duì)“鞍點(diǎn)”問題很脆弱,因?yàn)樵谶B續(xù)迭代中的修正尺寸對(duì)計(jì)算梯度是成比例的,這樣的話,就無法從平坦處逃脫。

最后,重點(diǎn)是這種算法并不高效,它在每次迭代中都需要用全部的訓(xùn)練集。這意味著,在每個(gè)epoch中我們都要查看所有樣本,從而在下次進(jìn)行優(yōu)化。如果只有幾千個(gè)樣本還好,但如果有上百萬個(gè)樣本呢?在這種情況下,很難想象每次迭代需要花費(fèi)多少時(shí)間

mini-batch梯度下降

梯度下降和mini-batch梯度下降對(duì)比

在這一部分,我們要重點(diǎn)解決梯度下降不高效的問題。雖然向量化處理加速了計(jì)算,當(dāng)數(shù)據(jù)集有百萬個(gè)樣本時(shí),可以一次性處理多個(gè)訓(xùn)練樣本。這里我們可以試試另一種方法,將整個(gè)數(shù)據(jù)集分成多個(gè)更小的批次(batch),用它們進(jìn)行連續(xù)迭代。如上面動(dòng)圖所示,由于每次處理的數(shù)據(jù)量更少了,新算法做決策的速度更快了。另外注意觀察模型之間動(dòng)作的對(duì)比。梯度下降算法每一步都很長,且噪聲較小,而mini-batch梯度下降的步長更小,噪聲更大。甚至在mini-batch中,一次迭代可能會(huì)向相反方向發(fā)展。但是平均來說,都能達(dá)到最小值。

那么怎樣選擇batch size呢?在深度學(xué)習(xí)中,這類答案是不固定的,取決于要解決的案例。如果batch size等于整個(gè)數(shù)據(jù)集,那么處理起來就是普通的梯度下降。如果size為1,那么每次迭代禁止數(shù)據(jù)集的一個(gè)樣本。這種方法通常比較公平,常見的就是隨機(jī)梯度下降,它是通過選擇一個(gè)隨機(jī)數(shù)據(jù)集記錄,用它們當(dāng)做訓(xùn)練集進(jìn)行連續(xù)迭代。但是,如果我們決定使用mini-batch,通常會(huì)選擇一個(gè)中間值,通常是從64到512之間的樣本中選擇。

指數(shù)加權(quán)平均

這一概念在統(tǒng)計(jì)學(xué)或經(jīng)濟(jì)學(xué)中都有出現(xiàn)。很多高級(jí)神經(jīng)網(wǎng)絡(luò)優(yōu)化算法都用到了這一方法,因?yàn)樗茉谔荻葹榱愕那闆r下依舊進(jìn)行優(yōu)化。我們接下來以去年至今某大型科技公司的股票走勢(shì)為例進(jìn)行講解。

不同β值下指數(shù)加權(quán)平均可視化

EWA主要是對(duì)之前的值進(jìn)行平均,以便獨(dú)立考慮局部波動(dòng),并專注于整體趨勢(shì)。它的值使用上面的遞歸公式計(jì)算的,其中β適用于控制要平均的值的范圍參數(shù)。對(duì)于較大的β值,我們得到的圖形更平滑,因?yàn)橛涗浉唷?/p>

帶有動(dòng)量的梯度下降

這一策略用指數(shù)加權(quán)平均避免了某一點(diǎn)處價(jià)值函數(shù)接近于0的可能。簡(jiǎn)單來說,我們讓算法具有一定動(dòng)量,所以即使局部梯度為0,我們?nèi)匀豢梢愿叽饲坝?jì)算的值向前。所以這與純梯度下降相比是更好的方法。

通常,我們用反向傳播計(jì)算網(wǎng)絡(luò)中每一層dW和db的值。但是這一次,我們不直接用計(jì)算梯度更新神經(jīng)網(wǎng)絡(luò)參數(shù)的值,而是先計(jì)算VdW和Vdb的中間值。之后我們?cè)谔荻认陆抵杏玫禫dW和Vdb,過程如下公式所示:

如上文中股票的例子,指數(shù)加權(quán)平均可以讓我們專注于領(lǐng)先趨勢(shì)而不是噪聲。指示最小值的分量被放大,并且緩慢消除負(fù)責(zé)震蕩的分量。更重要的是,如果我們?cè)诤罄m(xù)更新中獲得指向類似方向的梯度,則學(xué)習(xí)率將增加。然而,這種方法有一個(gè)缺點(diǎn):當(dāng)你接近最小值時(shí),動(dòng)量值會(huì)增加,并且可能會(huì)變得很大,以至于算法無法再正確位置停止。

RMSProp

另一種提高梯度下降性能的方法就是使用RMSProp策略,這也是最常用的優(yōu)化算法之一。這也是另一種使用甲醛梯度下降的算法,并且它是可自適應(yīng)的,可以對(duì)模型每個(gè)參數(shù)調(diào)整學(xué)習(xí)率。后續(xù)參數(shù)的值取決于此前特殊參數(shù)上梯度的值。

但是,這種方法也有缺點(diǎn),如上等式中的分母在每次迭代中增加,我們的學(xué)習(xí)率就會(huì)越來越小,結(jié)果可能導(dǎo)致模型完全停止。

優(yōu)化對(duì)比

Adam

最后的最后,我們來到了自適應(yīng)動(dòng)量估計(jì)。這也是使用廣泛的算法,它吸取了RMSProp最大的優(yōu)點(diǎn),將動(dòng)量優(yōu)化的概念相結(jié)合,使得策略可以做出快速高效的優(yōu)化。

但是,盡管方法高效,計(jì)算的復(fù)雜程度也相應(yīng)上升。如上所示,我寫了十個(gè)矩陣等式,表示優(yōu)化過程中的單次迭代。可能很多人看起來都非常陌生。不要擔(dān)心!這些等式和此前的動(dòng)量和RMSProp優(yōu)化算法相似。

結(jié)語

這篇文章對(duì)幾種優(yōu)化算法做了大致總結(jié),了解這些算法有助于在不同情況下正確使用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:快速訓(xùn)練神經(jīng)網(wǎng)絡(luò)的優(yōu)化算法一覽

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    詳解深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

    在如今的網(wǎng)絡(luò)時(shí)代,錯(cuò)綜復(fù)雜的大數(shù)據(jù)和網(wǎng)絡(luò)環(huán)境,讓傳統(tǒng)信息處理理論、人工智能與人工神經(jīng)網(wǎng)絡(luò)都面臨巨大的挑戰(zhàn)。近些年,深度學(xué)習(xí)逐漸走進(jìn)人們的視線
    的頭像 發(fā)表于 01-11 10:51 ?2823次閱讀
    詳解深度<b class='flag-5'>學(xué)習(xí)</b>、<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>與卷積<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的應(yīng)用

    【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

    今天學(xué)習(xí)了兩個(gè)神經(jīng)網(wǎng)絡(luò),分別是自適應(yīng)諧振(ART)神經(jīng)網(wǎng)絡(luò)與自組織映射(SOM)神經(jīng)網(wǎng)絡(luò)。整體感覺不是很難,只不過一些最基礎(chǔ)的概念容易理解不清。首先ART
    發(fā)表于 07-21 04:30

    怎么設(shè)計(jì)ARM與神經(jīng)網(wǎng)絡(luò)處理器的通信方案?

    人工神經(jīng)網(wǎng)絡(luò)在很多領(lǐng)域得到了很好的應(yīng)用,尤其是具有分布存儲(chǔ)、并行處理、自學(xué)習(xí)、自組織以及非線性映射等特點(diǎn)的網(wǎng)絡(luò)應(yīng)用更加廣泛。嵌入式便攜設(shè)備也越來越多地得到應(yīng)用,多數(shù)是基于ARM內(nèi)核及現(xiàn)
    發(fā)表于 09-20 06:15

    基于BP神經(jīng)網(wǎng)絡(luò)的PID控制

    最近在學(xué)習(xí)電機(jī)的智能控制,上周學(xué)習(xí)了基于單神經(jīng)元的PID控制,這周研究基于BP神經(jīng)網(wǎng)絡(luò)的PID控制。神經(jīng)網(wǎng)絡(luò)具有任意非線性表達(dá)能力,可以通過
    發(fā)表于 09-07 07:43

    圖像預(yù)處理和改進(jìn)神經(jīng)網(wǎng)絡(luò)推理的簡(jiǎn)要介紹

    為提升識(shí)別準(zhǔn)確率,采用改進(jìn)神經(jīng)網(wǎng)絡(luò),通過Mnist數(shù)據(jù)集進(jìn)行訓(xùn)練。整體處理過程分為兩步:圖像預(yù)處理和改進(jìn)神經(jīng)網(wǎng)絡(luò)推理。圖像預(yù)處理主要根據(jù)圖像
    發(fā)表于 12-23 08:07

    卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

    卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用轉(zhuǎn)載****地址:http://fcst.ceaj.org/CN/abstract/abstract2521.shtml深度學(xué)習(xí)是機(jī)器學(xué)習(xí)和人工智能研究的最新趨勢(shì),作為一個(gè)
    發(fā)表于 08-02 10:39

    卷積神經(jīng)網(wǎng)絡(luò)為什么適合圖像處理?

    卷積神經(jīng)網(wǎng)絡(luò)為什么適合圖像處理?
    發(fā)表于 09-08 10:23

    卷積神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介:什么是機(jī)器學(xué)習(xí)?

    決定。為此使用決策閾值。另一個(gè)區(qū)別是模式識(shí)別機(jī)沒有配備固定的規(guī)則。相反,它是經(jīng)過訓(xùn)練的。在這個(gè)學(xué)習(xí)過程中,神經(jīng)網(wǎng)絡(luò)被顯示大量的貓圖像。最后,該網(wǎng)絡(luò)能夠獨(dú)立識(shí)別圖像中是否有貓。關(guān)鍵的一點(diǎn)
    發(fā)表于 02-23 20:11

    如何提升AI算法速度 打造接近人腦規(guī)模的神經(jīng)網(wǎng)絡(luò)

    SET的靈感來自生物網(wǎng)絡(luò)以及特定神經(jīng)網(wǎng)絡(luò),而這些特定神經(jīng)網(wǎng)絡(luò)之所以運(yùn)行效率高有三個(gè)特征,包括網(wǎng)絡(luò)連接性相對(duì)較低、神經(jīng)中樞稀少以及路徑短。
    發(fā)表于 07-06 09:32 ?1176次閱讀

    基于脈沖神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí)算法

    使用脈沖序列進(jìn)行數(shù)據(jù)處理的脈沖神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的低功耗特性,但由于學(xué)習(xí)算法不成熟,多層網(wǎng)絡(luò)練存在收斂困難的問題。利用反向傳播網(wǎng)絡(luò)具有
    發(fā)表于 05-24 16:03 ?15次下載

    什么是神經(jīng)網(wǎng)絡(luò)?什么是卷積神經(jīng)網(wǎng)絡(luò)?

    在介紹卷積神經(jīng)網(wǎng)絡(luò)之前,我們先回顧一下神經(jīng)網(wǎng)絡(luò)的基本知識(shí)。就目前而言,神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)算法的核心,我們所熟知的很多深度學(xué)習(xí)算法的背后其實(shí)都
    的頭像 發(fā)表于 02-23 09:14 ?4364次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用 卷積神經(jīng)網(wǎng)絡(luò)通常用來處理什么

    神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)廣泛用于圖像識(shí)別、自然語言處理、視頻處理等方面。本文將對(duì)卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用進(jìn)行詳盡、詳實(shí)、細(xì)致的介紹,以及卷積
    的頭像 發(fā)表于 08-21 16:41 ?5634次閱讀

    神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)有哪些

    神經(jīng)網(wǎng)絡(luò)中,激活函數(shù)是一個(gè)至關(guān)重要的組成部分,它決定神經(jīng)元對(duì)于輸入信號(hào)的反應(yīng)方式,為神經(jīng)網(wǎng)絡(luò)引入了非線性因素,使得
    的頭像 發(fā)表于 07-01 11:52 ?1153次閱讀

    BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系

    ),是一種多層前饋神經(jīng)網(wǎng)絡(luò),它通過反向傳播算法進(jìn)行訓(xùn)練。BP神經(jīng)網(wǎng)絡(luò)由輸入層、一個(gè)或多個(gè)隱藏層和輸出層組成,通過逐層遞減的方式調(diào)整網(wǎng)絡(luò)權(quán)重,目的是最小化網(wǎng)絡(luò)的輸出誤差。 二、深度
    的頭像 發(fā)表于 02-12 15:15 ?866次閱讀

    如何優(yōu)化BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)

    優(yōu)化BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率是提高模型訓(xùn)練效率和性能的關(guān)鍵步驟。以下是一些優(yōu)化BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率的方法: 一、理解學(xué)習(xí)率的重要性
    的頭像 發(fā)表于 02-12 15:51 ?942次閱讀