99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Adam模型的新改進“Rectified Adam”

DPVg_AI_era ? 來源:lq ? 2019-09-13 16:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

UIUC華人博士生團隊提出了對常用機器學習模型優(yōu)化器Adam的新改進RAdam,省去了使用Adam必須的“預熱”環(huán)節(jié),既能保證學習率和收斂速度,又能有效避免模型陷入“局部最優(yōu)解”的陷阱,堪稱Adam的優(yōu)秀接班人!

近日,UIUC的華人博士生Liyuan Liu等人的一篇新論文中介紹了Adam模型的新改進“Rectified Adam”(簡稱RAdam)。這是基于原始Adam作出的改進,它既能實現Adam快速收斂的優(yōu)點,又具備SGD方法的優(yōu)勢,令模型收斂至質量更高的結果。

有國外網友親測,效果拔群。

以下是網友測試過程和RAdam的簡介:

我已經在FastAI框架下測試了RAdam,并快速獲得了高精度新記錄,而不是ImageNette上兩個難以擊敗的FastAI排行榜得分。我今年測試了許多論文中的模型,大部分模型似乎在文中給出的特定數據集上表現良好,而在我嘗試的新的數據集上表現不佳。但RAdam不一樣,看起來真的實現了性能提升,可能成為vanilla Adam的永久“接班人”。

RAdam具備在多種學習率下的強大性能,同時仍能快速收斂并實現更高的性能(CIFAR數據集)

RAdam和XResNet50,5個epoch精度即達到86%

Imagenette排行榜:達到當前最高性能84.6%

下面來看看RAdam的內部機制,看看為什么能夠實現更優(yōu)質的收斂,更好的訓練穩(wěn)定性(相對所選擇的學習率更不敏感),為何基于幾乎所有AI應用都能實現更好的準確性和通用性。

不只是對于CNN:RAdam在Billion Word Dataset上的表現優(yōu)于LSTM

RAdam:無需預熱,避免模型收斂至“局部最優(yōu)解”

作者指出,雖然每個人都在努力實現快速穩(wěn)定的優(yōu)化算法,但包括Adam,RMSProp等在內的自適應學習率優(yōu)化器都存在收斂到質量較差的局部最優(yōu)解的可能。因此,幾乎每個人都使用某種形式的“預熱”方式來避免這種風險。但為什么需要預熱?

由于目前對AI社區(qū)中對于“預熱”出現的潛在原因,甚至最佳實踐的理解有限,本文作者試圖揭示這個問題的基礎。他們發(fā)現,根本問題是自適應學習率優(yōu)化器具有太大的變化,特別是在訓練的早期階段,并且可能由于訓練數據量有限出現過度跳躍,因此可能收斂至局部最優(yōu)解。

使用原始Adam必須預熱,否則正態(tài)分布會變得扭曲,是否預熱的分布對比見上圖

因此,當優(yōu)化器僅使用有限的訓練數據時,采用“預熱”(這一階段的學習率要慢得多)是自適應優(yōu)化器要求抵消過度方差的要求。

簡而言之,vanilla Adam和其他自適應學習速率優(yōu)化器可能會基于訓練早期數據太少而做出錯誤決策。因此,如果沒有某種形式的預熱,很可能在訓練一開始便會收斂局部最優(yōu)解,這使得訓練曲線由于糟糕的開局而變得更長、更難。

然后,作者在不用預熱的情況下運行了Adam,但是在前2000次迭代(adam-2k)中避免使用動量,結果實現了與“Adam+預熱”差不多的結果,從而驗證了“預熱”在訓練的初始階段中起到“降低方差”的作用,并可以避免Adam在沒有足夠數據的情況下在開始訓練時即陷入局部最優(yōu)解。

適用于多個數據集,堪稱Adam的優(yōu)秀“接班人”

我們可以將“預熱”作為降低方差的方法,但所需的預熱程度未知,而且具體情況會根據數據集不同而變化,本文確定了一個數學算法,作為“動態(tài)方差減少器”。作者建立了一個“整流項”,可以緩慢而穩(wěn)定地允許將自適應動量作為基礎方差的函數進行充分表達。完整模型是這樣的:

作者指出,在某些情況下,由于衰減率和基本方差的存在,RAdam可以在動量等效的情況下退化為SGD。

實驗表明,RAdam優(yōu)于傳統的手動預熱調整,其中需要預熱或猜測需要預熱的步驟數。RAdam自動提供方差縮減,在各種預熱長度和各種學習率下都優(yōu)于手動預熱。

總之,RAdam可以說是AI最先進的優(yōu)化器,可以說是Adam的優(yōu)秀接班人!

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 函數
    +關注

    關注

    3

    文章

    4381

    瀏覽量

    64937
  • 機器學習
    +關注

    關注

    66

    文章

    8505

    瀏覽量

    134662
  • 數據集
    +關注

    關注

    4

    文章

    1224

    瀏覽量

    25462

原文標題:Adam可以換了?UIUC中國博士生提出RAdam,收斂快精度高,大小模型通吃

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    FA模型卡片和Stage模型卡片切換

    卡片切換 卡片切換主要包含如下三部分: 卡片頁面布局:FA模型卡片和Stage模型卡片的布局都采用類web范式開發(fā)可以直接復用。 卡片配置文件:FA模型的卡片配置在config.json中
    發(fā)表于 06-06 08:10

    FA模型訪問Stage模型DataShareExtensionAbility說明

    FA模型訪問Stage模型DataShareExtensionAbility 概述 無論FA模型還是Stage模型,數據讀寫功能都包含客戶端和服務端兩部分。 FA
    發(fā)表于 06-04 07:53

    改進電壓模型的異步電機無速度傳感器矢量控制

    無速度傳感器矢量控制技術能夠有效提高交流傳動系統的可靠性,降低系統成本。該技術的核心問題是準確獲取電機轉子轉速,并將其反饋到速度閉環(huán)控制環(huán)節(jié)。介紹一種采用改進模型參考自適應轉速估計方法的異步電機矢量
    發(fā)表于 05-28 15:43

    改進GPC算法在永磁同步電機控制系統中的應用

    (CARIMA)模型?;诖?b class='flag-5'>模型和金元郁等提出的改進廣義預測控制算法(JGPC)設計出了適用于 PMSM驅動系統的速度環(huán)的改進廣義預測控制器。仿真實驗表明,JCPC控制器可以很好的跟蹤
    發(fā)表于 05-28 15:41

    FPGA 大神 Adam Taylor 使用 ALINX VD100(AMD Versal系列)開發(fā)平臺實現圖像處理

    本篇文章來自 FPGA 大神、Ardiuvo XVtc VtcInst;VideoMode video;XVtc_Config *vtc_config ;int main(){ XVtc_SourceSelect SourceSelect; XVtc_Timing vtcTiming; u32 height,width,status; init_platform(); print("Setting up Timingnr"); vtc_config = XVtc_LookupConfig(XPAR_XVTC_0_BASEADDR); XVtc_CfgInitialize( print("Setting up Videonr"); video = VMODE_1280x720 ;vtcTiming.HActiveVideo = video.width;vtcTiming.HFrontPorch = video.hps - video.width;vtcTiming.HSyncWidth = video.hpe - video.hps;vtcTiming.HBackPorch = video.hmax - video.hpe + 1;vtcTiming.HSyncPolarity = video.hpol;vtcTiming.VActiveVideo
    的頭像 發(fā)表于 05-16 09:46 ?1903次閱讀
    FPGA 大神 <b class='flag-5'>Adam</b> Taylor 使用 ALINX VD100(AMD Versal系列)開發(fā)平臺實現圖像處理

    KaihongOS操作系統FA模型與Stage模型介紹

    FA模型與Stage模型介紹 KaihongOS操作系統中,FA模型(Feature Ability)和Stage模型是兩種不同的應用模型
    發(fā)表于 04-24 07:27

    如何將 ADAM 采集模塊的 Modbus 原始值轉換成物理值?

    在工業(yè)數據采集領域,ADAM系列模塊的Modbus原始值轉換是工程師常見的技術挑戰(zhàn)。本文蘇州研訊電子科技有限公司將通過具體案例,解析16位數據轉換的底層邏輯與實操步驟,幫助您快速實現原始數據到物理量
    的頭像 發(fā)表于 04-07 11:17 ?295次閱讀
    如何將 <b class='flag-5'>ADAM</b> 采集模塊的 Modbus 原始值轉換成物理值?

    如何將Cycle模型轉換為中間表示 (IR)?

    轉換后的 TensorFlow* 1 Cycle ECLIPSE 非凍結模型。 mo --input_meta_graph cyclegan.model-2002.meta 收到錯誤
    發(fā)表于 03-06 07:56

    明晚開播 |數據智能系列講座第5期:理解并改進基礎模型

    鷺島論壇數據智能系列講座第5期「理解并改進基礎模型」明晚(19號)20:00精彩開播期待與您云相聚,共襄學術盛宴!|直播信息報告題目理解并改進基礎模型報告簡介大型基礎
    的頭像 發(fā)表于 02-18 17:23 ?645次閱讀
    明晚開播 |數據智能系列講座第5期:理解并<b class='flag-5'>改進</b>基礎<b class='flag-5'>模型</b>

    直播預約 |數據智能系列講座第5期:理解并改進基礎模型

    鷺島論壇數據智能系列講座第5期「理解并改進基礎模型」2月19日(周三)20:00精彩開播期待與您云相聚,共襄學術盛宴!|直播信息報告題目理解并改進基礎模型報告簡介大型基礎
    的頭像 發(fā)表于 02-11 14:33 ?432次閱讀
    直播預約 |數據智能系列講座第5期:理解并<b class='flag-5'>改進</b>基礎<b class='flag-5'>模型</b>

    FPC&FFC連接器圖紙

    Adam Tech PCB系列柔性印刷電路(FPC)和柔性扁平電纜(FFC)連接器是LIF(低插入力)設計,可提供低成本,快速,輕松可靠的柔性印刷電路到PCB的連接。Adam Tech的特殊觸點
    發(fā)表于 01-08 17:57 ?2次下載

    AI模型部署邊緣設備的奇妙之旅:目標檢測模型

    介紹了如何使用分類任務進行手寫數字的分類。相信大家腦海中可能會產生如下疑問: 數據依賴性強:分類模型的表現通常依賴于大量的標注數據進行訓練。獲取高質量、大規(guī)模的數據集既耗時又昂貴。 泛化能力有限:模型
    發(fā)表于 12-19 14:33

    【「大模型啟示錄」閱讀體驗】如何在客服領域應用大模型

    在客服領域是大模型落地場景中最多的,也是最容易實現的。本身客服領域的特點就是問答形式,大模型接入難度低。今天跟隨《大模型啟示錄 》這本書,學習大模型在客服領域的改變。選擇大
    發(fā)表于 12-17 16:53

    如何提升ASR模型的準確性

    收集高質量語音數據 : 確保數據具有代表性,涵蓋各種口音、語速、噪聲環(huán)境等。 使用專業(yè)設備錄制語音,以減少錄音質量對模型訓練的影響。 數據清洗與預處理 : 去除低質量或無關緊要的語音數據。 對語音數據進行降噪、標準化等處理,以提高數據質量。 二、改進
    的頭像 發(fā)表于 11-18 15:14 ?2354次閱讀

    未來AI大模型的發(fā)展趨勢

    上得到了顯著提升。未來,算法和架構的進一步優(yōu)化將推動AI大模型在性能上實現新的突破。 多頭自注意力機制、前饋神經網絡等關鍵技術的改進,將增強模型的表達能力和泛化能力。 多模態(tài)融合 : AI大
    的頭像 發(fā)表于 10-23 15:06 ?1961次閱讀