99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

中國博士生Liyuan Liu提出了一個新的優(yōu)化器RAdam

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:通信信號處理研究所 ? 2019-12-06 15:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

找到一種快速穩(wěn)定的優(yōu)化算法,是所有AI研究人員的目標。

但是魚和熊掌不可兼得。Adam、RMSProp這些算法雖然收斂速度很快,當往往會掉入局部最優(yōu)解的“陷阱”;原始的SGD方法雖然能收斂到更好的結(jié)果,但是訓練速度太慢。

最近,一位來自UIUC的中國博士生Liyuan Liu提出了一個新的優(yōu)化器RAdam。

它兼有Adam和SGD兩者的優(yōu)點,既能保證收斂速度快,也不容易掉入局部最優(yōu)解,而且收斂結(jié)果對學習率的初始值非常不敏感。在較大學習率的情況下,RAdam效果甚至還優(yōu)于SGD。

RAdam意思是“整流版的Adam”(Rectified Adam),它能根據(jù)方差分散度,動態(tài)地打開或者關(guān)閉自適應(yīng)學習率,并且提供了一種不需要可調(diào)參數(shù)學習率預(yù)熱的方法。

一位Medium網(wǎng)友Less Wright在測試完RAdam算法后,給予了很高的評價:

RAdam可以說是最先進的AI優(yōu)化器,可以永遠取代原來的Adam算法了。

目前論文作者已將RAdam開源,F(xiàn)astAI現(xiàn)在已經(jīng)集成了RAdam,只需幾行代碼即可直接調(diào)用。

補眾家之短

想造出更強的優(yōu)化器,就要知道前輩們的問題出在哪:

像Adam這樣的優(yōu)化器,的確可以快速收斂,也因此得到了廣泛的應(yīng)用。

但有個重大的缺點是不夠魯棒,常常會收斂到不太好的局部最優(yōu)解 (Local Optima) ,這就要靠預(yù)熱(Warmup)來解決——

最初幾次迭代,都用很小的學習率,以此來緩解收斂問題。

為了證明預(yù)熱存在的道理,團隊在IWSLT’14德英數(shù)據(jù)集上,測試了原始Adam和帶預(yù)熱的Adam。

結(jié)果發(fā)現(xiàn),一把預(yù)熱拿掉,Transformer語言模型的訓練復(fù)雜度 (Perplexity) ,就從10增到了500。

另外,BERT預(yù)訓練也是差不多的情況。

為什么預(yù)熱、不預(yù)熱差距這樣大?團隊又設(shè)計了兩個變種來分析:

缺乏樣本,是問題根源

一個變種是Adam-2k:

在前2000次迭代里,只有自適應(yīng)學習率是一直更新的,而動量 (Momentum) 和參數(shù)都是固定的。除此之外,都沿襲了原始Adam算法。

實驗表明,在給它2000個額外的樣本來估計自適應(yīng)學習率之后,收斂問題就消失了:

另外,足夠多的樣本可以避免梯度分布變扭曲 (Distorted) :

這些發(fā)現(xiàn)證明了一點:早期缺乏足夠數(shù)據(jù)樣本,就是收斂問題的根源。

下面就要證明,可以通過降低自適應(yīng)學習率的方差來彌補這個缺陷。

降低方差,可解決問題

一個直接的辦法就是:

把ψ-cap里面的?增加。假設(shè)ψ-cap(. ) 是均勻分布,方差就是1/12?^2。

這樣就有了另一個變種Adam-eps。開始把?設(shè)成一個可以忽略的1×10^-8,慢慢增加,到不可忽略的1×10^-4。

從實驗結(jié)果看,它已經(jīng)沒有Adam原本的收斂問題了:

這就證明了,真的可以通過控制方差來解決問題。另外,它和Adam-2k差不多,也可以避免梯度分布扭曲。

然而,這個模型表現(xiàn)比Adam-2k和帶預(yù)熱的Adam差很多。

推測是因為?太大,會給自適應(yīng)學習率帶來重大的偏差 (Bias) ,也會減慢優(yōu)化的過程。

所以,就需要一個更加嚴格的方法,來控制自適應(yīng)學習率。

論文中提出,要通過估算自由度ρ來實現(xiàn)量化分析。

RAdam定義

RAdam算法的輸入有:步長αt;衰減率{β1, β2},用于計算移動平均值和它的二階矩。

輸出為θt。

首先,將移動量的一階矩和二階矩初始化為m0,v0,計算出簡單移動平均值(SMA)的最大長度ρ∞←2/(1-β2)-1。

然后按照以下的迭代公式計算出:第t步時的梯度gt,移動量的二階矩vt,移動量的一階矩mt,移動偏差的修正和SMA的最大值ρt。

如果ρ∞大于4,那么,計算移動量二階矩的修正值和方差修正范圍:

如果ρ∞小于等于4,則使用非自適應(yīng)動量更新參數(shù):

以上步驟都完成后,得出T步驟后的參數(shù)θT。

測試結(jié)果

RAdam在圖像分類任務(wù)CIFAR-10和ImageNet上測試的結(jié)果如下:

盡管在前幾個周期內(nèi)整流項使得RAdam比Adam方法慢,但是在后期的收斂速度是比Adam要更快的。

盡管RAdam在測試精度方面未能超越SGD,但它可以帶來更好的訓練性能。

此外,RAdam算法對初始學習率是具有魯棒性的,可以適應(yīng)更寬范圍內(nèi)的變化。在從0.003到0.1一個很寬的范圍內(nèi),RAdam表現(xiàn)出了一致的性能,訓練曲線末端高度重合。

親測過的網(wǎng)友Less Wright說,RAdam和他今年測試的許多其它論文都不一樣。

其他方法常常是在特定數(shù)據(jù)集上有良好的效果,但是放在新的數(shù)據(jù)集上往往表現(xiàn)不佳。

而RAdam在圖像分類、語言建模,以及機器翻譯等等許多任務(wù)上,都證明有效。

(也側(cè)面說明,機器學習的各類任務(wù)里,廣泛存在著方差的問題。)

Less Wright在ImageNette上進行了測試,取得了相當不錯的效果(注:ImageNette是從ImageNet上抽取的包含10類圖像的子集)。在5個epoch后,RAdam已經(jīng)將準確率快速收斂到86%。

如果你以為RAdam只能處理較小數(shù)據(jù)集上的訓練,或者只有在CNN上有較好的表現(xiàn)就大錯特錯了。即使大道有幾十億個單詞的數(shù)據(jù)集的LSTM模型,RAdam依然有比Adam更好的表現(xiàn)。

總之,RAdam有望提供更好的收斂性、訓練穩(wěn)定性,以及幾乎對所有AI應(yīng)用都用更好的通用性。

關(guān)于作者

論文的作者Liyuan Liu是一位90后,本科畢業(yè)于中國科學技術(shù)大學,曾在微軟亞洲研究院實習。而這項工作,也得益于與微軟的合作。

早在本科期間,Liyuan Liu就師從國家杰出青年基金獲得者,中科大陳恩紅教授,以第一作者的身份在ICDM發(fā)表過文章。

2016年,Liyuan Liu小哥本科畢業(yè),加入了美國伊利諾伊大學香檳分校數(shù)據(jù)挖掘小組(DMG),成為美國計算機協(xié)會和IEEE院士韓家煒教授課題組的一名CS博士,從事NLP研究。

讀博以來,Liyuan Liu開始在各大頂會上嶄露頭角。在2018年NLP領(lǐng)域國際頂會EMNLP當中,他的一作論文《Efficient Contextualized Representation: Language Model Pruning for Sequence Labeling》就被收錄為口頭報告。

又是一位閃閃發(fā)光的少年英才啊。

論文地址:
https://arxiv.org/abs/1908.03265v1

源代碼:
https://github.com/LiyuanLucasLiu/RAdam

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    279959
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3689

    瀏覽量

    43832

原文標題:中國博士生提出最先進AI訓練優(yōu)化器,收斂快精度高,網(wǎng)友親測:Adam可以退休了

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    山西大學實現(xiàn)種壓縮激光新型光源

    lasing through the parametric coupling”發(fā)表于物理學頂級期刊Physical Review Letters上。山西大學為第單位和通訊單位。其中,山西大學光電研究所博士生
    的頭像 發(fā)表于 07-17 09:44 ?78次閱讀
    山西大學實現(xiàn)<b class='flag-5'>一</b>種壓縮激光新型光源

    VirtualLab 應(yīng)用:傾斜光柵的參數(shù)優(yōu)化及公差分析

    摘要 對于背光系統(tǒng)、光內(nèi)連和近眼顯示等許多應(yīng)用來說,將光高效地耦合到引導結(jié)構(gòu)中是重要的問題。對于這種應(yīng)用,傾斜光柵以能夠高效地耦合單色光而聞名。在本例中,
    發(fā)表于 05-22 08:52

    DEKRA德凱林博士榮獲TIC理事會“Merit Award for Advocacy”獎項

    5月13日,TIC理事會總部年度會員大會公布了TIC Merit Award的獲獎?wù)?。DEKRA德凱集團執(zhí)行副總裁、亞太區(qū)總裁,TIC理事會中國地區(qū)指導委員會主席林博士(Dr. Kilian
    的頭像 發(fā)表于 05-15 11:29 ?502次閱讀
    DEKRA德凱林<b class='flag-5'>一</b>墨<b class='flag-5'>博士</b>榮獲TIC理事會“Merit Award for Advocacy”獎項

    種分段氣隙的CLLC變換平面變壓設(shè)計

    種路徑,采用磁集成方法,對1MHz雙向CLLC變換的變壓進行研究、設(shè)計與測試,通過優(yōu)化PCB繞線方法、進行仿真優(yōu)化,
    發(fā)表于 03-27 13:57

    使用ADHV4702創(chuàng)建高壓精密恒流源,如何優(yōu)化?

    我想使用ADHV4702創(chuàng)建高壓精密恒流源,通過切換RS的檔位,使得該恒流源可以輸出pA到A級的電流,但是這個電路無法仿真,請問應(yīng)該如何優(yōu)化
    發(fā)表于 03-25 06:07

    開關(guān)電源設(shè)計指南(完整版)

    了功率因數(shù)校正、印制電路設(shè)計、熱設(shè)計、噪聲控制和電磁干擾抑制等內(nèi)容。 可供從事開關(guān)電源開發(fā)的工程技術(shù)人員參考使用,也可作為高等院校電力電子技術(shù)專業(yè)及相關(guān)專業(yè)高年級大學生、碩士、博士生和教師的參考書使用。 (如果內(nèi)容有幫助可以關(guān)注、點贊、評論支持
    發(fā)表于 03-17 14:18

    VirtualLab Fusion應(yīng)用:非近軸衍射分束的設(shè)計與優(yōu)化

    )的結(jié)構(gòu)設(shè)計生成系列分束的初始設(shè)計,然后通過傅里葉模態(tài)法或嚴格耦合波分析(FMM/RCWA)進優(yōu)化。為了給最后
    發(fā)表于 03-10 08:56

    漢陽大學:研發(fā)自供電、原材料基傳感,開啟人機交互新篇章

    近日, 韓國漢陽大學王偉教授團隊 在人機交互技術(shù)領(lǐng)域取得重要突破,提出了種 自供電 、 原材料基 、 具有最小化信號通道數(shù) 的傳感陣列設(shè)計方法。這研究為傳感
    的頭像 發(fā)表于 01-06 17:42 ?557次閱讀
    漢陽大學:研發(fā)自供電、原材料基傳感<b class='flag-5'>器</b>,開啟人機交互新篇章

    南京理工在計算光學顯微成像領(lǐng)域重要研究進展

    國際頂尖光學期刊Laser &Photonics Reviews,并當選為期刊封面論文。電光學院博士生周寧和張潤南,碩士徐偉勝為本文共同第作者,南京理工大學為第完成單位和通訊單位
    的頭像 發(fā)表于 12-24 06:25 ?465次閱讀
    南京理工在計算光學顯微成像領(lǐng)域重要研究進展

    70多位博士生相聚浙江臺州,只為這行業(yè)傳感技術(shù)創(chuàng)新

    ,浙江大學生物醫(yī)學傳感與檢測全國博士生學術(shù)論壇在浙江大學臺州研究院舉行,來自全國各地知名高校50多個生物醫(yī)學傳感與檢測領(lǐng)域的課題組的近70名博士生,開展學術(shù)交流,激蕩創(chuàng)新能力,同時尋求和臺州企業(yè)合作的機會
    的頭像 發(fā)表于 11-20 15:12 ?369次閱讀

    京微齊力受邀參加2024年清華大學工程博士論壇

    此前,2024年清華大學國家卓越工程師學院工程博士論壇在北京亦莊(北京經(jīng)濟技術(shù)開發(fā)區(qū))舉辦。本屆論壇以“清亦融創(chuàng)、新質(zhì)引領(lǐng)”為主題,來自集成電路、生物醫(yī)藥、人工智能等戰(zhàn)略性新興領(lǐng)域500余位清華大學創(chuàng)新領(lǐng)軍工程博士生參加。
    的頭像 發(fā)表于 11-06 10:17 ?900次閱讀

    2024第二屆“必易微杯”ADC芯片設(shè)計切磋營圓滿結(jié)束

    2024 第二屆“必易微杯” ADC 芯片設(shè)計切磋營(以下簡稱“切磋營”)系復(fù)旦大學微電子學院教授、博士生導師唐長文先生發(fā)起的社會公益活動,本著相互學習和相互借鑒為主旨,以探討實用的 ADC 設(shè)計方法和規(guī)范流程為目標,為準備從事高性能 ADC 芯片設(shè)計的人員提供
    的頭像 發(fā)表于 09-25 11:12 ?1125次閱讀

    當前主流的大模型對于底層推理芯片提出了哪些挑戰(zhàn)

    隨著大模型時代的到來,AI算力逐漸變成重要的戰(zhàn)略資源,對現(xiàn)有AI芯片也提出了前所未有的挑戰(zhàn):大算力的需求、高吞吐量與低延時、高效內(nèi)存管理、能耗等等。
    的頭像 發(fā)表于 09-24 16:57 ?1200次閱讀

    福祿克公司助力北京交通大學畢業(yè)實習活動

    近日,福祿克公司計量校準部首席電磁計量師楊勝利老師及多位電學技術(shù)支持老師們行,受邀前往北京交通大學自動化系。在這里,他們與大四的本科、研究博士生們共同開啟了
    的頭像 發(fā)表于 08-16 10:36 ?818次閱讀

    TIAN進行噪聲分析的時候彈出了錯誤,怎么解決?

    請大神幫忙看看,我在進行噪聲分析的時候彈出了錯誤,不知道怎么辦
    發(fā)表于 08-16 09:23