99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

刪掉Transformer中的這幾層性能變好了?

深度學習自然語言處理 ? 來源:夕小瑤的賣萌屋 ? 作者:chaos ? 2021-03-08 10:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

基于Transformer結構的各類語言模型(Bert基于其encoder,Gpt-2基于其decoder)早已經(jīng)在各類NLP任務上大放異彩,面對讓人眼花繚亂的transformer堆疊方式,你是否也會感到迷茫?沒關系,現(xiàn)在讓我們回到最初,再次看看transformer 本來的模樣——Rethinking the Value of Transformer Components。該文收錄已于COLING 2020。

眾所周知,一個完整的transformer結構可以切分成Encoder-self attention(“E:SA”), Encoder-Feed Forward(“E:FF”), Decoder-Self Attention(“D:SA”), Decoder-Encoder Attention(“D:EA”) 和 Decoder-Feed Forward(“D:FF”) 5個sub-layer結構。文中作者采用了兩種度量方式確認這些sub-layer的重要程度。

方法稍后再談,先上干貨,實驗結果表明:

Decoder self-attention layers是最不重要的,而Decoder feed-forward layers是最重要的;

離模型的輸入和輸出越近的sub-layer要比其他的重要些;

在decoder里越靠后的encoder-attention layer要比之前的重要。

這些結果對不同的度量方法,數(shù)據(jù)集,初始化種子以及模型容量都能保持一致性。

▲Transformer結構圖

模塊重要性分析

所謂的重要性究竟是什么呢?論文認為,這主要包括兩個方面:

Contribution in information Flow,對于模型信息流的貢獻程度

Criticality in Representation Generalization,模型的模塊對參數(shù)的擾動表現(xiàn)出不同的魯棒性

Contribution in Information Flow

Transformer 最初是用來做機器翻譯任務的。所謂的information flow就是指數(shù)據(jù)如何從源語言經(jīng)過Transformer的encoder和decoder最終成為目標語言的。如何衡量模型的每個部分對information flow做出的貢獻呢? 最直觀的想法就是去掉那個部分看看同樣條件下模型的效果如何。如果去掉那個部分,模型效果沒什么變化,那就說明該部分沒做什么貢獻,反之,如果刪掉該部分,模型效果顯著降低則說明它貢獻卓著,沒它不行。作者采用了如下的量化方法:

公式中指的是去除第n個部分后模型整體的BLEU得分降。為了避免出現(xiàn)重要性指數(shù)出現(xiàn)負值和爆炸性下跌,作者將的值設定在[0,C]之間(真的會出現(xiàn)負重要性指數(shù)嗎?那樣倒挺好——模型變小,效果更好)。然后通過除以最大的得分降將的值進行了歸一化,這里作者設置的上限C值為基線模型的BLEU得分的1/10.

Criticality in Representation Generalization

這里說的criticality指的是模型的模塊對參數(shù)的擾動表現(xiàn)出不同的魯棒性。比方說,如果將某個模塊的參數(shù)重置為初始化參數(shù),模型的表現(xiàn)變差,那么這個模塊就是critical的,否則就是non-critical的。有人在理論上將這個criticality給公式化了,而且他們表明這個criticality可以反映神經(jīng)網(wǎng)絡的泛化能力。

作者便是參考了這個工作,對網(wǎng)絡的第n個模塊,定義

即初始權重和最終權重的一個凸組合。

那么第n個部分的criticality score就可以表示為

這個式子定量的說明了criticality是最小的能使模型在閾值的情況下保持性能。這個值越小說明該模塊越不重要,這里取的是 0.5 BLEU分。

兩種度量方法雖然都是基于模塊對模型表現(xiàn)的影響的,但是又有不同之處。Contribution score可以看成是 hard metric(完全刪除模塊),而 Criticality score可以看成是一種soft metric,它衡量的是在保證模型表現(xiàn)的前提下模塊參數(shù)能多大程度的回卷。

實驗

實驗是在WMT2014 English-German(En-De)和English-French(En-Fr)兩個機器翻譯數(shù)據(jù)集上進行的,作者使用的Transformer模型和Transformer的那篇原始文獻(Vaswani et al.,2017)是一樣的。Transformer model 一共6層編碼器和解碼器,layer size是512,feed-forward sub-layer的size是2048,attention head的數(shù)值是8,dropout是0.1,initialization seed設置為1。

觀察模塊的重要性

上圖是采用兩種度量方式在兩個數(shù)據(jù)集上的實驗結果,其中X軸代表的是模塊類型,Y軸表示的是layer id。其中顏色越深就越重要??梢钥闯鰞煞N度量方式的結果很大程度上是一致的,比方說:

the decoder self-attention(D:SA)是最不重要的,而the decoder feed-forward layers(D:FF)是最重要的。

編碼器里越靠前(E:SA和E:FF)和解碼器里越靠后(D:EA和D:FF)是更重要的。這個其實很直觀,因為這些模塊離數(shù)據(jù)的輸入和輸出更近,所以對輸入句子的理解和輸出句子的生成要更加重要些。

在解碼器里越靠后的encoder-attention(D:EA)layers要比之前的encoder-attention layers重要。

分析不重要的模塊

更低的dropout比例和更多的訓練數(shù)據(jù)會讓不重要的模塊變得更少(dropout是一種常見的用來防止過擬合的手段)。為了保證模型的效果,當我們使用dropout的時候其實說明模型本身有一定程度上的冗余。在不降低模型效果的前提下,小的dropout比例剛好說明模型的冗余越少,也就是不重要的模塊更少。大規(guī)模的訓練數(shù)據(jù)本身就自帶更多的patterns。需要充分發(fā)揮transformer的各個模塊才能有效地學習到。

從上面兩張圖可以明顯的看出:當使用更小的dropout和更大的數(shù)據(jù)集時,顏色深的版塊明顯變得更多。此外之前所得到的結論這里依然成立。

區(qū)分和利用一批不重要的模塊

之前的結果都是只刪除一個模塊得到,那我們一次性刪除多個模塊呢?

上圖顯示當我們刪除3到4個不重要的模塊時,模型效果并沒有明顯降低。但是當刪的更多了之后,模型的效果會受到較大的影響。那么我們是否可以利用這些不怎么重要的模塊去對模型進行優(yōu)化呢?作者采用了兩種方式:一個是模塊剪枝,另一個是模塊回卷。

模塊剪枝就是將不重要的模塊直接刪掉,因為刪掉了相應模塊使得模型的參數(shù)變小,作為對比作者在相同參數(shù)量下使用了一個淺層的decoder模型結果如表:

ad644d5a-7f2a-11eb-8b86-12bb97331649.png

可以看出剪枝后的模型要比同樣參數(shù)下的淺層模型結果要好,而且也能達到和原始模型相應的效果,有的甚至更好(還真有)。

模塊回卷就是將不重要的模塊參數(shù)回卷到初始化狀態(tài),再和其他模塊一起微調(diào)一下得到的訓練結果要比原始模型好一點。

總結

我們可以利用contribution score和criticality score評價模型中各個模塊的重要性,知曉了模塊的重要性程度后我們可以對不重要的模塊進行剪枝或者參數(shù)回卷都能在一定程度上讓原有模型得到優(yōu)化。

原文標題:我刪掉了Transformer中的這幾層…性能反而變好了?

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

責任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1806

    文章

    49014

    瀏覽量

    249448
  • 深度學習
    +關注

    關注

    73

    文章

    5561

    瀏覽量

    122794
  • Transformer
    +關注

    關注

    0

    文章

    151

    瀏覽量

    6519

原文標題:我刪掉了Transformer中的這幾層…性能反而變好了?

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Transformer架構編碼器的工作流程

    編碼器是Transformer體系結構的基本組件。編碼器的主要功能是將輸入標記轉(zhuǎn)換為上下文表示。與早期獨立處理token的模型不同,Transformer編碼器根據(jù)整個序列捕獲每個token的上下文。
    的頭像 發(fā)表于 06-10 14:27 ?288次閱讀
    <b class='flag-5'>Transformer</b>架構<b class='flag-5'>中</b>編碼器的工作流程

    快手上線鴻蒙應用高性能解決方案:數(shù)據(jù)反序列化性能提升90%

    了其數(shù)據(jù)反序列化性能,在典型場景下能夠降低約90%的數(shù)據(jù)轉(zhuǎn)換耗時,為鴻蒙應用帶來了更流暢的用戶體驗和更敏捷的交互響應。 在鴻蒙應用開發(fā)過程,“class-transformer”三方庫被廣泛應用于將
    發(fā)表于 05-15 10:01

    探究智能變電站綜自系統(tǒng)的設計與選型

    在智能電網(wǎng)相應體系,智能變電站占據(jù)著關鍵性地位,對于智能電網(wǎng)的正常運行和良好發(fā)展具有至關重要的影響。文中簡述了智能變電站綜合自動化系統(tǒng)的概念,并結合相關案例,探究了智能變電站綜合自動
    的頭像 發(fā)表于 03-14 11:05 ?411次閱讀
    探究智<b class='flag-5'>能變</b>電站綜自系統(tǒng)的設計與選型

    allegro 軟件整層復制到其他幾層的操作

    allegro 做好了一層地,怎么將這層快速復制到其他幾層。不需要一層層的復制!
    發(fā)表于 02-25 20:16

    【干貨】基于儲能變流器測試方法與技術的綜述

    能變流器作為現(xiàn)代儲能系統(tǒng)能量轉(zhuǎn)換的核心設備,目前已經(jīng)廣泛應用在發(fā)電側(cè)、電網(wǎng)側(cè)、用戶側(cè)、微電網(wǎng)四大領域。然而,隨著對儲能系統(tǒng)的性能、可靠性和安全性以及系統(tǒng)運行效率的要求不斷提高,儲能變
    的頭像 發(fā)表于 02-06 13:52 ?1564次閱讀
    【干貨】基于儲<b class='flag-5'>能變</b>流器測試方法與技術的綜述

    如何使用MATLAB構建Transformer模型

    Transformer 模型在 2017 年由 Vaswani 等人在論文《Attentionis All You Need》首次提出。其設計初衷是為了解決自然語言處理(Nature
    的頭像 發(fā)表于 02-06 10:21 ?4039次閱讀
    如何使用MATLAB構建<b class='flag-5'>Transformer</b>模型

    產(chǎn)SiC碳化硅MOSFET功率模塊在工商業(yè)儲能變流器PCS的應用

    *附件:國產(chǎn)SiC碳化硅MOSFET功率模塊在工商業(yè)儲能變流器PCS的應用.pdf
    發(fā)表于 01-20 14:19

    transformer專用ASIC芯片Sohu說明

    2022年,我們打賭說transformer會統(tǒng)治世界。 我們花了兩年時間打造Sohu,這是世界上第一個用于transformer(ChatGPT的“T”)的專用芯片。 將transform
    的頭像 發(fā)表于 01-06 09:13 ?1153次閱讀
    <b class='flag-5'>transformer</b>專用ASIC芯片Sohu說明

    必看!PCB幾層板設計的決定要素全解析

    一站式PCBA智造廠家今天為大家講講PCB幾層板的決定因素是什么?PCB設計成幾層板的決定因素。PCB作為電子產(chǎn)品的關鍵組成部分,其層數(shù)設計是一個復雜而重要的過程。那么,究竟有哪些因素決定了PCB的層數(shù)設計呢?本文將對此進行詳
    的頭像 發(fā)表于 12-14 11:38 ?732次閱讀

    能變流器小功率充電過程功率不穩(wěn)定是什么原因?

    能變流器小功率充電過程功率不穩(wěn)定是什么原因?
    發(fā)表于 12-13 21:54

    Transformer模型的具體應用

    如果想在 AI 領域引領一輪新浪潮,就需要使用到 Transformer。
    的頭像 發(fā)表于 11-20 09:28 ?1567次閱讀
    <b class='flag-5'>Transformer</b>模型的具體應用

    Transformer模型能夠做什么

    盡管名為 Transformer,但它們不是電視銀幕上的變形金剛,也不是電線桿上垃圾桶大小的變壓器。
    的頭像 發(fā)表于 11-20 09:27 ?1015次閱讀
    <b class='flag-5'>Transformer</b>模型能夠做什么

    ADS1258使用內(nèi)部16M時鐘時動態(tài)性能變差,是什么原因?qū)е碌模?/a>

    使用1258的評估板測試1KHz滿幅輸入的正弦信號時,發(fā)現(xiàn)動態(tài)性能很差,和手冊上給的頻譜圖相差較多,但是用外灌時鐘時,動態(tài)性能明顯變好,請問這個原因是什么呢?
    發(fā)表于 11-19 06:29

    探索室外載智能變速云臺驅(qū)動方案——艾畢勝電子的創(chuàng)新之舉

    在當今科技飛速發(fā)展的時代,室外載智能變速云臺驅(qū)動方案成為了眾多領域關注的焦點。而艾畢勝電子,憑借其卓越的技術實力和創(chuàng)新精神,在這一領域脫穎而出。 首先,讓我們來了解一下什么是室外載智能變
    的頭像 發(fā)表于 09-20 17:47 ?573次閱讀

    EasyGo實時仿真丨PCS儲能變流器控制仿真應用

    ,主要差別在于實際控制效果比仿真效果的電流紋波稍大。通過在電路運行不斷在上位機界面實時調(diào)試改進控制參數(shù),仿真表現(xiàn)比實驗測試更好,實現(xiàn)了變流器性能的不斷優(yōu)化。實驗達到了理論驗證的預期,再次驗證了利用
    發(fā)表于 09-20 10:17