99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Transformers研究方向

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:一軒明月 ? 2022-03-30 16:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

BERT 通過改變 NLP 模型的訓(xùn)練方式迎來了 NLP 領(lǐng)域的 ImageNet 時(shí)刻。自此之后的預(yù)訓(xùn)練模型分別嘗試從mask 范圍,多語言,下文預(yù)測,模型輕量化,預(yù)訓(xùn)練方式,模型大小,多任務(wù)等方向謀求新突破,有的效果明顯,有的只是大成本小收益。

自 2018 年 BERT 提出之后,各種預(yù)訓(xùn)練模型層出不窮,模型背后的著眼點(diǎn)也各有不同,難免讓人迷糊。本文旨在從以下幾個(gè)方面探討系列 Transformers 研究方向:

擴(kuò)大遮罩范圍(MaskedLM)

下文預(yù)測(NextSentencePrediction)

其他預(yù)訓(xùn)練方式

輕量化

多語言

越大越好?

多任務(wù)

要說 BERT 為什么性能卓越,主要是它改變了 NLP 模型的訓(xùn)練方式。先在大規(guī)模語料上訓(xùn)練出一個(gè)語言模型,然后將這個(gè)模型用在閱讀理解/情感分析/命名實(shí)體識(shí)別等下游任務(wù)上

7725c54a-afe7-11ec-aa7f-dac502259ad0.png

Yann LeCun 將 BERT 的學(xué)習(xí)方式稱為“自監(jiān)督學(xué)習(xí)”,強(qiáng)調(diào)模型從輸入內(nèi)容中學(xué)習(xí),又對其中部分內(nèi)容進(jìn)行預(yù)測的特點(diǎn)。而 BERT 本身實(shí)際算是是基于 Transformer 編碼器部分改進(jìn)而來的多任務(wù)模型,會(huì)同時(shí)執(zhí)行遮罩語言模型學(xué)習(xí)以及下文預(yù)測任務(wù),以此習(xí)得潛藏語義。

擴(kuò)大遮罩范圍改進(jìn) MaskedLM

遮罩語言模型里的“遮罩”,通常是分詞后一小段連續(xù)的 MASK 標(biāo)記

7745101c-afe7-11ec-aa7f-dac502259ad0.png

相比于從上下文中猜整個(gè)詞,給出 ##eni 和 ##zation 猜到 tok 顯然更容易些。

也正因單詞自身標(biāo)識(shí)間的聯(lián)系和詞與詞間的聯(lián)系不同,所以 BERT 可能學(xué)不到詞語詞間的相關(guān)關(guān)系。而只是預(yù)測出詞的一部分也沒什么意義,預(yù)測出整個(gè)詞才能學(xué)到更多語義內(nèi)容。所以拓展遮罩范圍就顯得十分重要了:

字詞級(jí)遮罩——WWM

短語級(jí)遮罩——ERNIE

縮放到特定長度——N-gram 遮罩/ Span 遮罩

短語級(jí)遮罩使用時(shí)得額外提供短語列表,但加上這樣的人工信息可能會(huì)干擾模型導(dǎo)致偏差。T5 嘗試了不同跨度的遮罩,似乎長一些的會(huì)好點(diǎn)

775ba3d6-afe7-11ec-aa7f-dac502259ad0.png

可以看到初期擴(kuò)大跨度是有效的,但不是越長越好。SpanBERT 有一個(gè)更好的解決方案,通過概率采樣降低對過長遮罩的采納數(shù)量。

77707536-afe7-11ec-aa7f-dac502259ad0.png

從 SpanBERT 的實(shí)驗(yàn)結(jié)果來看隨機(jī)跨度效果不錯(cuò)

77861db4-afe7-11ec-aa7f-dac502259ad0.png

此外,也有模型嘗試改進(jìn)遮罩比例。Google 的 T5 嘗試了不同的遮罩比例,意外的是替代項(xiàng)都不如原始設(shè)置表現(xiàn)好

779b8168-afe7-11ec-aa7f-dac502259ad0.png

下文預(yù)測

準(zhǔn)確地講應(yīng)該是下一句預(yù)測(NextSentencePrediction,NSP),通過判斷兩個(gè)句子間是否是上下文相關(guān)的來學(xué)習(xí)句子級(jí)知識(shí)。從實(shí)驗(yàn)結(jié)果來看,BERT 并沒有帶來明顯改進(jìn)

77b3a52c-afe7-11ec-aa7f-dac502259ad0.png

BERT 的欠佳表現(xiàn)給了后來者機(jī)會(huì),幾乎成了兵家必爭之地。XLNET / RoBERTa / ALBERT 等模型都在這方面進(jìn)行了嘗試

RoBERTa

77c6173e-afe7-11ec-aa7f-dac502259ad0.png

ALBERT

77e3810c-afe7-11ec-aa7f-dac502259ad0.png

XLNet

77ffb9d0-afe7-11ec-aa7f-dac502259ad0.png

可以看出 NSP 帶來的更多的是消極影響。這可能是 NSP 任務(wù)設(shè)計(jì)不合理導(dǎo)致的——負(fù)樣本是從容易辨析的其他文檔中抽出來的,這導(dǎo)致不僅沒學(xué)到知識(shí)反而引入了噪聲。同時(shí),NSP 將輸入分成兩個(gè)不同的句子,缺少長語句樣本則導(dǎo)致 BERT 在長句子上表現(xiàn)不好。

其他預(yù)訓(xùn)練方式

NSP 表現(xiàn)不夠好,是不是有更好的預(yù)訓(xùn)練方式呢?各家都進(jìn)行了各種各樣的嘗試,私以為對多種預(yù)訓(xùn)練任務(wù)總結(jié)的最好的是 Google 的 T5 和 FaceBook 的 BART

T5 的嘗試

7819e60c-afe7-11ec-aa7f-dac502259ad0.png

782fdbd8-afe7-11ec-aa7f-dac502259ad0.png

BART 的嘗試

7846348c-afe7-11ec-aa7f-dac502259ad0.png

各家一般都選語言模型作為基線,而主要的嘗試方向有

擋住部分標(biāo)識(shí),預(yù)測遮擋內(nèi)容

打亂句子順序,預(yù)測正確順序

刪掉部分標(biāo)識(shí),預(yù)測哪里被刪除了

隨機(jī)挑選些標(biāo)識(shí),之后將所有內(nèi)容前置,預(yù)測哪里是正確的開頭

加上一些標(biāo)識(shí),預(yù)測哪里要?jiǎng)h

替換掉一些標(biāo)識(shí),預(yù)測哪里是被替換過的

試驗(yàn)結(jié)果如下

785e9fea-afe7-11ec-aa7f-dac502259ad0.png

787a6b80-afe7-11ec-aa7f-dac502259ad0.png

實(shí)驗(yàn)表明遮罩模型就是最好的預(yù)訓(xùn)練方法。要想效果更好點(diǎn),更長的遮罩和更長的輸入語句似乎是個(gè)不錯(cuò)的選擇。而為了避免泄露具體擋住了多少個(gè)詞,每次只能標(biāo)記一個(gè)遮罩,對一個(gè)或多個(gè)詞做預(yù)測

輕量化

BERT 模型本身非常大,所以為了運(yùn)行更快,模型輕量化也是一大研究方向。一網(wǎng)打盡所有 BERT 壓縮方法[1]對此有細(xì)致描述,主要分幾個(gè)方向:

修剪——?jiǎng)h除部分模型,刪掉一些層 / heads 等

7893d3cc-afe7-11ec-aa7f-dac502259ad0.png

矩陣分解——對詞表 / 參數(shù)矩陣進(jìn)行分解

78adaacc-afe7-11ec-aa7f-dac502259ad0.png

知識(shí)蒸餾——師生結(jié)構(gòu),在其他小模型上學(xué)習(xí)

78c30a3e-afe7-11ec-aa7f-dac502259ad0.png

參數(shù)共享——層與層間共享權(quán)重

78de936c-afe7-11ec-aa7f-dac502259ad0.png

多語言

數(shù)據(jù)集在不同語言間分布的非常不均勻,通常是英語數(shù)據(jù)集很多,其他語言的相對少些,繁體中文的話問題就更嚴(yán)重了。而 BERT 的預(yù)訓(xùn)練方法并沒有語言限制,所以就有許多研究試圖喂給預(yù)訓(xùn)練模型更多語言數(shù)據(jù),期望能在下游任務(wù)上取得更好的成績。

谷歌的 BERT-Multilingual 就是一例,在不添加中文數(shù)據(jù)的情況下,該模型在下游任務(wù)上的表現(xiàn)已經(jīng)接近中文模型

78f8c0ac-afe7-11ec-aa7f-dac502259ad0.png

有研究[2]對多語言版 BERT 在 SQuAD(英語閱讀理解任務(wù))和 DRCD(中文閱讀理解任務(wù))上進(jìn)行了測試。最終證明可以取得接近 QANet 的效果,同時(shí)多語言模型不用將數(shù)據(jù)翻譯成統(tǒng)一語言,這當(dāng)然要比多一步翻譯過程的版本要好。

790d4d4c-afe7-11ec-aa7f-dac502259ad0.png

從上面的結(jié)果可以看出無論是用 Embedding 還是 Transformer 編碼器,BERT 都學(xué)到了不同語言間的內(nèi)在聯(lián)系。另有研究[3]專門針對 BERT 聯(lián)通不同語言的方式進(jìn)行了分析。

首先,在相同的 TLM 預(yù)訓(xùn)練模型中對不同語言建立關(guān)聯(lián)

7924dbc4-afe7-11ec-aa7f-dac502259ad0.png

然后,通過控制是否共享組件來分析哪個(gè)部分對結(jié)果影響最大

7939dbd2-afe7-11ec-aa7f-dac502259ad0.png

結(jié)果是模型間共享參數(shù)是關(guān)鍵

79551ad2-afe7-11ec-aa7f-dac502259ad0.png

這是因?yàn)?BERT 是在學(xué)習(xí)詞和相應(yīng)上下文環(huán)境的分布,不同語言間含義相同的詞,其上下文分布應(yīng)該很接近

797019ea-afe7-11ec-aa7f-dac502259ad0.png

而 BERT 的參數(shù)就是在學(xué)習(xí)期間的分布,所以也就不難理解模型在多語言間遷移時(shí)的驚人表現(xiàn)了

越大越好?

盡管 BERT 采用了大模型,但直覺上數(shù)據(jù)越多,模型越大,效果也就應(yīng)該更好。所以很多模型以此為改進(jìn)方向

7989f450-afe7-11ec-aa7f-dac502259ad0.png

T5 更是憑借 TPU 和金錢的魔力攀上頂峰

79a9f160-afe7-11ec-aa7f-dac502259ad0.png

然而更大的模型似乎并沒有帶來太多的回報(bào)

79cbd118-afe7-11ec-aa7f-dac502259ad0.png

所以,簡單增大模型規(guī)模并不是最高效的方法。

此外,選用不同的訓(xùn)練方法和目標(biāo)也是一條出路。比如,ELECTRA 采用新型訓(xùn)練方法保證每個(gè)詞都能參與其中,從而使得模型能更有效地學(xué)習(xí)表示(representation)

79e9ea7c-afe7-11ec-aa7f-dac502259ad0.png

79fa6988-afe7-11ec-aa7f-dac502259ad0.png

ALBERT 使用參數(shù)共享降低參數(shù)量,但對性能沒有顯著影響

7a0b68be-afe7-11ec-aa7f-dac502259ad0.png

7a1fde84-afe7-11ec-aa7f-dac502259ad0.png

多任務(wù)

BERT 是在預(yù)訓(xùn)練時(shí)使用多任務(wù),我們同樣可以在微調(diào)時(shí)使用多任務(wù)。微軟的用于自然語言理解的多任務(wù)深度神經(jīng)網(wǎng)絡(luò)[4](MTDNN)就是這么做的

7a343ce4-afe7-11ec-aa7f-dac502259ad0.png

相交于 MTDNN,GPT-2 更加激進(jìn):不經(jīng)微調(diào)直接用模型學(xué)習(xí)一切,只用給一個(gè)任務(wù)標(biāo)識(shí),其余的交給模型。效果出眾但仍稱不上成功

T5 對此做了平衡

7a5918a2-afe7-11ec-aa7f-dac502259ad0.png

谷歌的 T5 類似于 GPT-2,訓(xùn)練一個(gè)生成模型來回答一切問題。同時(shí)又有點(diǎn)像 MTDNN,訓(xùn)練時(shí)模型知道它是在同時(shí)解決不同問題,它是一個(gè)訓(xùn)練/微調(diào)模型

同時(shí),大體量預(yù)訓(xùn)練模型都面臨相同的兩個(gè)難題:數(shù)據(jù)不均衡和訓(xùn)練策略選定

不均衡數(shù)據(jù)

不同任務(wù)可供使用的數(shù)據(jù)量是不一致的,這導(dǎo)致數(shù)據(jù)量小的任務(wù)表現(xiàn)會(huì)很差。數(shù)據(jù)多的少采樣,數(shù)據(jù)少的多采樣是一種解決思路。BERT 對多語言訓(xùn)練采用的做法就是一例

為平衡這兩個(gè)因素,訓(xùn)練數(shù)據(jù)生成(以及 WordPiece 詞表生成)過程中,對數(shù)據(jù)進(jìn)行指數(shù)平滑加權(quán)。換句話說,假如一門語言的概率是

,比如 意味著在混合了所有維基百科數(shù)據(jù)后, 21% 的數(shù)據(jù)是英文的。我們通過因子 S 對每個(gè)概率進(jìn)行指數(shù)運(yùn)算并重新歸一化,之后從中采樣。我們的實(shí)驗(yàn)中, ,所以像英語這樣的富文本語言會(huì)被降采樣,而冰島語這樣的貧文本語言會(huì)過采樣。比如,原始分布中英語可能是冰島語的 1000 倍,平滑處理后只有 100 倍

訓(xùn)練策略

7a7a4c20-afe7-11ec-aa7f-dac502259ad0.png

無監(jiān)督預(yù)訓(xùn)練+微調(diào):在 T5 預(yù)訓(xùn)練后對各任務(wù)進(jìn)行微調(diào)

多任務(wù)訓(xùn)練:所有任務(wù)和 T5 預(yù)訓(xùn)練一同訓(xùn)練學(xué)習(xí),并直接在各任務(wù)上驗(yàn)證結(jié)果

多任務(wù)預(yù)訓(xùn)練+微調(diào):所有任務(wù)和 T5 預(yù)訓(xùn)練一同訓(xùn)練學(xué)習(xí),然后對各任務(wù)微調(diào)訓(xùn)練數(shù)據(jù),再驗(yàn)證結(jié)果

留一法多任務(wù)訓(xùn)練:T5 預(yù)訓(xùn)練和目標(biāo)任務(wù)外的所有任務(wù)一同進(jìn)行多任務(wù)學(xué)習(xí),然后微調(diào)目標(biāo)任務(wù)數(shù)據(jù)集,再驗(yàn)證結(jié)果

有監(jiān)督多任務(wù)預(yù)訓(xùn)練:在全量數(shù)據(jù)上進(jìn)行多任務(wù)訓(xùn)練,然后對各任務(wù)微調(diào)結(jié)果

可以看到先在海量數(shù)據(jù)上進(jìn)行訓(xùn)練,然后對特定任務(wù)數(shù)據(jù)進(jìn)行微調(diào)可以緩解數(shù)據(jù)不平衡問題。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3799

    瀏覽量

    138042
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3520

    瀏覽量

    50421
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    490

    瀏覽量

    22621

原文標(biāo)題:BERT 之后的故事

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    無速度傳感器感應(yīng)電機(jī)控制系統(tǒng)轉(zhuǎn)速辨識(shí)方法研究

    要點(diǎn)和化缺點(diǎn),在直接轉(zhuǎn)矩控制基礎(chǔ)上設(shè)計(jì)了無速度傳感器感應(yīng)電機(jī)控制系統(tǒng)模型并進(jìn)行仿真,給出了試驗(yàn)參數(shù)及仿真圖形,并就今后的研究發(fā)展方向提出了看法。 純分享帖,點(diǎn)擊下方附件免費(fèi)獲取完整資料
    發(fā)表于 07-09 14:23

    永磁同步電機(jī)參數(shù)辨識(shí)研究綜述

    參數(shù)辨識(shí)的技術(shù)成果,再對 PMSM 辨識(shí)方法進(jìn)行歸納和比較,最后,揭示 PMSM 參數(shù)辨識(shí)過程中亟需關(guān)注的研究問題并 展望其未來的發(fā)展方向,旨在實(shí)現(xiàn) PMSM 系統(tǒng)的高效可靠運(yùn)行。純分享帖,點(diǎn)擊附件查看全文*附件:永磁同步電機(jī)參數(shù)辨識(shí)
    發(fā)表于 03-26 14:13

    石墨烯鉛蓄電池研究進(jìn)展、優(yōu)勢、挑戰(zhàn)及未來方向

    石墨烯鉛蓄電池是將石墨烯材料與傳統(tǒng)鉛酸電池技術(shù)相結(jié)合的研究方向,旨在提升鉛酸電池的性能(如能量密度、循環(huán)壽命、快充能力等)。以下是該領(lǐng)域的研究進(jìn)展、優(yōu)勢、挑戰(zhàn)及未來方向: 一、石墨烯在
    的頭像 發(fā)表于 02-13 09:36 ?1157次閱讀

    VirtualLab Fusion應(yīng)用:非球面透鏡背后的焦點(diǎn)研究

    摘要 高功率激光二極管經(jīng)常在兩個(gè)方向上表現(xiàn)出不對稱的發(fā)散和散光。此案例在VirtualLab Fusion中研究了激光二極管首先被物鏡準(zhǔn)直,然后被非球面透鏡聚焦后焦點(diǎn)區(qū)域的場的演變。與沒有散光
    發(fā)表于 02-13 08:57

    MLOps平臺(tái)的發(fā)展方向

    MLOps平臺(tái)作為機(jī)器學(xué)習(xí)開發(fā)運(yùn)維一體化的重要工具,其發(fā)展方向將深刻影響人工智能技術(shù)的普及和應(yīng)用。下面,是對MLOps平臺(tái)發(fā)展方向的探討,由AI部落小編整理。
    的頭像 發(fā)表于 12-31 11:51 ?498次閱讀

    光路元件的位置和方向

    摘要 在這個(gè)案例中,我們將演示如何在光路中配置光學(xué)元件的位置和方向。我們將通過一個(gè)示例來演示。 將元件放入光路中元件定位 默認(rèn)情況下,元件的位置由相對位置定義,即由該元件相對于前一個(gè)元件的參考坐標(biāo)系
    發(fā)表于 12-31 08:54

    非球面透鏡背后的焦點(diǎn)研究

    **摘要 ** 高功率激光二極管經(jīng)常在兩個(gè)方向上表現(xiàn)出不對稱的發(fā)散和散光。此案例在VirtualLab Fusion中研究了激光二極管首先被物鏡準(zhǔn)直,然后被非球面透鏡聚焦后焦點(diǎn)區(qū)域的場的演變。與沒有
    發(fā)表于 12-17 08:54

    如何使用 Llama 3 進(jìn)行文本生成

    服務(wù)。以下是主要的幾種方法: 方法一:使用現(xiàn)成的API服務(wù) 許多平臺(tái)提供了LLaMA 3的API接口,例如Hugging Face的Transformers庫和Inference API
    的頭像 發(fā)表于 10-27 14:21 ?1086次閱讀

    GPGPU體系結(jié)構(gòu)優(yōu)化方向(1)

    繼續(xù)上文GPGPU體系結(jié)構(gòu)優(yōu)化方向 [上],介紹提高并行度和優(yōu)化流水線的方向
    的頭像 發(fā)表于 10-09 10:03 ?675次閱讀
    GPGPU體系結(jié)構(gòu)優(yōu)化<b class='flag-5'>方向</b>(1)

    光路元件的位置和方向

    摘要 ** 在這個(gè)案例中,我們將演示如何在光路中配置光學(xué)元件的位置和方向。我們將通過一個(gè)示例來演示。 將元件放入光路中 元件定位 默認(rèn)情況下,元件的位置由相對位置定義,即由該元件相對于前一個(gè)元件
    發(fā)表于 08-09 18:19

    電流的方向是從正極到負(fù)極嗎

    電流的方向確實(shí)是從正極流向負(fù)極。 一、電流的方向 電流的定義 電流是電荷的流動(dòng),通常用單位時(shí)間內(nèi)通過導(dǎo)體橫截面的電荷量來表示。電流的單位是安培(A),1安培表示每秒通過導(dǎo)體橫截面的電荷量為1庫侖(C
    的頭像 發(fā)表于 07-29 18:00 ?5.8w次閱讀

    電流方向和電荷運(yùn)動(dòng)方向的關(guān)系

    電流方向和電荷運(yùn)動(dòng)方向的關(guān)系是一個(gè)復(fù)雜而有趣的話題。 電荷和電流的基本概念 在討論電流方向和電荷運(yùn)動(dòng)方向的關(guān)系之前,我們需要先了解電荷和電流的基本概念。 電荷是物質(zhì)的基本屬性之一,它可
    的頭像 發(fā)表于 07-29 17:05 ?7313次閱讀

    負(fù)電荷的移動(dòng)方向是電流方向

    負(fù)電荷的移動(dòng)方向不是電流方向。電流方向的定義是正電荷的移動(dòng)方向。在電學(xué)中,電流的方向通常被規(guī)定為正電荷的移動(dòng)
    的頭像 發(fā)表于 07-29 17:03 ?4045次閱讀

    方向角度傳感器故障怎么解決

    方向角度傳感器是一種用于測量物體相對于某個(gè)參考方向的角度的傳感器,廣泛應(yīng)用于航空、航天、航海、機(jī)器人、無人駕駛等領(lǐng)域。當(dāng)方向角度傳感器出現(xiàn)故障時(shí),可能會(huì)影響整個(gè)系統(tǒng)的穩(wěn)定性和可靠性。 一、方向
    的頭像 發(fā)表于 07-22 16:57 ?1246次閱讀

    方向角度傳感器壞了有什么影響

    方向角度傳感器是一種用于測量物體方向和角度變化的傳感器,廣泛應(yīng)用于航空、航天、航海、機(jī)器人、汽車、無人機(jī)等領(lǐng)域。當(dāng)方向角度傳感器出現(xiàn)故障時(shí),會(huì)對相關(guān)設(shè)備的正常運(yùn)行產(chǎn)生嚴(yán)重影響。 一、方向
    的頭像 發(fā)表于 07-22 16:06 ?1004次閱讀