99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ELMER: 高效強(qiáng)大的非自回歸預(yù)訓(xùn)練文本生成模型

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:RUC AI Box ? 2023-03-13 10:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文介紹了小組發(fā)表于EMNLP 2022的非自回歸預(yù)訓(xùn)練文本生成模型ELMER,在生成質(zhì)量與生成效率方面相比于之前的研究具有很大優(yōu)勢(shì)。

a9adf812-c142-11ed-bfe3-dac502259ad0.png

一、背景

自從GPT-2的出現(xiàn),預(yù)訓(xùn)練語(yǔ)言模型在許多文本生成任務(wù)上都取得了顯著的效果。這些預(yù)訓(xùn)練語(yǔ)言模型大都采用自回歸的方式從左到右依次生成單詞,這一范式的主要局限在于文本生成的過(guò)程難以并行化,因此帶來(lái)較大的生成延遲,這也限制了自回歸模型在許多實(shí)時(shí)線上應(yīng)用的廣泛部署(例如搜索引擎的查詢重寫、在線聊天機(jī)器人等)。并且,由于訓(xùn)練過(guò)程與生成過(guò)程存在差異,自回歸生成模型容易出現(xiàn)曝光偏差等問(wèn)題。因此,在這一背景下,許多研究者開始關(guān)注非自回歸生成范式——所有文本中的單詞同時(shí)且獨(dú)立地并行生成。

與自回歸模型相比,非自回歸模型的生成過(guò)程具有并行化、高效率、低延遲等優(yōu)勢(shì),但與此同時(shí),所有單詞獨(dú)立生成的模式使得非自回歸模型難以學(xué)習(xí)單詞間依賴關(guān)系,導(dǎo)致生成文本質(zhì)量下降等問(wèn)題。已有研究提出迭代生成優(yōu)化、隱變量建模文本映射等方法,但仍然難以生成復(fù)雜的文本。受到早期退出技術(shù)(early exit)啟發(fā),我們提出一個(gè)高效強(qiáng)大的非自回歸預(yù)訓(xùn)練文本生成模型——ELMER,通過(guò)在不同層生成不同單詞的方式顯式建模單詞間依賴關(guān)系,從而提升并行生成的效果。

二、形式化定義

文本生成的目標(biāo)是建模輸入文本與輸出文本 之間的條件概率 。目前常用的三種生成范式為:自回歸、非自回歸和半非自回歸范式。

自回歸生成自回歸生成模型基于從左到右的方式生成輸出文本:

a9bf2f9c-c142-11ed-bfe3-dac502259ad0.png

每個(gè)單詞都依賴于輸入文本與之前生成的單詞。自回歸生成模型只建模了前向的單詞依賴關(guān)系,依次生成的結(jié)構(gòu)也使得自回歸模型難以并行化。目前大部分預(yù)訓(xùn)練生成模型均采用自回歸方式,包括GPT-2,BART,T5等模型。

非自回歸生成非自回歸生成模型同時(shí)預(yù)測(cè)所有位置的單詞,不考慮前向與后向的單詞依賴關(guān)系:

a9cfde46-c142-11ed-bfe3-dac502259ad0.png

每個(gè)單詞的生成只依賴于輸入文本,這一獨(dú)立生成假設(shè)使得非自回歸模型易于并行化,大大提高了文本生成速度。由于不考慮單詞依賴,非自回歸模型的生成效果往往不如自回歸模型。

半非自回歸生成半非自回歸生成模型介于自回歸與非自回歸生成之間:

a9e1b35a-c142-11ed-bfe3-dac502259ad0.png

每個(gè)單詞的生成依賴于輸入文本和部分可見上下文,其中采用不同方式平衡生成質(zhì)量與生成效率。

三、模型

a9fc8c8e-c142-11ed-bfe3-dac502259ad0.png

ELMER模型架構(gòu)如圖1所示?;谠缙谕顺鰴C(jī)制(early exit),在不同層生成的單詞可以建立雙向的單詞依賴關(guān)系。為了預(yù)訓(xùn)練ELMER,我們提出了一個(gè)用于非自回歸生成廣泛建模單詞依賴的預(yù)訓(xùn)練任務(wù)——Layer Permutation Language Modeling。

基于早期退出的Transformer非自回歸生成

ELMER采用Transformer架構(gòu),不同的是我們將解碼器中的掩碼多頭注意力替換為與編碼器一致的雙向多頭注意力用于非自回歸生成。特別地,對(duì)于數(shù)據(jù),輸入文本由編碼器編碼為隱狀態(tài),然后,我們將一段完全由“[MASK]”單詞組成的序列作為解碼器輸入,生成目標(biāo)文本。對(duì)于每一個(gè)“[MASK]”單詞,經(jīng)過(guò)層解碼器得到:

aa23e720-c142-11ed-bfe3-dac502259ad0.png

最后,第個(gè)單詞由最后一層表示計(jì)算得到:

aa34fb6e-c142-11ed-bfe3-dac502259ad0.png

之前的非自回歸模型需要額外模塊預(yù)測(cè)輸出文本的長(zhǎng)度,但是,我們通過(guò)生成終止單詞“[EOS]”動(dòng)態(tài)地確定生成文本的長(zhǎng)度,即最終的文本為首單詞至第一個(gè)終止單詞。

一般的Transformer模型都在最后一層生成單詞,使用早期退出技術(shù),單詞以足夠的置信度在低層被生成,那么高層單詞的生成可以依賴已生成的低層單詞,從而在非自回歸生成過(guò)程中建模雙向的單詞依賴關(guān)系。特別地,我們?cè)赥ransformer每一層插入“off-ramp”,其使用每一層隱狀態(tài)表示預(yù)測(cè)單詞如下:

aa4208fe-c142-11ed-bfe3-dac502259ad0.png

這些“off-ramp”可以獨(dú)立或者共享參數(shù)。與之前的早期退出研究聚焦于句子級(jí)別不同,我們的方法關(guān)注單詞級(jí)別的退出。在訓(xùn)練過(guò)程中,如果一個(gè)單詞已經(jīng)以足夠的置信度在第層生成,那么隱狀態(tài)將不會(huì)在高層中進(jìn)行更新,我們的模型將直接拷貝至高層。

Layer Permutation預(yù)訓(xùn)練

為了在預(yù)訓(xùn)練中學(xué)習(xí)多樣化的單詞依賴關(guān)系,我們提出基于早退技術(shù)的預(yù)訓(xùn)練目標(biāo)——Layer Permutation Language Modeling (LPLM),對(duì)每個(gè)單詞的退出層進(jìn)行排列組合。對(duì)于長(zhǎng)度為的序列,每個(gè)單詞可以在層的任意一層退出,因此,這一序列所有單詞的退出層共有種排列組合。如果模型的參數(shù)對(duì)于所有組合是共享的,那么每個(gè)單詞都可以學(xué)習(xí)到來(lái)自所有位置的單詞的依賴關(guān)系。形式化地,令表示長(zhǎng)度為的序列的所有可能的退出層組合,對(duì)于任意一個(gè)組合,基于LPLM的非自回歸文本生成概率可以表示為:

aa558f50-c142-11ed-bfe3-dac502259ad0.png

其中模型在解碼器第層退出,使用隱狀態(tài)預(yù)測(cè)第個(gè)單詞。

在預(yù)訓(xùn)練過(guò)程中,對(duì)于語(yǔ)料中的每一條文本,我們只采樣中退出層組合計(jì)算生成概率。傳統(tǒng)的早期退出方法需要計(jì)算閾值來(lái)估計(jì)退出層,這對(duì)于大規(guī)模預(yù)訓(xùn)練來(lái)說(shuō)是不方便的,而我們提出的LPLM預(yù)訓(xùn)練目標(biāo)自然而然地避免了對(duì)退出層的估計(jì)。遵循BART模型的預(yù)訓(xùn)練模式,我們將打亂的文本輸入模型并采用基于LPLM的非自回歸生成方式還原文本,我們主要采用sentence shuffling和text infilling兩種打亂方式。

下游微調(diào)

經(jīng)過(guò)預(yù)訓(xùn)練的非自回歸生成模型ELMER可以微調(diào)至下游各種文本生成任務(wù)。在微調(diào)階段,可以使用小規(guī)模的任務(wù)數(shù)據(jù)集為每個(gè)生成單詞估計(jì)其退出層。在論文中,我們主要考慮兩種早期退出方式:hard early exit與soft early exit。

1)Hard Early Exit:這是一種最簡(jiǎn)單直接的早期退出方式。通過(guò)設(shè)置閾值并計(jì)算退出置信度決定模型是否在某層退出結(jié)束生成。我們使用生成概率分布的熵來(lái)量化單詞生成的退出置信度,如下式:

aa682570-c142-11ed-bfe3-dac502259ad0.png

模型生成概率分布的熵越低,意味著生成單詞的退出置信度越高。因此,當(dāng)熵低于事先設(shè)定的閾值時(shí),模型將在此層退出并生成單詞。

2)Soft Early Exit:上述方法對(duì)于每個(gè)單詞只退出一次并生成,因此會(huì)發(fā)生錯(cuò)誤生成的情況。而soft方法則在每一層都計(jì)算單詞生成概率,并將中間層生成的單詞傳遞至下一層繼續(xù)進(jìn)行計(jì)算。特別地,在位置解碼器的第層,我們使用第層的off-ramp計(jì)算生成單詞:

aa7c0b9e-c142-11ed-bfe3-dac502259ad0.png

然后,我們將預(yù)測(cè)單詞的向量與當(dāng)前層的隱狀態(tài)拼接,經(jīng)過(guò)一個(gè)線性層傳遞至下一層作為新的表示:

aa896c58-c142-11ed-bfe3-dac502259ad0.png

與hard方法相比,soft方法在每層預(yù)測(cè)單詞,并將預(yù)測(cè)結(jié)果傳遞至下一次預(yù)測(cè),因此可以起到修正預(yù)測(cè)的作用。

四、實(shí)驗(yàn)

1)預(yù)訓(xùn)練設(shè)置

我們收集了16G的數(shù)據(jù)(包括Wikipedia和BookCorpus)作為預(yù)訓(xùn)練語(yǔ)料。ELMER采用6層的編碼器與解碼器,隱藏層維度為768,與大部分自回歸(例如BART)與非自回歸(BANG)預(yù)訓(xùn)練生成模型的base版本一致。我們使用2e-4的學(xué)習(xí)率從頭開始訓(xùn)練模型,批大小為4096。我們采用BART模型的詞表,在預(yù)訓(xùn)練過(guò)程中共享所有層的off-ramp參數(shù),預(yù)訓(xùn)練語(yǔ)料中的每條序列采樣10種退出層組合進(jìn)行訓(xùn)練。相關(guān)代碼與模型已開源至https://github.com/RUCAIBox/ELMER.

2)微調(diào)數(shù)據(jù)集

我們微調(diào)ELMER至三種文本生成任務(wù)與數(shù)據(jù)集:XSUM為摘要任務(wù)數(shù)據(jù)集,SQuAD v1.1為問(wèn)題生成任務(wù)數(shù)據(jù)集,PersonaChat為對(duì)話生成任務(wù)數(shù)據(jù)集。

3)基準(zhǔn)模型

實(shí)驗(yàn)中設(shè)置三類基準(zhǔn)模型作為對(duì)比:1)自回歸生成模型:Transformer,MASS,BART和ProphetNet;2)非自回歸生成模型:NAT,iNAT,CMLM,LevT和BANG;3)半非自回歸生成模型:InsT,iNAT,CMLM,LevT和BANG。

4)評(píng)測(cè)指標(biāo)

我們從effectiveness與efficiency兩個(gè)方面評(píng)測(cè)模型效果。我們使用ROUGE,BLEU,METEOR和Distinct來(lái)評(píng)測(cè)模型生成文本的effectiveness;設(shè)置生成批大小為1并計(jì)算每條樣本的生成時(shí)間來(lái)評(píng)測(cè)模型生成文本的efficiency。

5)實(shí)驗(yàn)結(jié)果

aa9d8e40-c142-11ed-bfe3-dac502259ad0.png

ab14c834-c142-11ed-bfe3-dac502259ad0.png

表1與表2展示了在三個(gè)任務(wù)和數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。我們的ELMER-soft方法超越了大部分非自回歸與半非自回歸生成模型,展示出我們的模型在生成文本上的有效性。相比于基準(zhǔn)模型,我們的模型采用早期退出技術(shù),可以在并行生成過(guò)程中建模單詞間依賴關(guān)系,保證了生成文本的質(zhì)量。

除此以外,ELMER取得了與自回歸預(yù)訓(xùn)練模型相似的結(jié)果,并超越了非預(yù)訓(xùn)練的Transformer模型,進(jìn)一步縮小了非自回歸生成模型與自回歸生成模型在生成質(zhì)量上的差距。對(duì)于對(duì)話任務(wù),雖然ELMER在ROUGE,BLEU等指標(biāo)不如NAT等模型,但非常重要的Distinct指標(biāo)卻表現(xiàn)很好,說(shuō)明我們方法能夠生成較為多樣的文本。

最后,在生成文本的效率上,ELMER的生成效率相比自回歸模型具有非常大的優(yōu)勢(shì),對(duì)比其他非自回歸模型如LevT也具有更快的生成速度。

五、結(jié)論

我們提出了一個(gè)高效強(qiáng)大的非自回歸預(yù)訓(xùn)練文本生成模型ELMER,通過(guò)引入單詞級(jí)別的早期退出機(jī)制,模型可以在并行生成文本的過(guò)程中顯式建模前后單詞依賴關(guān)系。更重要的,我們提出了一個(gè)新的預(yù)訓(xùn)練目標(biāo)——Layer Permutation Language Modeling,對(duì)序列中每個(gè)單詞的退出層進(jìn)行排列組合。最后,在摘要、問(wèn)題生成與對(duì)話三個(gè)任務(wù)上的實(shí)驗(yàn)結(jié)果表明,我們的ELMER模型無(wú)論是生成質(zhì)量還是生成效率都具有極大優(yōu)勢(shì)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3522

    瀏覽量

    50446
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10799
  • 聊天機(jī)器人
    +關(guān)注

    關(guān)注

    0

    文章

    348

    瀏覽量

    12803

原文標(biāo)題:EMNLP 2022 | ELMER: 高效強(qiáng)大的非自回歸預(yù)訓(xùn)練文本生成模型

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【大語(yǔ)言模型:原理與工程實(shí)踐】揭開大語(yǔ)言模型的面紗

    Transformer架構(gòu),利用注意力機(jī)制對(duì)文本進(jìn)行編碼,通過(guò)預(yù)訓(xùn)練、有監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)等階段,不斷提升性能,展現(xiàn)出強(qiáng)大的語(yǔ)言理解和
    發(fā)表于 05-04 23:55

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型預(yù)訓(xùn)練

    和多樣性。高質(zhì)量數(shù)據(jù)能確保模型穩(wěn)定收斂,而數(shù)據(jù)的多樣性則有助于模型學(xué)習(xí)廣泛的通用能力,如文本生成、信息抽取、問(wèn)答和編程等。此外,數(shù)據(jù)的多樣性對(duì)于確保模型在實(shí)際應(yīng)用中具有良好的泛化能力至
    發(fā)表于 05-07 17:10

    如何構(gòu)建文本生成器?如何實(shí)現(xiàn)馬爾可夫鏈以實(shí)現(xiàn)更快的預(yù)測(cè)模型

    Compose,聊天機(jī)器人都是應(yīng)用的例子,本文將使用馬爾可夫鏈構(gòu)建一個(gè)文本生成器。這將是一個(gè)基于字符的模型,它接受鏈的前一個(gè)字符并生成序列中的下一個(gè)字母。通過(guò)使用樣例單詞訓(xùn)練我們的程
    發(fā)表于 11-22 15:06

    基于生成器的圖像分類對(duì)抗樣本生成模型

    ,并保證攻擊成功率。模型將對(duì)抗樣本生成的過(guò)程視為對(duì)原圖進(jìn)行圖像増強(qiáng)的操作引入生成對(duì)抗網(wǎng)絡(luò),并改進(jìn)感知損失函數(shù)以增加對(duì)抗樣本與原圖在內(nèi)容與特征空間上的相似性,采用多分類器損失函數(shù)優(yōu)化訓(xùn)練
    發(fā)表于 04-07 14:56 ?2次下載
    基于<b class='flag-5'>生成</b>器的圖像分類對(duì)抗樣<b class='flag-5'>本生成</b><b class='flag-5'>模型</b>

    文本生成任務(wù)中引入編輯方法的文本生成

    4. FELIX FELIX是Google Research在“FELIX: Flexible Text Editing Through Tagging and Insertion”一文中提出的文本生成
    的頭像 發(fā)表于 07-23 16:56 ?1989次閱讀
    <b class='flag-5'>文本生成</b>任務(wù)中引入編輯方法的<b class='flag-5'>文本生成</b>

    受控文本生成模型的一般架構(gòu)及故事生成任務(wù)等方面的具體應(yīng)用

    來(lái)自:哈工大訊飛聯(lián)合實(shí)驗(yàn)室 本期導(dǎo)讀:本文是對(duì)受控文本生成任務(wù)的一個(gè)簡(jiǎn)單的介紹。首先,本文介紹了受控文本生成模型的一般架構(gòu),點(diǎn)明了受控文本生成模型
    的頭像 發(fā)表于 10-13 09:46 ?3907次閱讀
    受控<b class='flag-5'>文本生成</b><b class='flag-5'>模型</b>的一般架構(gòu)及故事<b class='flag-5'>生成</b>任務(wù)等方面的具體應(yīng)用

    利用對(duì)比前綴控制文本生成以及長(zhǎng)文本生成的動(dòng)態(tài)內(nèi)容規(guī)劃

    一些最新的研究表明,預(yù)訓(xùn)練語(yǔ)言模型(PLM)可以通過(guò)自我監(jiān)督的預(yù)訓(xùn)練從大規(guī)模語(yǔ)料庫(kù)中自動(dòng)獲取知識(shí),然后將學(xué)到的知識(shí)編碼到
    的頭像 發(fā)表于 08-02 15:06 ?1733次閱讀

    基于用于自然語(yǔ)言生成的“語(yǔ)境調(diào)優(yōu)”技術(shù)

    自然語(yǔ)言生成(又稱為文本生成)旨在基于輸入數(shù)據(jù)用人類語(yǔ)言生成合理且可讀的文本。隨著預(yù)訓(xùn)練語(yǔ)言
    的頭像 發(fā)表于 10-14 15:38 ?1344次閱讀

    基于VQVAE的長(zhǎng)文本生成 利用離散code來(lái)建模文本篇章結(jié)構(gòu)的方法

    寫在前面 近年來(lái),多個(gè)大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型 GPT、BART、T5 等被提出,這些預(yù)訓(xùn)練模型在自
    的頭像 發(fā)表于 12-01 17:07 ?2155次閱讀

    預(yù)訓(xùn)練數(shù)據(jù)大小對(duì)于預(yù)訓(xùn)練模型的影響

    BERT類模型的工作模式簡(jiǎn)單,但取得的效果也是極佳的,其在各項(xiàng)任務(wù)上的良好表現(xiàn)主要得益于其在大量無(wú)監(jiān)督文本上學(xué)習(xí)到的文本表征能力。那么如何從語(yǔ)言學(xué)的特征角度來(lái)衡量一個(gè)預(yù)
    的頭像 發(fā)表于 03-03 11:20 ?1912次閱讀

    一種回歸預(yù)訓(xùn)練方法

    雖然GPT模型在自然語(yǔ)言處理領(lǐng)域中表現(xiàn)出色,但是它們?nèi)匀淮嬖谝恍﹩?wèn)題。例如,GPT模型回歸設(shè)計(jì)導(dǎo)致它在生成新單詞或短語(yǔ)時(shí)需要等待整個(gè)序列
    的頭像 發(fā)表于 04-27 09:58 ?965次閱讀
    一種<b class='flag-5'>非</b><b class='flag-5'>自</b><b class='flag-5'>回歸</b>的<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>方法

    從原理到代碼理解語(yǔ)言模型訓(xùn)練和推理,通俗易懂,快速修煉LLM

    要理解大語(yǔ)言模型(LLM),首先要理解它的本質(zhì),無(wú)論預(yù)訓(xùn)練、微調(diào)還是在推理階段,核心都是next token prediction,也就是以回歸
    的頭像 發(fā)表于 09-19 16:25 ?2293次閱讀
    從原理到代碼理解語(yǔ)言<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>和推理,通俗易懂,快速修煉LLM

    大語(yǔ)言模型預(yù)訓(xùn)練

    隨著人工智能技術(shù)的飛速發(fā)展,自然語(yǔ)言處理(NLP)作為人工智能領(lǐng)域的一個(gè)重要分支,取得了顯著的進(jìn)步。其中,大語(yǔ)言模型(Large Language Model, LLM)憑借其強(qiáng)大的語(yǔ)言理解和生成
    的頭像 發(fā)表于 07-11 10:11 ?992次閱讀

    榮聯(lián)科技集團(tuán)再度入選信通院《高質(zhì)量數(shù)字化轉(zhuǎn)型產(chǎn)品及服務(wù)全景圖》

    榮聯(lián)的知識(shí)庫(kù)管理及智能應(yīng)答平臺(tái),通過(guò)全棧研的大語(yǔ)言模型底座系統(tǒng),結(jié)合開源模型的靈活性與研核心算法,提供了強(qiáng)大的智能服務(wù)功能,包括
    的頭像 發(fā)表于 09-29 11:12 ?878次閱讀
    榮聯(lián)科技集團(tuán)再度入選信通院《高質(zhì)量數(shù)字化轉(zhuǎn)型產(chǎn)品及服務(wù)全景圖》

    如何使用 Llama 3 進(jìn)行文本生成

    使用LLaMA 3(Large Language Model Family of AI Alignment)進(jìn)行文本生成,可以通過(guò)以下幾種方式實(shí)現(xiàn),取決于你是否愿意在本地運(yùn)行模型或者使用現(xiàn)成的API
    的頭像 發(fā)表于 10-27 14:21 ?1091次閱讀