99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種非自回歸的預(yù)訓(xùn)練方法

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來源:無數(shù)據(jù)不智能 ? 2023-04-27 09:58 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

概覽

市面上的標(biāo)題黨往往會(huì)采用夸張的文字,例如:ChatGPT被淘汰,AutoGPT來襲。但是對(duì)于行業(yè)內(nèi)的人來說,這種標(biāo)題很明顯是標(biāo)題黨。這兩個(gè)模型都是基于GPT-3或者GPT-4的技術(shù),它們?cè)诩夹g(shù)上本質(zhì)上沒有太大的區(qū)別。

雖然GPT模型在自然語(yǔ)言處理領(lǐng)域中表現(xiàn)出色,但是它們?nèi)匀淮嬖谝恍﹩栴}。例如,GPT模型的自回歸設(shè)計(jì)導(dǎo)致它在生成新單詞或短語(yǔ)時(shí)需要等待整個(gè)序列生成完成,這樣的過程顯然會(huì)減緩生成速度。

3bccec08-e49d-11ed-ab56-dac502259ad0.png

由于這些問題,一些研究人員開始探索非自回歸模型的設(shè)計(jì),這種方法可以提高生成速度。

但非自回歸模型的輸出結(jié)果可能會(huì)出現(xiàn)不連貫的情況,這種情況需要更多的研究和解決方案。

總之,非自回歸模型是一種很有前途的技術(shù),可以成為未來顛覆GPT的重要技術(shù)之一。雖然這些方法仍然需要更多的研究和開發(fā),但是應(yīng)該持續(xù)關(guān)注它們的發(fā)展。

三種文本生成方式

自回歸(AR)

生成模型基于從左到右的輸出文本,其中每個(gè)標(biāo)記yt是基于輸入文本X和前面的標(biāo)記y

非自回歸(NAR)

與AR模型相比,文本生成模型同時(shí)預(yù)測(cè)輸出文本中的每個(gè)標(biāo)記,而不對(duì)前向或后向標(biāo)記依賴進(jìn)行建模。其中每個(gè)標(biāo)記yt僅根據(jù)輸入文本X進(jìn)行預(yù)測(cè)。獨(dú)立性假設(shè)使NAR生成過程可并行化,從而顯著加快了推理速度。然而,在沒有token依賴的情況下,NAR模型的生成質(zhì)量低于AR模型。

半自回歸(Semi-NAR)

半NAR生成在AR和NAR生成之間形式化,其中每個(gè)標(biāo)記yt以輸入文本X和輸出文本Y的可見部分Yct為條件。

本文主要關(guān)注NAR方法,并同時(shí)考慮文本生成模型的有效性和效率。

一種非自回歸的預(yù)訓(xùn)練方法

3bdffba4-e49d-11ed-ab56-dac502259ad0.png

本文介紹的方法ELMER是基于Transformer編碼器-解碼器架構(gòu)構(gòu)建的。解碼器和編碼器都由多個(gè)堆疊組成,每個(gè)層包含多個(gè)子層(例如,多頭自注意力和前饋網(wǎng)絡(luò))。與原始Transformer解碼器自回歸生成文本不同,模型使用NAR方式同時(shí)生成標(biāo)記。給定一對(duì)輸入-輸出文本〈X,Y〉,X被饋送到編碼器中并被處理為隱藏狀態(tài)S = 〈s1,...,sn〉。然后將一系列“[MASK]”標(biāo)記序列饋送到NAR解碼器中以并行生成輸出文本Y中的每個(gè)標(biāo)記。

提前退出機(jī)制

通常情況下,大多數(shù)NAR模型只在最后一層同時(shí)預(yù)測(cè)token,因此,token預(yù)測(cè)不知道其他位置生成的token。為了解決這個(gè)問題,ELMER在不同層生成token。上層token的生成可以依賴于從左側(cè)和右側(cè)生成的下層token。通過這種方式,模型可以明確地學(xué)習(xí)來自不同層標(biāo)記之間的依賴關(guān)系,并且在NAR解碼中享受完全的并行性,如上圖所示。如果在較低層生成token時(shí)有足夠的置信度,則允許模型在該層退出并進(jìn)行預(yù)測(cè),而不經(jīng)過上層。

層排列預(yù)訓(xùn)練

與大多數(shù)先前工作專注于為特定任務(wù)(如翻譯)設(shè)計(jì)小規(guī)模NAR模型不同,ELMER使用大規(guī)模語(yǔ)料庫(kù)對(duì)通用大規(guī)模PLM進(jìn)行預(yù)訓(xùn)練。這使得ELMER能夠適應(yīng)各種下游任務(wù)。

首先將損壞的文本輸入編碼器,然后使用上述LPLM以NAR方式由解碼器重建原始文本來訓(xùn)練模型。主要采用兩種有用的文檔損壞方法:

洗牌:首先將原文按照句號(hào)分成句子,然后對(duì)這些句子進(jìn)行隨機(jī)洗牌。

文本填充:基于打亂的文本,從泊松分布(λ = 3)中抽取長(zhǎng)度的15%跨度進(jìn)行采樣。在BART之后,每個(gè)span都被替換為單個(gè)“[MASK]” token,模型可以學(xué)習(xí)應(yīng)該預(yù)測(cè)一個(gè)span中的多少個(gè)token。

下游微調(diào)

預(yù)訓(xùn)練模型可用于微調(diào)各種下游文本生成任務(wù)。在微調(diào)階段,可以使用小規(guī)模和特定任務(wù)的數(shù)據(jù)集,精確估計(jì)每個(gè)token的輸出層。在這里主要考慮兩種提前停止方式,即硬提前停止和軟提前停止。

硬提前退出是最直接的方法,它通過計(jì)算每個(gè)標(biāo)記的預(yù)測(cè)置信度,并設(shè)置一個(gè)閾值來決定是否提前退出。如果某個(gè)標(biāo)記的預(yù)測(cè)置信度低于閾值,則不會(huì)進(jìn)行提前退出。

軟提前退出則是一種更加靈活的方法,它允許模型在生成文本時(shí)動(dòng)態(tài)地調(diào)整每個(gè)標(biāo)記的預(yù)測(cè)置信度閾值。具體來說,在軟提前退出中,模型會(huì)根據(jù)當(dāng)前已經(jīng)生成的文本內(nèi)容和上下文信息來動(dòng)態(tài)地調(diào)整每個(gè)標(biāo)記的預(yù)測(cè)置信度閾值。這種方法可以使得模型更加靈活地適應(yīng)不同的文本生成任務(wù),并且可以在不同任務(wù)之間共享已經(jīng)學(xué)習(xí)到的知識(shí)。

比較

雖然效果上還完全比不上自回歸,但一旦這個(gè)方向成熟,從效率上會(huì)徹底顛覆現(xiàn)在的GPT系列模型。

3bfd866a-e49d-11ed-ab56-dac502259ad0.png

引用

https://arxiv.org/pdf/2210.13304.pdf

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3519

    瀏覽量

    50414
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    368

    瀏覽量

    16084

原文標(biāo)題:引用

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    一種新的記憶多項(xiàng)式預(yù)失真器

    一種新的記憶多項(xiàng)式預(yù)失真器摘要:提出了一種新的記憶多項(xiàng)式預(yù)失真器,對(duì)寬帶功率放大器進(jìn)行線性化.該方法主要利用
    發(fā)表于 08-08 09:52

    優(yōu)化神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法有哪些?

    優(yōu)化神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法有哪些?
    發(fā)表于 09-06 09:52

    介紹XLNet的原理及其與BERT的不同點(diǎn)

    1、什么是XLNet?  首先,XLNet是個(gè)類似于bert的模型,而不是個(gè)完全不同的模型。但它是個(gè)非常有前途和潛力的??傊?,XLNet是一種廣義的
    發(fā)表于 11-01 15:29

    研究人員提出一種基于哈希的二值網(wǎng)絡(luò)訓(xùn)練方法 比當(dāng)前方法的精度提高了3%

    程健研究員團(tuán)隊(duì)最近提出了一種基于哈希的二值網(wǎng)絡(luò)訓(xùn)練方法,揭示了保持內(nèi)積哈希和二值權(quán)重網(wǎng)絡(luò)之間的緊密關(guān)系。
    的頭像 發(fā)表于 02-08 15:38 ?5402次閱讀

    微軟在ICML 2019上提出了個(gè)全新的通用預(yù)訓(xùn)練方法MASS

    專門針對(duì)序列到序列的自然語(yǔ)言生成任務(wù),微軟亞洲研究院提出了新的預(yù)訓(xùn)練方法:屏蔽序列到序列預(yù)訓(xùn)練(MASS: Masked Sequence to Sequence Pre-traini
    的頭像 發(fā)表于 05-11 09:19 ?3737次閱讀
    微軟在ICML 2019上提出了<b class='flag-5'>一</b>個(gè)全新的通用<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練方法</b>MASS

    新的預(yù)訓(xùn)練方法——MASS!MASS預(yù)訓(xùn)練幾大優(yōu)勢(shì)!

    專門針對(duì)序列到序列的自然語(yǔ)言生成任務(wù),微軟亞洲研究院提出了新的預(yù)訓(xùn)練方法:屏蔽序列到序列預(yù)訓(xùn)練(MASS: Masked Sequence to Sequence Pre-traini
    的頭像 發(fā)表于 05-11 09:34 ?7609次閱讀
    新的<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練方法</b>——MASS!MASS<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>幾大優(yōu)勢(shì)!

    檢索增強(qiáng)型語(yǔ)言表征模型預(yù)訓(xùn)練

    如果有一種預(yù)訓(xùn)練方法可以 顯式地 獲取知識(shí),如引用額外的大型外部文本語(yǔ)料庫(kù),在不增加模型大小或復(fù)雜性的情況下獲得準(zhǔn)確結(jié)果,會(huì)怎么樣?
    的頭像 發(fā)表于 09-27 14:50 ?2262次閱讀

    一種側(cè)重于學(xué)習(xí)情感特征的預(yù)訓(xùn)練方法

    transformers編碼表示)的基礎(chǔ)上,提岀了一種側(cè)重學(xué)習(xí)情感特征的預(yù)訓(xùn)練方法。在目標(biāo)領(lǐng)域的預(yù)練階段,利用情感詞典改進(jìn)了BERT的預(yù)
    發(fā)表于 04-13 11:40 ?4次下載
    <b class='flag-5'>一種</b>側(cè)重于學(xué)習(xí)情感特征的<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練方法</b>

    現(xiàn)代交互技術(shù)下的兒童語(yǔ)言表達(dá)訓(xùn)練方法

    現(xiàn)代交互技術(shù)下的兒童語(yǔ)言表達(dá)訓(xùn)練方法
    發(fā)表于 06-27 11:27 ?3次下載

    ELMER: 高效強(qiáng)大的回歸預(yù)訓(xùn)練文本生成模型

    每個(gè)單詞都依賴于輸入文本與之前生成的單詞。回歸生成模型只建模了前向的單詞依賴關(guān)系,依次生成的結(jié)構(gòu)也使得回歸模型難以并行化。目前大部分預(yù)
    的頭像 發(fā)表于 03-13 10:39 ?1808次閱讀

    基礎(chǔ)模型監(jiān)督預(yù)訓(xùn)練的數(shù)據(jù)之謎:大量數(shù)據(jù)究竟是福還是禍?

    。然而,在監(jiān)督預(yù)訓(xùn)練中,是否數(shù)據(jù)越多越好?數(shù)據(jù)增廣是否始終有效?華為諾亞方舟實(shí)驗(yàn)室與香港科技大學(xué)的研究團(tuán)隊(duì)近期發(fā)現(xiàn): 主流監(jiān)督預(yù)
    的頭像 發(fā)表于 07-24 16:55 ?883次閱讀
    基礎(chǔ)模型<b class='flag-5'>自</b>監(jiān)督<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的數(shù)據(jù)之謎:大量數(shù)據(jù)究竟是福還是禍?

    基于生成模型的預(yù)訓(xùn)練方法

    with Deep Generative Models,我認(rèn)為是個(gè)挺強(qiáng)挺有趣的監(jiān)督方面的工作。DreamTeacher 用于從預(yù)訓(xùn)練的生成網(wǎng)絡(luò)向目標(biāo)圖像 Backbone 進(jìn)行知識(shí)蒸餾,作為
    的頭像 發(fā)表于 08-11 09:38 ?1614次閱讀
    基于生成模型的<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練方法</b>

    混合專家模型 (MoE)核心組件和訓(xùn)練方法介紹

    隨著 Mixtral 8x7B (announcement, model card) 的推出,一種稱為混合專家模型 (Mixed Expert Models,簡(jiǎn)稱 MoEs
    的頭像 發(fā)表于 01-13 09:37 ?2216次閱讀
    混合專家模型 (MoE)核心組件和<b class='flag-5'>訓(xùn)練方法</b>介紹

    谷歌模型訓(xùn)練軟件有哪些功能和作用

    谷歌模型訓(xùn)練軟件主要是指ELECTRA,這是一種新的預(yù)訓(xùn)練方法,源自谷歌AI。ELECTRA不僅擁有BERT的優(yōu)勢(shì),而且在效率上更勝籌。
    的頭像 發(fā)表于 02-29 17:37 ?1071次閱讀

    ai大模型訓(xùn)練方法有哪些?

    AI大模型訓(xùn)練方法個(gè)復(fù)雜且不斷發(fā)展的領(lǐng)域。以下是ai大模型訓(xùn)練方法: 數(shù)據(jù)預(yù)處理和增強(qiáng) 數(shù)據(jù)清洗:去除噪聲和不完整的數(shù)據(jù)。 數(shù)據(jù)標(biāo)準(zhǔn)化:將數(shù)據(jù)縮放到統(tǒng)的范圍。 數(shù)據(jù)增強(qiáng):通過旋轉(zhuǎn)
    的頭像 發(fā)表于 07-16 10:11 ?3158次閱讀