99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解讀一下DeBERTa在BERT上有哪些改造

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:深度學(xué)習(xí)自然語言 ? 2021-04-15 14:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

DeBERTa刷新了GLUE的榜首,本文解讀一下DeBERTa在BERT上有哪些改造

DeBERTa對BERT的改造主要在三點(diǎn)

分散注意力機(jī)制

為了更充分利用相對位置信息,輸入的input embedding不再加入pos embedding, 而是input在經(jīng)過transformer編碼后,在encoder段與“decoder”端 通過相對位置計(jì)算分散注意力

增強(qiáng)解碼器(有點(diǎn)迷)

為了解決預(yù)訓(xùn)練和微調(diào)時(shí),因?yàn)槿蝿?wù)的不同而預(yù)訓(xùn)練和微調(diào)階段的gap,加入了一個(gè)增強(qiáng)decoder端,這個(gè)decoder并非transformer的decoder端(需要decoder端有輸入那種),只是直觀上起到了一個(gè)decoder作用

解碼器前接入了絕對位置embedding,避免只有相對位置而丟失了絕對位置embedding

其實(shí)本質(zhì)就是在原始BERT的倒數(shù)第二層transformer中間層插入了一個(gè)分散注意力計(jì)算

訓(xùn)練trick

訓(xùn)練時(shí)加入了一些數(shù)據(jù)擾動(dòng)

mask策略中不替換詞,變?yōu)樘鎿Q成詞的pos embedding

c5b1d7ee-9cd8-11eb-8b86-12bb97331649.jpg

分散注意力機(jī)制

motivation

BERT加入位置信息的方法是在輸入embedding中加入postion embedding, pos embedding與char embedding和segment embedding混在一起,這種早期就合并了位置信息在計(jì)算self-attention時(shí),表達(dá)能力受限,維護(hù)信息非常被弱化了

c5ed3c44-9cd8-11eb-8b86-12bb97331649.jpg

BERT embedding

本文的motivation就是將pos信息拆分出來,單獨(dú)編碼后去content 和自己求attention,增加計(jì)算 “位置-內(nèi)容” 和 “內(nèi)容-位置” 注意力的分散Disentangled Attention

Disentangled Attention計(jì)算方法

分散注意力機(jī)制首先在input中分離相對位置embedding,在原始char embedding+segment embedding經(jīng)過編碼成后,與相對位置計(jì)算attention,

即是內(nèi)容編碼,是相對的位置編碼, attention的計(jì)算中,融合了位置-位置,內(nèi)容-內(nèi)容,位置-內(nèi)容,內(nèi)容-位置

相對位置的計(jì)算

限制了相對距離,相距大于一個(gè)閾值時(shí)距離就無效了,此時(shí)距離設(shè)定為一個(gè)常數(shù),距離在有效范圍內(nèi)時(shí),用參數(shù)用控制

c6002ffc-9cd8-11eb-8b86-12bb97331649.jpg

增強(qiáng)型解碼器

強(qiáng)行叫做解碼器

用 EMD( enhanced mask decoder) 來代替原 BERT 的 SoftMax 層預(yù)測遮蓋的 Token。因?yàn)槲覀冊诰{(diào)時(shí)一般會(huì)在 BERT 的輸出后接一個(gè)特定任務(wù)的 Decoder,但是在預(yù)訓(xùn)練時(shí)卻并沒有這個(gè) Decoder;所以本文在預(yù)訓(xùn)練時(shí)用一個(gè)兩層的 Transformer decoder 和一個(gè) SoftMax 作為 Decoder。其實(shí)就是給后層的Transformer encoder換了個(gè)名字,千萬別以為是用到了Transformer 的 Decoder端

絕對位置embedding

在decoder前有一個(gè)騷操作是在這里加入了一層絕對位置embedding來彌補(bǔ)一下只有相對位置的損失,比如“超市旁新開了一個(gè)商場”,當(dāng)mask的詞是“超市”,“商場”,時(shí),只有相對位置時(shí)沒法區(qū)分這兩個(gè)詞的信息,因此decoder中加入一層

一些訓(xùn)練tricks

將BERT的訓(xùn)練策略中,mask有10%的情況是不做任何替換,這種情況attention偏向自己會(huì)非常明顯,DeBeta將不做替換改成了換位該位置詞絕對位置的pos embedding, 實(shí)驗(yàn)中明顯能看到這種情況下的attention對自身依賴減弱

c617b1d6-9cd8-11eb-8b86-12bb97331649.jpg

在訓(xùn)練下游任務(wù)時(shí),給訓(xùn)練集做了一點(diǎn)擾動(dòng)來增強(qiáng)模型的魯棒性

效果

DeBERTa large目前是GLUE的榜首,在大部分任務(wù)上整體效果相比還是有一丟丟提升

c63aa8c6-9cd8-11eb-8b86-12bb97331649.jpg

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7256

    瀏覽量

    91891
  • 編碼
    +關(guān)注

    關(guān)注

    6

    文章

    969

    瀏覽量

    55783
  • Decoder
    +關(guān)注

    關(guān)注

    0

    文章

    25

    瀏覽量

    10896

原文標(biāo)題:SOTA來啦!BERT又又又又又又魔改了!DeBERTa登頂GLUE~

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    “碰一下”支付終端應(yīng)用在酒店:智能無卡入住與客房控制

    和數(shù)字化體驗(yàn)。消費(fèi)者門店買單時(shí),用手機(jī)碰一下付款筆筆有優(yōu)惠、同步實(shí)現(xiàn)會(huì)員積分。但除了餐飲零售場景,“碰一下”終端和“碰一下”機(jī)具還有更多意想不到的應(yīng)用場景。在前不
    的頭像 發(fā)表于 07-04 09:57 ?175次閱讀
    “碰<b class='flag-5'>一下</b>”支付終端應(yīng)用在酒店:智能無卡入住與客房控制

    上電時(shí)GPIO控制的LED偶爾詭異地亮了一下

    快速上下電時(shí),主控1.8V的GPIO控制的LED會(huì)亮一下。放久點(diǎn)再上電則不會(huì)異常亮。仔細(xì)排查發(fā)現(xiàn)1.8V比0.9V先上電,再深入排查發(fā)現(xiàn)快速上下電時(shí)1.8V電源的RC延時(shí)使能失效,上電時(shí)序異常,主控工作異常。
    的頭像 發(fā)表于 06-18 14:16 ?214次閱讀
    上電時(shí)GPIO控制的LED偶爾詭異地亮了<b class='flag-5'>一下</b>

    一下終端,讓自助售貨機(jī)秒變 “家里的冰箱”

    繼刷臉支付后,支付寶近日又推出了新的支付方式——碰一下支付。只需將手機(jī)輕輕靠近支付寶“碰一下”支付終端,即可完成支付,比以往要先解鎖手機(jī),調(diào)出APP的付款碼再支付的操作環(huán)節(jié)要便捷和省時(shí)許多?!芭?b class='flag-5'>一下
    的頭像 發(fā)表于 06-18 10:49 ?208次閱讀
    碰<b class='flag-5'>一下</b>終端,讓自助售貨機(jī)秒變 “家里的冰箱”

    你家也有“隱形守護(hù)者”?Rd-03雷達(dá)模組了解一下

    想象一下,你走進(jìn)間黑漆漆的樓道, 突然,燈“唰”地一下亮了, 明明沒看到任何傳感器 新科技悄無聲息地守護(hù)著我們的生活。 快速發(fā)展的智能照明行業(yè)中, 雷達(dá)感應(yīng)技術(shù)的性能更加穩(wěn)定,功耗
    的頭像 發(fā)表于 02-14 09:33 ?331次閱讀
    你家也有“隱形守護(hù)者”?Rd-03雷達(dá)模組了解<b class='flag-5'>一下</b>

    請教一下,兩片ADS8568PCB布線是應(yīng)該注意什么

    請教一下,兩片ADS8568PCB布線是應(yīng)該注意什么,數(shù)字地和模擬地的組合方式,或者有多片ADC的布線文檔沒,急用,謝謝。
    發(fā)表于 01-21 08:25

    “碰一下”支付背后的4G技術(shù)

    不知道你是否有留意,近期,在線下支付場景中,多了個(gè)支付寶“碰一下”支付的設(shè)備,只需要“解鎖手機(jī)—碰一下—確認(rèn)”即可完成支付,對比打開付款碼支付,步驟確實(shí)更加簡潔。
    的頭像 發(fā)表于 01-03 16:27 ?1922次閱讀

    支付寶發(fā)布新代AI視覺搜索“探一下

    支付寶近日正式推出了基于自研多模態(tài)大模型技術(shù)的新代AI視覺搜索產(chǎn)品——“探一下”。這創(chuàng)新產(chǎn)品的問世,標(biāo)志著支付寶AI技術(shù)應(yīng)用領(lǐng)域邁出了重要
    的頭像 發(fā)表于 12-31 10:49 ?567次閱讀

    解讀SPI

    讓我們回顧一下,我們學(xué)習(xí)了串口通訊(優(yōu)點(diǎn)是全雙工,缺點(diǎn)是只能點(diǎn)對點(diǎn)通訊) 另外還學(xué)習(xí)了IIC通訊(優(yōu)點(diǎn)是主多從通訊,缺點(diǎn)是半雙工) 技巧:看個(gè)總線是半雙工還是全雙工就看有幾根數(shù)據(jù)線 那有沒有總線是以全雙工,
    的頭像 發(fā)表于 11-19 11:37 ?1095次閱讀
    <b class='flag-5'>一</b>文<b class='flag-5'>解讀</b>SPI

    建議DFM工具里的拼版完善一下

    建議DFM工具里的拼版完善一下 異性板拼版時(shí)建議增加X Y偏移選項(xiàng) 比如我這個(gè)三角形板子,我選擇倒扣拼版時(shí) 是這樣有些浪費(fèi)空間。 如果能增加x偏移量 y偏移量 可以做到這樣,這樣拼版就劃算多了, 建議在這里增加偏移量選項(xiàng)
    發(fā)表于 11-14 15:55

    WORD里面插入波形圖中遇到的問題麻煩大佬幫忙看一下

    波形圖添加到WORD功能實(shí)現(xiàn)了沒有問題,但是插入的位置不是我想要的,然后MS Office parameters 里面的書簽當(dāng)中添加了我WORD里面定義的書簽然會(huì)就會(huì)報(bào)錯(cuò)41110. 麻煩各位大佬幫忙小弟解答一下,剛學(xué)LA
    發(fā)表于 09-28 13:51

    內(nèi)置誤碼率測試儀(BERT)和采樣示波器體化測試儀器安立MP2110A

    BERTWave MP2110A是款內(nèi)置誤碼率測試儀(BERT)和采用示波器的體化測量儀器,支持光模塊的誤碼率(BERT)測量、眼圖模式測試、眼圖分析等評估操作
    的頭像 發(fā)表于 09-23 14:34 ?868次閱讀
    內(nèi)置誤碼率測試儀(<b class='flag-5'>BERT</b>)和采樣示波器<b class='flag-5'>一</b>體化測試儀器安立MP2110A

    自感線圈斷電時(shí)燈泡為啥會(huì)閃亮一下

    探討自感線圈斷電時(shí)燈泡為什么會(huì)閃亮一下的原因: 電流變化 :當(dāng)電路中的電源被切斷時(shí),流經(jīng)線圈的電流會(huì)突然減少。這種快速的電流變化會(huì)導(dǎo)致自感電動(dòng)勢的產(chǎn)生。 自感電動(dòng)勢 :由于電流的快速減少,線圈中的自感電動(dòng)勢會(huì)迅
    的頭像 發(fā)表于 08-29 14:36 ?3820次閱讀

    想用OPA134單電源放大MIC信號(hào),單電源3.3V供電,幫忙看看哪里還需要修改一下?

    想用OPA134單電源放大MIC信號(hào)(智能設(shè)備),單電源3.3V供電,幫忙看看哪里還需要修改一下,謝謝! MIC_P上有1uF的隔直電容,這邊沒顯示,濾除MIC bais上的直流電流。
    發(fā)表于 08-28 06:06

    AWG和BERT常見問題解答

    隨著信號(hào)的速率越來越高,調(diào)制格式越來越復(fù)雜,對測試儀器的性能要求也越來越高。是德科技也一直在推出業(yè)界領(lǐng)先的高帶寬、高采樣率的AWG和高性能的BERT
    的頭像 發(fā)表于 08-06 17:27 ?1280次閱讀

    請問一下ESP8266有沒有位操作或者位帶的功能?

    請問一下ESP8266有沒有位操作或者位帶的功能,我們需要對塊連續(xù)內(nèi)存區(qū)域(相當(dāng)于顯存)進(jìn)行位操作,如果不用位操作速度會(huì)很慢,ESP8266上有位操作或者位帶功能嗎?如果有,怎么操作?
    發(fā)表于 07-22 06:42