1. 介紹
機(jī)器閱讀理解旨在根據(jù)給定上下文來(lái)回答相關(guān)問(wèn)題,近年來(lái)在工業(yè)界與學(xué)術(shù)界均得到了廣泛的關(guān)注,目前最先進(jìn)的系統(tǒng)都是基于預(yù)訓(xùn)練模型構(gòu)建的。即便如此,仍然需要大量標(biāo)注數(shù)據(jù)才能達(dá)到比較理想的結(jié)果,對(duì)于一些缺乏大規(guī)模有標(biāo)注數(shù)據(jù)領(lǐng)域和場(chǎng)景,現(xiàn)有模型的遷移效果往往并不令人滿意。相關(guān)工作[1,2]探索利用無(wú)標(biāo)注的目標(biāo)領(lǐng)域文本進(jìn)行領(lǐng)域遷移,但這種方法無(wú)法使模型對(duì)目標(biāo)領(lǐng)域的問(wèn)題進(jìn)行有效建模。在本文中,我們利用少量的標(biāo)注數(shù)據(jù),通過(guò)對(duì)在大規(guī)模有標(biāo)注領(lǐng)域上訓(xùn)練過(guò)的模型進(jìn)行遷移,來(lái)提高在目標(biāo)領(lǐng)域上的表現(xiàn)。另一方面,基于Transformer的預(yù)訓(xùn)練模型通常包含至少上億個(gè)參數(shù),如BERT Base的大小為110M。鑒于目標(biāo)領(lǐng)域只有少量的標(biāo)注數(shù)據(jù),調(diào)整全部參數(shù)以適應(yīng)目標(biāo)領(lǐng)域非常困難,而且也是不必要的。另外,有研究[6]表明大規(guī)模稠密的神經(jīng)網(wǎng)絡(luò)模型有過(guò)參數(shù)化(over-parameterized)的趨勢(shì)。我們探索只利用一小部分參數(shù)進(jìn)行領(lǐng)域遷移,這些參數(shù)對(duì)應(yīng)原稠密神經(jīng)網(wǎng)絡(luò)模型中的一個(gè)稀疏子網(wǎng)絡(luò)。此外,我們還引入對(duì)自注意力模塊的分析,來(lái)找到更具遷移性的稀疏子網(wǎng)絡(luò)。最后,我們?cè)诙鄠€(gè)目標(biāo)領(lǐng)域上進(jìn)行了實(shí)驗(yàn),取得超過(guò)多種基線方法的效果,我們還對(duì)提出的方法進(jìn)行了仔細(xì)的分析。
圖1. 基于稀疏子網(wǎng)絡(luò)的領(lǐng)域遷移方法
2. 背景
2.1 Transformer架構(gòu)
如圖2所示,Transformer模型一般由輸入嵌入層、輸出層和若干結(jié)構(gòu)相同的Transformer層堆疊組成。更具體地,每層由一個(gè)多頭自注意力模塊和前饋模塊組成,共包含6個(gè)參數(shù)矩陣。
圖2. Transformer模型
2.2 自注意力分析
有許多工作[3,4]嘗試分析解釋Transformer模型的行為,最近,Hao[5]等人提出一種新的分析方法AttAttr可以估計(jì)每個(gè)自注意力頭對(duì)模型輸出的貢獻(xiàn)。本文采用此方法對(duì)在不同閱讀理解領(lǐng)域數(shù)據(jù)集上微調(diào)過(guò)的BERT模型進(jìn)行分析,如圖3所示,我們發(fā)現(xiàn)重要的注意力頭在不同的領(lǐng)域上呈強(qiáng)正相關(guān)分布,即在一個(gè)領(lǐng)域上重要的自注意力頭,也極有可能在其它領(lǐng)域上也非常重要。基于這一發(fā)現(xiàn),我們提出了本文的面向閱讀理解任務(wù)的少樣本領(lǐng)域遷移方法。
圖3. (a)在SQuADv1.1上的自注意力頭重要性分布。(b)-(d)不同領(lǐng)域上的自注意力頭相關(guān)性分析。每個(gè)點(diǎn)對(duì)應(yīng)同一個(gè)自注意力頭在兩個(gè)對(duì)應(yīng)的領(lǐng)域上的重要性。
3. 方法
我們?cè)诖笠?guī)模標(biāo)注數(shù)據(jù)的源領(lǐng)域上訓(xùn)練過(guò)的Transformer模型遷移到只有少量標(biāo)注數(shù)據(jù)的目標(biāo)領(lǐng)域上。在遷移時(shí),我們通過(guò)減枝來(lái)識(shí)別只包含少量參數(shù)的稀疏子網(wǎng)絡(luò),并只對(duì)子網(wǎng)絡(luò)的參數(shù)進(jìn)行更新來(lái)適應(yīng)目標(biāo)領(lǐng)域,在尋找子網(wǎng)絡(luò)時(shí),通過(guò)引入自注意力歸因,來(lái)同時(shí)考慮參數(shù)的結(jié)構(gòu)化與非結(jié)構(gòu)化的重要性。
3.1 子網(wǎng)絡(luò)識(shí)別
Magnitude Pruning是一種簡(jiǎn)單有效的非結(jié)構(gòu)化減枝方法,這個(gè)方法根據(jù)參數(shù)的絕對(duì)值大小進(jìn)行減值。我們以該方法為基礎(chǔ),通過(guò)迭代的方式分若干步來(lái)逐漸刪減參數(shù)到目標(biāo)數(shù)量,并且每次刪減部分參數(shù)后,都會(huì)對(duì)網(wǎng)絡(luò)進(jìn)行一定步數(shù)的訓(xùn)練,恢復(fù)模型在源領(lǐng)域上的效果,然后再進(jìn)行下一步的參數(shù)刪減。在本文中,我們只對(duì)每層Transformer層中的6個(gè)參數(shù)矩陣進(jìn)行刪減,其余的參數(shù)矩陣和偏置完全保留。
此外,在進(jìn)行參數(shù)的重要性比較以選擇要?jiǎng)h減的參數(shù)時(shí),通常有兩種策略,一種是所有參數(shù)一起進(jìn)行全局比較,另一種是只在參數(shù)矩陣內(nèi)部進(jìn)行局部比較。在我們對(duì)參數(shù)矩陣的分析中發(fā)現(xiàn),不同的參數(shù)矩陣的絕對(duì)值均值分布有較大的差異,若采用全局減枝,最后的結(jié)果會(huì)很大程度上被均值差異影響,而局部比較則最后所有參數(shù)矩陣具有相同的稀疏度,并且忽略了參數(shù)矩陣本身的所在模塊的重要性。所以,我們提出一種分組比較策略,根據(jù)不同參數(shù)矩陣的均值進(jìn)行分組,在組內(nèi)進(jìn)行全局比較,具體地,將均值相當(dāng)?shù)膮?shù)矩陣分為一組,最后劃分為三組。
根據(jù)之前對(duì)閱讀理解任務(wù)的自注意力分析發(fā)現(xiàn),Transformer中的不同自注意力頭對(duì)于模型最后的預(yù)測(cè)并不是同等重要的,并且重要性的分布在不同的領(lǐng)域上高度正相關(guān)。所以,我們引入自注意力歸因來(lái)補(bǔ)充Magnitude Pruning,以期得到能夠更好的遷移到目標(biāo)領(lǐng)域的子網(wǎng)絡(luò)。具體地,在進(jìn)行每一步減枝時(shí),我們先估計(jì)出當(dāng)前模型中不同注意力的重要性得分并進(jìn)行歸一化,以此作為對(duì)參數(shù)絕對(duì)值進(jìn)行縮放,需要注意的是,同一個(gè)注意力頭中的參數(shù)矩陣共享同一個(gè)重要性得分。此外,還通過(guò)超參數(shù)來(lái)控制歸因得分對(duì)最后參數(shù)重要性的影響。總體來(lái)說(shuō),通過(guò)這種方式,我們同時(shí)考慮到了參數(shù)的非結(jié)構(gòu)化與結(jié)構(gòu)化重要性,整體算法如圖4所示。
圖4. 稀疏子網(wǎng)絡(luò)識(shí)別算法
3.2 子網(wǎng)絡(luò)遷移
通過(guò)上述步驟后,最后剩下的參數(shù)即為找到的子網(wǎng)絡(luò)的結(jié)構(gòu),在進(jìn)行領(lǐng)域適應(yīng)時(shí),我們保留得到的結(jié)構(gòu),但將參數(shù)回滾到減枝前,即源領(lǐng)域模型上的狀態(tài),在后續(xù)的參數(shù)更新時(shí)只更新子網(wǎng)絡(luò)對(duì)應(yīng)的參數(shù),其余參數(shù)不進(jìn)行梯度更新。但需要注意的是,所有的參數(shù)均參與前向計(jì)算過(guò)程。
4. 實(shí)驗(yàn)及分析
4.1 數(shù)據(jù)集
在我們的實(shí)驗(yàn)中,以SQuAD為源領(lǐng)域數(shù)據(jù)集,通過(guò)對(duì)五個(gè)目標(biāo)領(lǐng)域數(shù)據(jù)集采樣來(lái)模擬少樣本領(lǐng)域遷移的場(chǎng)景,具體的領(lǐng)域數(shù)據(jù)集信息如表1所示。
表1. 數(shù)據(jù)集特征及統(tǒng)計(jì)信息
4.2 基線方法
Zero-Shot 不進(jìn)行遷移,直接在目標(biāo)領(lǐng)域上進(jìn)行預(yù)測(cè)。
Fine-tuning 微調(diào)源領(lǐng)域模型的全部參數(shù)進(jìn)行領(lǐng)域適應(yīng)。
EWC(Elastic Weight Consolidation) 一種正則化算法,使得參數(shù)在更新時(shí)不至大幅偏離原始參數(shù)。
Layer Freeze 只調(diào)整Tranformer模型接近輸出層的若干層的參數(shù),其余參數(shù)則保持不動(dòng)。
Adapter 保持源領(lǐng)域模型的參數(shù)不動(dòng),通過(guò)添加并調(diào)整額外的adapter模塊來(lái)進(jìn)行領(lǐng)域適應(yīng)。
4.3 實(shí)驗(yàn)結(jié)果與分析
如表2所示,當(dāng)使用1024條目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù),并將用于領(lǐng)域遷移的參數(shù)數(shù)量限定在21M時(shí),本文提出的Alter在4個(gè)目標(biāo)領(lǐng)域上取得了超過(guò)基線方法的效果。其中,我們的方法和Layer Freeze還有Adapter調(diào)整數(shù)量相當(dāng)?shù)膮?shù)量來(lái)進(jìn)行領(lǐng)域適應(yīng)。在NQ數(shù)據(jù)集上,當(dāng)使用42M參數(shù)時(shí),我們的方法與Fine-tuning表現(xiàn)相當(dāng)。進(jìn)一步地,當(dāng)不對(duì)參數(shù)數(shù)量進(jìn)行限制時(shí)的實(shí)驗(yàn)結(jié)果如圖5-8所示,除NQ外我們的方法也均取得了超過(guò)基線方法的效果,并且通常只需要完整模型的20%-30%的參數(shù)即可。
表2. 使用1024條目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)時(shí)的EM與F1得分
圖5. NewsQA實(shí)驗(yàn)結(jié)果
圖6. TriviaQA實(shí)驗(yàn)結(jié)果
圖7. TweetQA實(shí)驗(yàn)結(jié)果
圖8. NQ實(shí)驗(yàn)結(jié)果
圖9展示了引入自注意力頭來(lái)幫助尋找稀疏子網(wǎng)絡(luò)的結(jié)果,通過(guò)對(duì)比可以發(fā)現(xiàn),在使用不同數(shù)量的目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)及不同規(guī)模的參數(shù)進(jìn)行領(lǐng)域遷移時(shí),自注意力頭均能夠幫助找到遷移效果更好的子網(wǎng)絡(luò)。
圖9. 引入自注意力歸因與否的領(lǐng)域遷移結(jié)果
為了探究不同的子網(wǎng)絡(luò)識(shí)別方法得到的結(jié)構(gòu)對(duì)遷移效果的影響,我們進(jìn)行嘗試了以下四種候選方法:
Random 隨機(jī)選取目標(biāo)數(shù)量的參數(shù)
Magnitude 只根據(jù)參數(shù)的絕對(duì)值大小進(jìn)行選擇
Salvage 采用與本文提出的相同的流程,但采用相反的策略選擇參數(shù),即使用原本被減掉的參數(shù)進(jìn)行遷移
AttrHead 采用結(jié)構(gòu)化減枝的方式得到,將若干自注意力頭的參數(shù)整體剪掉,對(duì)于前饋層的參數(shù)則仍采用非結(jié)構(gòu)化的方式減枝
實(shí)驗(yàn)結(jié)果如表3所示,使用不同方法得到的子網(wǎng)絡(luò)大小一致,不同的方法的效果差別并不明顯,但均超過(guò)了調(diào)整全部參數(shù)的方法。對(duì)比Salvage和Alter,我們發(fā)現(xiàn)使用對(duì)模型輸出影響更大的參數(shù)的效果更好。通過(guò)與AttrHead方法進(jìn)行比較,我們可以發(fā)現(xiàn),重要性得分較低的自注意力頭中絕對(duì)值較大的參數(shù)對(duì)領(lǐng)域遷移也有用。
表3. 不同子網(wǎng)絡(luò)識(shí)別方法的領(lǐng)域遷移結(jié)果
5. 結(jié)論
在本文中,我們針對(duì)少樣本閱讀理解領(lǐng)域遷移提出了一種簡(jiǎn)單而有效的方法Alter,該方法只使用過(guò)參數(shù)化的源領(lǐng)域模型中的一部分參數(shù)進(jìn)行目標(biāo)領(lǐng)域遷移,我們還引入了自注意力歸因來(lái)識(shí)別子網(wǎng)絡(luò)以取得更好的遷移效果,通過(guò)進(jìn)一步探索不同的子網(wǎng)絡(luò)識(shí)別方法,發(fā)現(xiàn)除了使用更少的參數(shù)以外,子網(wǎng)絡(luò)的結(jié)構(gòu)也非常重要。
審核編輯 :李倩
-
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1224瀏覽量
25457 -
Transformer
+關(guān)注
關(guān)注
0文章
151瀏覽量
6524
原文標(biāo)題:6. 參考文獻(xiàn)
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
載流子遷移率提高技術(shù)詳解

如何精準(zhǔn)提取MOSFET溝道遷移率

請(qǐng)問(wèn)將項(xiàng)目從RT1024遷移到RT1064的最快方法是什么?
一種永磁電機(jī)用轉(zhuǎn)子組件制作方法
KVM主機(jī)遷移方法

一種使用LDO簡(jiǎn)單電源電路解決方案

一種混合顏料光譜分區(qū)間識(shí)別方法

一種提升無(wú)人機(jī)小物體跟蹤精度的方法

一種創(chuàng)新的動(dòng)態(tài)軌跡預(yù)測(cè)方法

一種基于光強(qiáng)度相關(guān)反饋的波前整形方法

一種簡(jiǎn)單高效配置FPGA的方法

BitEnergy AI公司開(kāi)發(fā)出一種新AI處理方法
一種利用wireshark對(duì)遠(yuǎn)程服務(wù)器/路由器網(wǎng)絡(luò)抓包方法

評(píng)論