01
—
研究動機(jī)
方面級情感分類(英文叫Aspect-level Sentiment Classification,簡稱ASC)旨在檢測句子中給定意見目標(biāo)的情感極性。意見目標(biāo)(也稱為方面術(shù)語)是指評論中描述實(shí)體方面的單詞或短語。如圖1所示,"服務(wù)很好,但食物卻很糟糕"這句話包含兩個(gè)意見目標(biāo),即"食物"和"服務(wù)"。用戶對目標(biāo)"服務(wù)"的看法是正面的,而對目標(biāo)"食物"的看法卻是負(fù)面的。
圖1: 包含多個(gè)意見目標(biāo)的句子示例
從上面的例子中我們可以看到,一個(gè)句子有時(shí)會包含多個(gè)意見目標(biāo),并且它們可能表達(dá)不同的情感極性,因此ASC的一個(gè)主要挑戰(zhàn)是如何為不同的意見目標(biāo)獲取到不同的情感上下文。為此,大多數(shù)方法運(yùn)用注意力機(jī)制(Bahdanau et al., 2014)來捕獲與給定目標(biāo)相關(guān)的情感詞,然后將其匯總以進(jìn)行情感預(yù)測。盡管注意力機(jī)制是有效的,但我們認(rèn)為由于ASC標(biāo)注數(shù)據(jù)是有限的,因此它未能充分發(fā)揮注意力機(jī)制的潛力。眾所周知,深度學(xué)習(xí)的結(jié)果很大程度上取決于訓(xùn)練數(shù)據(jù)的多少。但是,在實(shí)際情況中,ASC數(shù)據(jù)的注釋費(fèi)時(shí)且昂貴,因?yàn)樽⑨屨卟粌H需要識別句子中所有的意見目標(biāo),而且還需要判斷其相應(yīng)的情感極性。注釋困難導(dǎo)致現(xiàn)有公開的數(shù)據(jù)集都相對較小,這嚴(yán)重限制了注意力機(jī)制的潛力。
盡管缺少ASC數(shù)據(jù),但是在線評論網(wǎng)站(例如Amazon和Yelp)可以提供大量的文檔級情感分類(DSC)標(biāo)記數(shù)據(jù)。這些評論中包含了大量的情感知識和語義模式。因此,一個(gè)有意義但具有挑戰(zhàn)性的研究問題是如何利用資源豐富的DSC數(shù)據(jù)來提升低資源任務(wù)ASC。為此,He et al. (2018) 設(shè)計(jì)了PRET + MULT框架,通過共享淺層的embedding嵌入和LSTM層將情感知識從DSC數(shù)據(jù)傳遞到ASC任務(wù)。受膠囊網(wǎng)絡(luò)的啟發(fā)(Sabour et al., 2017),Chen and Qian (2019)提出TransCap模型,它共享底部的三個(gè)膠囊層,然后僅在最后一個(gè)ClassCap層中分離了兩個(gè)任務(wù)。從根本上說,PRET + MULT和Transcap通過共享參數(shù)和多任務(wù)學(xué)習(xí)來提升ASC,但是它們不能準(zhǔn)確地控制和解釋要傳輸?shù)闹R。
為了解決上述提到的兩個(gè)問題,在這項(xiàng)工作中,我們提出了一種新穎的框架,即注意力轉(zhuǎn)移網(wǎng)絡(luò)(ATN),它從DSC任務(wù)中顯式的轉(zhuǎn)移注意力知識,以提高ASC任務(wù)中意見目標(biāo)的注意力能力。與PRET + MULT和Transcap相比,我們的模型獲得了更好的結(jié)果并保留了良好的可解釋性。
02
—
解決方案
圖1顯示了注意轉(zhuǎn)移網(wǎng)絡(luò)(ATN)的總體組織結(jié)構(gòu)。在ATN框架中,我們分別采用了兩個(gè)基于注意力的BiLSTM網(wǎng)絡(luò)作為DSC和ASC的基礎(chǔ)模塊,并提出了兩種將DSC中的注意力知識遷移到ASC的新方法。
圖2: 注意力遷移網(wǎng)絡(luò)(ATN)的整體架構(gòu)
第一種遷移方法稱為注意力引導(dǎo)。具體來說,我們首先在大規(guī)模的DSC數(shù)據(jù)集上預(yù)訓(xùn)練一個(gè)基于注意力的BiLSTM網(wǎng)絡(luò),然后利用DSC模塊中的注意力權(quán)重作為學(xué)習(xí)信號來引導(dǎo)ASC模塊更準(zhǔn)確地捕捉情感線索,從而取得很好的結(jié)果。注意力引導(dǎo)通過輔助監(jiān)督信號學(xué)習(xí)DSC模塊的注意力能力,但是,它不能在測試階段利用DSC模塊的注意力權(quán)重,并且浪費(fèi)了預(yù)先訓(xùn)練的知識。為了充分利用額外的注意能力,我們進(jìn)一步提出了注意力融合方法來直接將它們合并。
這兩種方法雖然工作方式不同,但是都有各自的優(yōu)點(diǎn)。注意力引導(dǎo)的目的是學(xué)習(xí)DSC模塊的注意力能力,由于在測試階段不使用DSC的外部注意力,因此具有更快的推理速度,而注意力融合可以利用DSC模塊在測試階段的注意力知識,做出更全面的預(yù)測。
03
—
實(shí)驗(yàn)
我們在SemEval 2014 Task 44 (Pontiki et al., 2014)的兩個(gè)ASC基準(zhǔn)數(shù)據(jù)集上評估了模型的性能。 它們分別包含來自laptop和restaurant領(lǐng)域的商品評論。我們在所有數(shù)據(jù)集中刪除了極性沖突的樣本。ASC數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)如表1所示:
表1:ASC數(shù)據(jù)集的統(tǒng)計(jì)信息
為了對DSC模塊進(jìn)行預(yù)訓(xùn)練,我們使用了兩個(gè)DSC數(shù)據(jù)集,分別是YelpReview和AmazonReview(Li et al., 2018a)。DSC數(shù)據(jù)集Yelp Review包含的注意力知識遷移到ASC數(shù)據(jù)集Restaurant。而laptop的注意力知識來自AmazonReview。表2顯示了它們的統(tǒng)計(jì)信息。在這項(xiàng)工作中,我們采用Accuracy和Macro-F1作為評估ASC任務(wù)中不同方法的性能指標(biāo)。
表2:DSC數(shù)據(jù)集的統(tǒng)計(jì)信息
主要結(jié)果如表3所示。我們將結(jié)果分為三類:第一類列出了ASC任務(wù)的經(jīng)典方法,第二類給出了兩種基于遷移的現(xiàn)有方法,最后一類是我們的基礎(chǔ)ASC模型和兩個(gè)增強(qiáng)版本。我們分別使用ATN-AG和ATN-AF來表示使用了注意力引導(dǎo)和注意力融合的ATN。
表3:主實(shí)驗(yàn)結(jié)果(%)
我們的基礎(chǔ)ASC模型-基于注意力的BiLSTM通過位置嵌入得到了增強(qiáng),其性能優(yōu)于某些基于注意力的模型(如ATAE-LSTM和IAN)。這個(gè)結(jié)果表明位置嵌入對于在ASC任務(wù)中建模目標(biāo)信息是有益的。在此基礎(chǔ)上,我們的注意力轉(zhuǎn)移模型ATN-AG和ATN-AF在restaurant數(shù)據(jù)集上的Accuracy分別提高了約1%和2%,在laptop數(shù)據(jù)集上提高了2.8%。此外,它們超過了兩種使用了轉(zhuǎn)移知識的現(xiàn)有方法,即PRET + MULT和Transcap。
這些結(jié)果證明了我們提出的將注意力知識從資源豐富的DSC數(shù)據(jù)轉(zhuǎn)移到ASC任務(wù)的有效性。與ATN-AG相比,ATN-AF在restaurant數(shù)據(jù)集上具有更好的性能。這是合理的,因?yàn)樵跍y試階段,ATN-AG無法利用DSC模塊的注意力權(quán)重。盡管如此,ATN-AG仍在laptop數(shù)據(jù)集上獲得了有競爭力的結(jié)果,并且推理速度比ATN-AF快。
為了研究DSC數(shù)據(jù)集大小對我們方法的影響,我們將DSC數(shù)據(jù)的百分比從0%更改為100%,以報(bào)告ATN-AG和ATN-AF的結(jié)果。臨界值0%和100%分別表示無DSC數(shù)據(jù)和使用完整的DSC數(shù)據(jù)集。結(jié)果如圖2所示:
圖3: 在不同百分比的DSC數(shù)據(jù)下ATN-AG和ATN-AF的性能
為了分析超參數(shù)λ對ATN-AG的影響,我們在[0,1]中對其進(jìn)行調(diào)整以進(jìn)行實(shí)驗(yàn),步長為0.1。 圖3顯示了restaurant和laptop數(shù)據(jù)集上具有不同λ的ATN-AG的性能:
圖4: 超參數(shù)λ對ATN-AG的影響
在ATN模型中,我們提出了注意力指導(dǎo)和注意力融合的方法,以幫助ASC模塊更準(zhǔn)確地捕獲情感線索。為了驗(yàn)證這一點(diǎn),我們分析了數(shù)十個(gè)測試集中的示例。與基礎(chǔ)ASC模型相比,我們發(fā)現(xiàn)注意力轉(zhuǎn)移方法可以處理低頻情感詞和諸如否定之類的復(fù)雜情感模式。表4顯示了兩個(gè)示例的注意力可視化結(jié)果以及在模型ATN-AG和ATN-AF下的相應(yīng)情感預(yù)測。
圖5: ATN-AG和ATN-AF的注意力可視化結(jié)果,較深的顏色表示較高的注意力權(quán)重
04
—
總結(jié)
標(biāo)注數(shù)據(jù)不足會限制基于注意力的模型對ASC任務(wù)的有效性。 本文提出了一種新穎的注意力轉(zhuǎn)移框架,其中設(shè)計(jì)了兩種不同的注意力轉(zhuǎn)移方法,以利用資源豐富的文檔級情感分類語料庫中的注意力知識來增強(qiáng)資源貧乏的方面級情感分類的注意力過程,最終達(dá)到改善ASC性能的目標(biāo)。 實(shí)驗(yàn)結(jié)果表明,我們的方法優(yōu)于最新技術(shù)。 進(jìn)一步的分析驗(yàn)證了從DSC數(shù)據(jù)轉(zhuǎn)移注意力知識到ASC任務(wù)的有效性和好處。
責(zé)任編輯:xj
原文標(biāo)題:【COLING2020】面向方面級情感分類的注意力轉(zhuǎn)移網(wǎng)絡(luò)
文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
情感識別
+關(guān)注
關(guān)注
1文章
10瀏覽量
7653 -
自然語言
+關(guān)注
關(guān)注
1文章
292瀏覽量
13654 -
nlp
+關(guān)注
關(guān)注
1文章
490瀏覽量
22613
原文標(biāo)題:【COLING2020】面向方面級情感分類的注意力轉(zhuǎn)移網(wǎng)絡(luò)
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
華為面向中東中亞地區(qū)升級星河AI網(wǎng)絡(luò)
經(jīng)顱電刺激適應(yīng)癥之tDCS治療注意力缺陷ADHD

洲明科技推出DeepSeek滿血版AI全息情感陪伴艙
華為面向海外全面升級星河AI網(wǎng)絡(luò)
簽約頂級封裝廠,普萊信巨量轉(zhuǎn)移技術(shù)掀起晶圓級封裝和板級封裝的技術(shù)革命

如何使用MATLAB構(gòu)建Transformer模型

ADS1299S是否推薦有與DEMO匹配的傳感器頭?
基于LSTM神經(jīng)網(wǎng)絡(luò)的情感分析方法
一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)

如何進(jìn)行自然語言處理模型訓(xùn)練
使用LLM進(jìn)行自然語言處理的優(yōu)缺點(diǎn)
MSP430系統(tǒng)級ESD注意事項(xiàng)

2024 年 19 種最佳大型語言模型

評論