01、研究動(dòng)機(jī)
在生成式摘要任務(wù)中,模型基于輸入文檔逐詞生成摘要。隨著深度學(xué)習(xí)的發(fā)展,生成式摘要取得了巨大進(jìn)展。然而在現(xiàn)在的模型所生成的摘要中,超過(guò)70%含有事實(shí)不一致錯(cuò)誤[1]。這些不一致錯(cuò)誤嚴(yán)重限制了生成式摘要的實(shí)際應(yīng)用。要解決這個(gè)問(wèn)題的第一步就是評(píng)估摘要的一致性,檢測(cè)出不一致錯(cuò)誤。
表1:一個(gè)多種粒度的事實(shí)不一致檢測(cè)例子(下劃線標(biāo)記是詞級(jí)別的不一致標(biāo)注,EntE和OutE是具體不一致類別,對(duì)應(yīng)實(shí)體錯(cuò)誤以及不在原文錯(cuò)誤)
摘要的生成過(guò)程中有兩個(gè)因素:文檔X提供重要的事實(shí)信息來(lái)支持生成一致的摘要內(nèi)容。同時(shí),在大規(guī)模語(yǔ)料上訓(xùn)練的模型M提供語(yǔ)言先驗(yàn)知識(shí)來(lái)保證生成摘要的流暢性。因此摘要中每個(gè)詞的生成概率由文檔X和模型M聯(lián)合決定。而生成概率正反映了模型對(duì)摘要的偏好,對(duì)應(yīng)存在模型對(duì)一致摘要的偏好以及對(duì)流暢摘要的偏好。這樣的因果關(guān)系如圖1(a)所示。
圖1:不同推理過(guò)程的示意圖:(a)常規(guī)的推理過(guò)程,Y的生成由文檔和預(yù)訓(xùn)練模型共同決定;(b) CoCo[3]提出的使用部分Mask文檔的推理過(guò)程;(c)我們提出的使用prompt的推理過(guò)程。
一致性評(píng)估的本質(zhì)是衡量摘要Y受原文X支持的程度,也就是衡量X到Y(jié)的因果效應(yīng)。直接使用常規(guī)推理過(guò)程的生成概率(如BARTScore[2])不能夠區(qū)分X和M的因果效應(yīng),二者的偏好是混雜的。比如一些流暢性很差但是事實(shí)一致的摘要會(huì)獲得一個(gè)較低的生成概率,被誤判為不一致。概率差分方法使用一個(gè)額外推理過(guò)程來(lái)分離偏好。如圖1(b)所示,CoCo[3]使用一個(gè)被部分遮蓋(Mask)的文檔作為額外推理的輸入。然而,被遮蓋的文檔天然缺乏流暢性,違背語(yǔ)言先驗(yàn)知識(shí),評(píng)估的過(guò)程依然受到和事實(shí)一致性無(wú)關(guān)的偏好影響。除此之外合理且精確的決定遮蓋文檔中哪些詞語(yǔ)也很困難。
02、貢獻(xiàn)
我們提出了一個(gè)事實(shí)不一致檢測(cè)框架CoP,有三個(gè)優(yōu)勢(shì):
在無(wú)監(jiān)督的條件下,利用prompt更好的過(guò)濾模型的一致性無(wú)關(guān)偏好,專注于檢測(cè)事實(shí)不一致。
可以和prompt tuning結(jié)合,高效利用少量標(biāo)簽數(shù)據(jù)訓(xùn)練,進(jìn)一步提升性能。
通過(guò)靈活的設(shè)計(jì)prompt,不需要額外訓(xùn)練就可以控制特定的偏好來(lái)檢測(cè)具體的不一致類別。
實(shí)驗(yàn)結(jié)果表明我們的框架CoP在三個(gè)事實(shí)不一致檢測(cè)任務(wù)上獲得了SOTA表現(xiàn),進(jìn)一步的實(shí)驗(yàn)分析驗(yàn)證了我們方法的有效性。
03、方法
3.1利用帶prompt的額外推理來(lái)控制偏好
我們的框架包括兩個(gè)推理過(guò)程(圖2)。第一次推理和常見(jiàn)的生成過(guò)程是一樣的:利用文檔X作為輸入,并將待測(cè)摘要Y輸入解碼器的進(jìn)行forced-decoding,得到待測(cè)摘要Y中每一個(gè)詞的生成概率。第二次推理我們將文檔和一個(gè)prompt T一起作為輸入,利用類似過(guò)程可以得到第二個(gè)概率。
我們可以根據(jù)實(shí)際的應(yīng)用場(chǎng)景來(lái)設(shè)計(jì)prompt??紤]一個(gè)最簡(jiǎn)單的情況,我們用待測(cè)摘要作為prompt (我們稱這種離散文本prompt為prompt text)。很直觀的,假如待測(cè)摘要和輸入文檔事實(shí)一致,那么它是一種輸入冗余,因此不會(huì)帶來(lái)巨大的概率變化。相反的,摘要中的不一致部分會(huì)帶來(lái)更大的概率變化。換而言之,差分概率更多的由模型對(duì)一致性的偏好引起,進(jìn)而過(guò)濾了無(wú)關(guān)偏好,例如對(duì)流暢性的偏好。具體而言我們用第二次推理的概率減去第一次的概率,計(jì)算出差分概率。越大的差分概率意味著和原文的不一致程度越高。高于閾值的詞語(yǔ)會(huì)被預(yù)測(cè)為不一致,我們可以根據(jù)具體的應(yīng)用設(shè)置閾值來(lái)控制預(yù)測(cè)比例。例如,對(duì)于期望更高召回率的不一致改錯(cuò)任務(wù),可以選擇一個(gè)相對(duì)低的閾值。
圖2:我們的框架CoP示意圖
3.2、對(duì)具體不一致類別設(shè)計(jì)prompt
先前的工作[4]詳細(xì)定義了不一致類型,并統(tǒng)計(jì)了類型分布?,F(xiàn)有的評(píng)估方法往往忽略了這些詳細(xì)信息。我們認(rèn)為能夠檢測(cè)不一致類型的評(píng)估工具有助于分析現(xiàn)有模型的錯(cuò)誤傾向、指導(dǎo)未來(lái)的研究方向。其中EntE(實(shí)體相關(guān)不一致), CorefE(指代相關(guān)不一致),OutE(不在原文的不一致)相對(duì)高頻,分別出現(xiàn)了36%, 10%和27%,我們以它們?yōu)槔齺?lái)說(shuō)明我們框架的工作過(guò)程。
最基礎(chǔ)的prompt是整個(gè)待測(cè)摘要,可以覆蓋摘要里的所有不一致內(nèi)容,對(duì)應(yīng)的可以解決OutE。而對(duì)于檢測(cè)其他類別的不一致,我們可以通過(guò)添加類別相關(guān)的事實(shí)信息來(lái)針對(duì)性控制偏好。對(duì)于實(shí)體錯(cuò)誤,我們從摘要里抽取出實(shí)體,并把實(shí)體列表拼接到prompt text。對(duì)于指代錯(cuò)誤,我們類似的對(duì)摘要進(jìn)行指代消解,并將對(duì)應(yīng)的指代信息插入到代詞的后面。假如生成概率顯著受這些額外的類別相關(guān)的事實(shí)信息影響,那么我們可以認(rèn)定這個(gè)摘要包含和對(duì)應(yīng)類別相關(guān)的不一致。
此時(shí)我們?nèi)匀猾@得的是詞級(jí)別的不一致分?jǐn)?shù),而類別相關(guān)的標(biāo)注往往是摘要級(jí)別的。最簡(jiǎn)單的方法就是在摘要上對(duì)詞級(jí)別分?jǐn)?shù)做平均(所有詞語(yǔ)的權(quán)重均等)。然而我們的框架可以精細(xì)的檢查每一個(gè)詞的一致性,包含實(shí)體詞和指代詞。我們加倍對(duì)應(yīng)類別詞語(yǔ)的權(quán)重,讓模型更專注于該類別的一致性評(píng)估。
3.3利用prompt tuning從有限數(shù)據(jù)中學(xué)習(xí)
事實(shí)一致性的標(biāo)注數(shù)據(jù)相當(dāng)稀缺。得益于我們框架的靈活性,我們可以集成prompt tuning[5],進(jìn)一步的從有限的標(biāo)注數(shù)據(jù)中學(xué)習(xí)。從離散的詞匯空間中學(xué)習(xí)prompt text相當(dāng)困難,因此我們提出了一個(gè)小規(guī)模的任務(wù)相關(guān)的連續(xù)向量prompt vector。我們希望prompt vector可以幫助模型更好的區(qū)分prompt text和輸入文檔,并引導(dǎo)模型在二者之間做精細(xì)的事實(shí)分析比對(duì),強(qiáng)化對(duì)事實(shí)一致性的偏好。
圖3:prompt vector示意圖(使用紅色標(biāo)出)
如圖3所示,我們?cè)诘诙瓮评碇械膒rompt text前后加上prompt vector。為了保證推理過(guò)程的一致性,我們?cè)诘谝淮瓮评碇幸脖A魀rompt vector,區(qū)別在于第一次推理中沒(méi)有prompt text。我們凍結(jié)了整個(gè)生成模型,僅學(xué)習(xí)小規(guī)模的prompt vector。使用如下的損失函數(shù)進(jìn)行更新參數(shù):
其中l(wèi)abel是詞級(jí)別的標(biāo)記,用1和-1表示當(dāng)前詞是一致和不一致。損失函數(shù)將直接優(yōu)化任務(wù)目標(biāo):最大化不一致詞語(yǔ)的差分概率,最小化一致詞語(yǔ)的差分概率。
04、實(shí)驗(yàn)
我們?cè)赬Sum Hallucination Annotations[1],QAGS [6],F(xiàn)RANK [4]三個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。XSum Hallucination Annotations數(shù)據(jù)集提供了詞級(jí)別的不一致標(biāo)簽,0/1分別表示當(dāng)前詞是一致/不一致。QAGS和FRANK提供了摘要級(jí)別的分?jǐn)?shù)來(lái)表示一致性,越高的分?jǐn)?shù)代表了越高的一致性。FRANK數(shù)據(jù)集還提供了不一致類別標(biāo)簽,同樣用分?jǐn)?shù)表示。我們測(cè)試了三個(gè)設(shè)置下的CoP,分別是不需要訓(xùn)練的Ours Zero-Shot、使用300條數(shù)據(jù)訓(xùn)練的Ours Few-Shot,以及使用1200條數(shù)據(jù)訓(xùn)練的Ours Full-Shot。
4.1無(wú)監(jiān)督下檢測(cè)不一致
如表2,3所示,我們統(tǒng)計(jì)了XSum Hallucination Annotations數(shù)據(jù)集每一個(gè)子集和數(shù)據(jù)集整體的F1。Ours Zero-Shot效果的效果相當(dāng)不錯(cuò),比起之前表現(xiàn)最好的模型BARTScore[2]提升了4.64,直觀的證明了利用prompt做額外推理去過(guò)濾無(wú)關(guān)偏好的有效性。即便是比起那些使用大量偽數(shù)據(jù)的方法,Ours Zero-Shot也相當(dāng)有競(jìng)爭(zhēng)力,比DAE-Weak[7]提升了4.62。此外,在每一個(gè)數(shù)據(jù)子集上的穩(wěn)定提升證明了我們的模型有足夠的泛化能力來(lái)處理不同模型生成的摘要。
表2:在每一個(gè)數(shù)據(jù)子集上的F1(×100),*代表這個(gè)方法不需要訓(xùn)練
表3:數(shù)據(jù)集級(jí)別的F1(×100),*代表這個(gè)方法不需要訓(xùn)練
表4展示了在摘要級(jí)別上和人工標(biāo)注分?jǐn)?shù)的Pearson系數(shù),我們的模型在4個(gè)數(shù)據(jù)集上都取得了SOTA。值得注意的是,我們的模型在QAGS-XSUM和FRANK-XSUM上取得了更加顯著的提升,分別比BARTScore提升3.98和5.34。XSUM是一個(gè)更加抽象且含有更多噪音的數(shù)據(jù)集,在XSUM上取得顯著優(yōu)勢(shì)表明CoP能夠更好的分離語(yǔ)言知識(shí)偏好,專注于不一致的檢測(cè)。
表4:指標(biāo)評(píng)估和人工一致性分?jǐn)?shù)的摘要級(jí)別Pearson系數(shù)(×100)
4.2結(jié)合prompt tuning高效改進(jìn)性能
我們進(jìn)一步的在詞級(jí)別的不一致檢測(cè)任務(wù)上驗(yàn)證prompt tuning的有效性,結(jié)果如表2和表3所示。CoP僅僅使用300條真實(shí)數(shù)據(jù)就超過(guò)了使用2000條真實(shí)數(shù)據(jù)的DAE以及使用960k偽數(shù)據(jù)的DHC,達(dá)到了SOTA水平。這表明了CoP能夠更加有效的從少量數(shù)據(jù)中學(xué)習(xí)。當(dāng)標(biāo)記數(shù)據(jù)增多時(shí),模型的性能也能進(jìn)一步提升。當(dāng)我們使用完整的1200條數(shù)據(jù)訓(xùn)練時(shí),數(shù)據(jù)集級(jí)別的F1達(dá)到69.61,比表現(xiàn)很不錯(cuò)的Zero-Shot進(jìn)一步提升9.24%。和使用2000條數(shù)據(jù)的DAE相比,CoP提升了4.61,展示了更高的學(xué)習(xí)效率。
4.3具體類別的事實(shí)不一致檢測(cè)
表5和表6的結(jié)果表明Our Base已經(jīng)超過(guò)了之前的工作,證明CoP不僅擅長(zhǎng)檢測(cè)細(xì)粒度的不一致,也能夠很好的檢測(cè)具體類別的不一致錯(cuò)誤,而CoP還可以通過(guò)設(shè)計(jì)和使用多樣的prompt進(jìn)一步的提升多種不一致類別的檢測(cè)結(jié)果。值得注意的是這個(gè)過(guò)程并不需要任何額外訓(xùn)練。
此外我們還注意到,當(dāng)我們的模型改進(jìn)特定不一致類別的檢測(cè)結(jié)果時(shí),還影響了整體和OutE這兩種不一致類型。我們認(rèn)為這可能因?yàn)?1)EntE是一個(gè)相當(dāng)常見(jiàn)的錯(cuò)誤,改進(jìn)這個(gè)類別會(huì)加強(qiáng)模型對(duì)整體不一致程度的評(píng)估。(2)各種不一致類別之間也存在聯(lián)系,比如EntE和OutE。當(dāng)模型無(wú)法很好的理解原文的實(shí)體時(shí),它也很容易產(chǎn)生不在原文的不一致。我們?cè)诟戒浝镞M(jìn)一步討論了不一致類別之間的關(guān)系。
表5:指標(biāo)評(píng)估和人工CorefE標(biāo)注分?jǐn)?shù)的Pearson系數(shù)(×100)
表6:指標(biāo)評(píng)估和人工EntE標(biāo)注分?jǐn)?shù)的Pearson系數(shù)(×100)
05、分析
5.1不同backbone上的魯棒性
我們?cè)赒AGS-CNN上測(cè)試了基于不同的backbone的CoP和baseline,結(jié)果于表7。可以看到在不同backbone上CoP保持了穩(wěn)定的優(yōu)勢(shì),證明了其魯棒性。
表7:在不同Backbone上的表現(xiàn)
5.2靈活的prompt vector長(zhǎng)度
作為第一篇在一致性領(lǐng)域結(jié)合prompt tuning的工作,我們也分析了prompt vector長(zhǎng)度的影響。如圖4所示,隨著長(zhǎng)度的增加,受益于更多可訓(xùn)練參數(shù)帶來(lái)的更強(qiáng)表達(dá)能力,模型的效果會(huì)逐漸提升。但和prefix tuning[5]類似的,超過(guò)閾值之后效果出現(xiàn)了一些下降,這可能是因?yàn)楦鄥?shù)帶來(lái)的過(guò)擬合數(shù)據(jù)噪音的風(fēng)險(xiǎn)。比起先前的工作只能從一個(gè)固定大小的預(yù)訓(xùn)練模型開(kāi)始訓(xùn)練,我們可以通過(guò)靈活調(diào)節(jié)參數(shù)量適應(yīng)實(shí)際應(yīng)用的不同數(shù)據(jù)規(guī)模。
圖4:prompt vector長(zhǎng)度和數(shù)據(jù)集級(jí)別F1,兩個(gè)X軸對(duì)應(yīng)兩個(gè)訓(xùn)練設(shè)定
5.3 prompt tuning帶來(lái)更清晰的決策邊界
我們可視化了CoP預(yù)測(cè)的評(píng)估分?jǐn)?shù)于圖5。可以觀察到在Zero-Shot下,分?jǐn)?shù)分布就存在區(qū)別,很直接的解釋了為什么CoP可以在無(wú)監(jiān)督環(huán)境下工作。而利用prompt tuning從微量數(shù)據(jù)中學(xué)習(xí)之后,分?jǐn)?shù)的分布呈現(xiàn)了更加清晰的邊界,極大的幫助CoP分辨出摘要的不一致。
圖5:標(biāo)準(zhǔn)化后的分?jǐn)?shù)分布,更高的分?jǐn)?shù)代表CoP認(rèn)為這個(gè)詞更可能是不一致
5.4高效的少量訓(xùn)練參數(shù)
可訓(xùn)練參數(shù)的規(guī)模極大影響訓(xùn)練效率以及所需顯存。在這個(gè)低資源任務(wù)中,之前的工作為了訓(xùn)練大模型,往往需要構(gòu)造大量偽數(shù)據(jù),增加了訓(xùn)練代價(jià)。偽數(shù)據(jù)和真實(shí)數(shù)據(jù)分布的差異,也導(dǎo)致了天然性能差距。我們比較CoP和之前工作的參數(shù)規(guī)模,結(jié)果顯示我們僅僅用了0.02%的參數(shù)就超過(guò)了之前的工作,展示了我們框架的高效性。
表8:不同方法的可訓(xùn)練參數(shù)規(guī)模
5.5樣例分析
表9:越高的分?jǐn)?shù)代表模型認(rèn)為摘要更一致(下劃線是詞級(jí)別不一致標(biāo)注)
我們展示了兩個(gè)測(cè)試集的例子。摘要1是事實(shí)一致的,但是存在生成冗余。對(duì)于那些不能很好過(guò)濾流暢性偏好的方法,生成冗余會(huì)誤導(dǎo)模型去認(rèn)為這個(gè)摘要不一致。顯然我們的方法給出了一個(gè)更合理的分?jǐn)?shù)。另一個(gè)例子則相反,相當(dāng)流暢且僅僅在一些核心詞語(yǔ)上出現(xiàn)了不一致錯(cuò)誤。CoCo給了一個(gè)更高的分?jǐn)?shù),并不能發(fā)現(xiàn)不一致錯(cuò)誤,CoP展現(xiàn)了更好檢測(cè)事實(shí)不一致的能力。
06、總結(jié)
在本篇工作中,我們提出了CoP,利用prompt來(lái)控制模型偏好,檢測(cè)事實(shí)不一致。通過(guò)分離無(wú)關(guān)偏好,CoP不需要訓(xùn)練就可以精確的檢測(cè)出事實(shí)不一致。此外CoP可以衡量特定類型的偏好并檢測(cè)出具體不一致類型。我們還探索了結(jié)合prompt tuning來(lái)高效的從少量真實(shí)數(shù)據(jù)中學(xué)習(xí)。CoP在三個(gè)不一致檢測(cè)任務(wù)上取得了SOTA結(jié)果,證明了我們方法的有效性。
審核編輯:郭婷
-
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5561瀏覽量
122811
原文標(biāo)題:AAAI2023 | 通過(guò)控制偏好檢測(cè)事實(shí)不一致
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
CAN總線采樣點(diǎn)不一致的危害
采樣點(diǎn)不一致:總線通信的隱形殺手

AD7265的VB的引腳映射的順序與數(shù)據(jù)手冊(cè)的并不一致是怎么回事?
采用2片ADS8345采集多路傳感器信號(hào)得到的各個(gè)通道數(shù)據(jù)精度不一致,為什么?
ADS1293 DRDYB與讀數(shù)據(jù)的關(guān)系為什么與手冊(cè)描述的不一致?為什么?
HDJB-9000合并單元數(shù)模一體繼電保護(hù)綜合測(cè)試系統(tǒng)做三相不一致保護(hù)方法

評(píng)論