99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于大語言模型的共情回復(fù)生成:實(shí)證研究和改進(jìn)

深度學(xué)習(xí)自然語言處理 ? 來源:賽爾實(shí)驗(yàn) ? 2023-11-21 09:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

0. 省流版

對(duì)以ChatGPT為代表的LLMs在共情回復(fù)生成上的表現(xiàn)進(jìn)行了全面的實(shí)證研究,LLMs在現(xiàn)有的基準(zhǔn)數(shù)據(jù)集上,對(duì)比以往的SOTA模型,表現(xiàn)極其優(yōu)越。

在LLMs的基礎(chǔ)上,針對(duì)性地提出了三種改進(jìn)方法(語義相似的上下文學(xué)習(xí)、兩階段交互生成以及與知識(shí)庫(kù)相結(jié)合),實(shí)驗(yàn)證明了它們的有效性。

探索了GPT-4模擬人類評(píng)估員的可能性。

1. 動(dòng)機(jī)介紹

共情對(duì)話(Empathetic Dialogue)有利于構(gòu)建助人的AI。共情回復(fù)生成(Empathetic Response Generation)主要涉及理解用戶的經(jīng)歷和感受,并生成適當(dāng)?shù)幕貜?fù)。而使用對(duì)話系統(tǒng)提供共情回復(fù)具有訪問方便、無時(shí)間限制等優(yōu)點(diǎn)。圖1展示了一個(gè)共情對(duì)話示例。

29441aae-87b6-11ee-939d-92fbcf53809c.jpg

圖1 共情對(duì)話示例

先前大多數(shù)研究者基于可靠的理論知識(shí)設(shè)置了精細(xì)的模型,但是,使用的基礎(chǔ)模型大多是小規(guī)模的。最近,大語言模型(Large Language Models, LLMs)以優(yōu)異的性能被廣泛應(yīng)用于自然語言處理。尤其是ChatGPT的出現(xiàn)引起了學(xué)術(shù)界和工業(yè)界極大的關(guān)注和興趣,它在多種任務(wù)中表現(xiàn)出了非凡的能力,特別是對(duì)話生成。這些LLMs在大量語料上訓(xùn)練,包含了豐富的知識(shí)。在具體任務(wù)中,甚至無需微調(diào),采用一些gradient-free技術(shù)(例如,In-context Learning, ICL)依舊可以獲得出色的性能。因此,有必要實(shí)證探索LLMs在具體領(lǐng)域的表現(xiàn),因?yàn)榻鉀Q問題的方式可能會(huì)發(fā)生極大變化。已經(jīng)有一些初步的嘗試[1,2]將LLMs應(yīng)用于共情回復(fù)生成。然而,他們的方法主要關(guān)注預(yù)訓(xùn)練或?qū)τ?xùn)練數(shù)據(jù)進(jìn)行微調(diào),以及簡(jiǎn)單地探索單個(gè)LLM的能力。

為了研究LLMs在共情回復(fù)生成中的能力,本工作在現(xiàn)有共情對(duì)話的基準(zhǔn)數(shù)據(jù)集上對(duì)LLMs的性能進(jìn)行實(shí)證研究。我們首先采用在零樣本(zero-shot)和少樣本(few-shot)上下文學(xué)習(xí)設(shè)置下的LLMs和大量基線模型進(jìn)行比較。令人驚喜的是,僅僅是上下文學(xué)習(xí)設(shè)置下的GPT-3.5系列LLMs的表現(xiàn)已經(jīng)全面超越了最先進(jìn)的模型。這表明LLMs帶來的范式轉(zhuǎn)變也適用于共情對(duì)話。進(jìn)一步,在最佳性能設(shè)置的LLM基礎(chǔ)上,我們提出了三種可嘗試的方法來繼續(xù)提升其性能。具體來說,分別是借助語義相似性的ICL、兩階段交互生成以及和知識(shí)庫(kù)相結(jié)合的方法來進(jìn)行改進(jìn)。大量的自動(dòng)和人工評(píng)估實(shí)驗(yàn)表明,LLMs可以從我們提出的方法中受益,從而產(chǎn)生更具共情性、連貫性和信息性的回復(fù)。此外,人工評(píng)估一直是共情對(duì)話中極其重要的一環(huán),但其昂貴且耗時(shí)。鑒于LLMs在共情回復(fù)生成上的杰出表現(xiàn),我們嘗試?yán)肎PT-4來模擬人類評(píng)估員對(duì)結(jié)果進(jìn)行評(píng)測(cè)。Spearman和Kendall-Tau相關(guān)性結(jié)果表明GPT-4有潛力代替人類評(píng)估員。

2. 方法部分

29526dca-87b6-11ee-939d-92fbcf53809c.jpg

圖2 整體架構(gòu)圖

我們提出的方法整體如圖2所示,其中包括共情回復(fù)生成的統(tǒng)一模板和三種改進(jìn)方法。左邊部分描述了借助兩階段交互生成的改進(jìn),中間部分展示了所設(shè)計(jì)的統(tǒng)一模板的組成部分和借助語義相似的上下文學(xué)習(xí)進(jìn)行的改進(jìn),右邊部分說明了通過知識(shí)庫(kù)進(jìn)行改進(jìn)的細(xì)節(jié)。

2.1 初步探索

LLMs具有上下文學(xué)習(xí)(ICL)的能力,通過向LLMs提供任務(wù)指令和一些示例,它們可以在不進(jìn)行微調(diào)的情況下執(zhí)行相關(guān)任務(wù)。這種能力極大地緩解了對(duì)訓(xùn)練數(shù)據(jù)的需求。我們首先探索了LLMs在零樣本ICL和少樣本ICL設(shè)置上的表現(xiàn)。由于不同的提示(Prompts)可能會(huì)影響性能,我們?cè)谠O(shè)計(jì)提示時(shí)盡量保持一致的風(fēng)格。我們?cè)O(shè)計(jì)的共情對(duì)話提示模板由以下部分組成:

295cbf32-87b6-11ee-939d-92fbcf53809c.png

其中,Task Definition是研究者對(duì)該任務(wù)的標(biāo)準(zhǔn)定義,Guideline Instruction是我們期望模型遵循的指令,Exemplars是用于幫助模型更好地理解任務(wù)的對(duì)話示例,Dialogue Context是說話者和傾聽者的歷史對(duì)話,最后一句是說話者的話語,我們的目標(biāo)是讓對(duì)話系統(tǒng)生成傾聽者的下一輪話語。

2.2 進(jìn)階探索

2.2.1 借助語義相似的上下文學(xué)習(xí)的提升

正如[3]所言,少量精心挑選的數(shù)據(jù)也可以提高LLMs的性能。我們合理推測(cè),除了示例的數(shù)量,示例的質(zhì)量也會(huì)對(duì)模型的性能產(chǎn)生影響。因此,在選擇示例時(shí),我們從訓(xùn)練集中選擇與現(xiàn)階段對(duì)話上下文語義最接近的示例。我們將對(duì)話內(nèi)容拼接成一個(gè)長(zhǎng)句,用句子編碼器獲得向量表示,通過兩個(gè)句子的向量表示的余弦相似性衡量語義相似性:

29696e80-87b6-11ee-939d-92fbcf53809c.png

2.2.2 借助兩階段交互生成的提升

在共情對(duì)話任務(wù)的設(shè)置中,傾聽者需要推斷說話者的情緒是什么,以及是什么情境導(dǎo)致了這種情緒,從而提供合適的回復(fù)。受開放域?qū)υ捴幸恍┒嚯A段方法的啟發(fā),結(jié)合共情對(duì)話的特點(diǎn),我們與LLMs進(jìn)行兩階段對(duì)話交互。具體來說,在第一階段,我們先讓LLMs推測(cè)用戶的情緒狀態(tài)和經(jīng)歷的情境,在第二階段,結(jié)合推斷的結(jié)果生成最終回復(fù)。我們?cè)O(shè)計(jì)的兩階段提示大致如下:

2973644e-87b6-11ee-939d-92fbcf53809c.png

模型在第一階段生成的推測(cè)可以用來分析不同的關(guān)鍵因素(情緒和情境)對(duì)最終結(jié)果的影響,提高可解釋性

2.2.3 借助知識(shí)庫(kù)的提升

僅僅從歷史對(duì)話中推斷說話者的情緒和情境是不夠的,一個(gè)直接的證據(jù)是,在基準(zhǔn)數(shù)據(jù)集中,最終回復(fù)與歷史對(duì)話幾乎沒有非停用詞的重疊[4]。因此對(duì)話系統(tǒng)需要更多的外部信息來進(jìn)行共情對(duì)話,而我們?nèi)祟愄烊痪邆湟欢ǖ耐獠啃畔?。LLMs通過權(quán)重存儲(chǔ)了大量知識(shí),因此在執(zhí)行具體任務(wù)時(shí),如何更好地激發(fā)相關(guān)知識(shí)對(duì)于效果的提升影響很大。一種解決方案是針對(duì)具體任務(wù)微調(diào)LLMs,但這個(gè)過程通常需要昂貴的硬件、時(shí)間和訓(xùn)練數(shù)據(jù)。受最近的共情對(duì)話工作[5]的啟發(fā),我們考慮用常識(shí)知識(shí)庫(kù)來增強(qiáng)對(duì)話上下文,動(dòng)態(tài)利用外部相關(guān)知識(shí)來刺激LLMs編碼的相關(guān)知識(shí),從而產(chǎn)生更共情的回復(fù)。具體來說,我們采用BART版本的COMET,其在常識(shí)知識(shí)庫(kù)ATOMIC2020上訓(xùn)練得到,可以為看不見的實(shí)體生成具有代表性的常識(shí)推斷,其中,我們選用了五種關(guān)系(xIntent, XNeed, xWant, xEffect, xReact)[6]。我們根據(jù)不同的對(duì)話上下文動(dòng)態(tài)拼接得到的相對(duì)應(yīng)的常識(shí)推理,從而豐富輸入表示,激發(fā)LLMs的相關(guān)知識(shí),來產(chǎn)生更合適的回復(fù)

29923400-87b6-11ee-939d-92fbcf53809c.png

3. 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集。我們采用大型英文多輪共情對(duì)話基準(zhǔn)數(shù)據(jù)集EMPATHETICDIALOGUES[7]。數(shù)據(jù)集中的每個(gè)對(duì)話都有一個(gè)情緒標(biāo)簽(總共32種類型)和與情緒標(biāo)簽對(duì)應(yīng)的情境。說話者討論他們的處境,傾聽者試圖理解說話者的感受并給出合適的回復(fù)。

評(píng)估相關(guān)。我們進(jìn)行了自動(dòng)評(píng)估和人工評(píng)估。人工評(píng)估包含指標(biāo)評(píng)分和指標(biāo)層面的偏好測(cè)試。

其他。 本文涉及到的LLMs有關(guān)實(shí)驗(yàn),有償求助了身處國(guó)外的朋友進(jìn)行操作。

3.2 結(jié)果分析

3.2.1 初步探索結(jié)果

299f3e20-87b6-11ee-939d-92fbcf53809c.png

表1 LLMs和基線模型的自動(dòng)評(píng)估結(jié)果

表1顯示了LLMs和基線模型的自動(dòng)評(píng)估結(jié)果,其中,LLMs顯著優(yōu)于現(xiàn)有的SOTA (state-of-the-art) 模型,并在所有的自動(dòng)指標(biāo)上實(shí)現(xiàn)了顯著提升,尤其是diversity。對(duì)于DIST-1/2,LLMs分別獲得了51.8%[=(2.96-1.95)/1.95]和92.7%[=(18.29-9.49)/9.49]的提升,這表明LLMs在多樣的語言表達(dá)中具有顯著優(yōu)勢(shì)(主要是unigrams和bigrams)。就BERTScoreBLEU而言,LLMs分別實(shí)現(xiàn)了2.1%[=(2.6+1.6+2.1)/3]和26.95%[=(18.6+35.3)/2]的平均改善。這強(qiáng)調(diào)了LLMs具備強(qiáng)大的上下文能力,可以快速應(yīng)用于未見的特定任務(wù)。此外,我們觀察到示例數(shù)量和多樣性的性能呈正相關(guān),這表明示例的增加可能會(huì)影響LLMs的語言習(xí)慣。

29aeb31e-87b6-11ee-939d-92fbcf53809c.png

表2 ChatGPT和對(duì)比的基線模型的人工評(píng)分結(jié)果

29c20e00-87b6-11ee-939d-92fbcf53809c.png

表3 指標(biāo)層面的人類偏好測(cè)試結(jié)果

在人工評(píng)估中,我們選擇在大多數(shù)自動(dòng)指標(biāo)上領(lǐng)先的ChatGPT (+5-shot) 作為L(zhǎng)LMs的代表。表2和表3的上部分分別列出了人工評(píng)分和指標(biāo)層面的偏好測(cè)試的結(jié)果。我們觀察到ChatGPT在所有人工指標(biāo)上也極大地優(yōu)于基線模型,這進(jìn)一步證明了LLMs在產(chǎn)生共情、連貫和具備信息量的回復(fù)上的優(yōu)越性。此外,我們注意到基線模型的分?jǐn)?shù)低于以往研究中的數(shù)值。這是因?yàn)镃hatGPT的卓越表現(xiàn)相對(duì)提高了標(biāo)準(zhǔn)。在偏好測(cè)試中,超過70%的情況下,人類評(píng)估員更喜歡ChatGPT生成的回復(fù),這一現(xiàn)象也可以驗(yàn)證上述觀點(diǎn)。

3.2.2 進(jìn)階探索結(jié)果

29dfd174-87b6-11ee-939d-92fbcf53809c.png

表4 進(jìn)階探索的自動(dòng)評(píng)估結(jié)果

進(jìn)階探索的實(shí)驗(yàn)結(jié)果如表4和表3的下部分所示??偟膩碚f,我們的改進(jìn)方法生成的回復(fù)更容易被人類評(píng)估員接受。這些結(jié)果驗(yàn)證了上下文學(xué)習(xí)示例的選擇、兩階段交互生成和上下文相關(guān)知識(shí)的增強(qiáng)的有效性。

3.2.3LLM模擬人類評(píng)估員的分析

29f20984-87b6-11ee-939d-92fbcf53809c.png

表5 人類評(píng)估員和GPT-4在不同方面的Spearman和Kendall-Tau相關(guān)性

LLMs在生成共情回復(fù)中展現(xiàn)了杰出的性能,自然地,我們想到是否可以使用LLMs模擬人類評(píng)估員來評(píng)估其他模型的性能。與人類評(píng)估員相比,LLMs具有更低的成本和更短的時(shí)間消耗。為此,我們考慮更強(qiáng)大的GPT-4作為評(píng)估器,在相同的設(shè)置下進(jìn)行偏好測(cè)試。我們采用Spearman和Kendall-Tau相關(guān)來評(píng)估人類評(píng)估員和GPT-4的表現(xiàn),結(jié)果如表5所示。我們觀察到,GPT-4在各個(gè)方面都取得了較好的結(jié)果(參考[8]),這表明LLMs有潛力模擬人類評(píng)估員。

4. 結(jié)論

在這項(xiàng)工作中,我們實(shí)證研究了LLMs在共情回復(fù)生成方面的表現(xiàn),并提出了三種改進(jìn)方法。自動(dòng)和人工評(píng)估結(jié)果表明,LLMs顯著優(yōu)于最先進(jìn)的模型,并驗(yàn)證了我們提出的改進(jìn)方法的有效性。我們的工作可以有助于更深入地理解和應(yīng)用LLMs進(jìn)行共情對(duì)話,并為類似的任務(wù)提供一些見解。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3808

    瀏覽量

    138103
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    368

    瀏覽量

    16103
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1590

    瀏覽量

    9114
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    325

    瀏覽量

    848

原文標(biāo)題:EMNLP'23 | 基于大語言模型的共情回復(fù)生成:實(shí)證研究和改進(jìn)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【大語言模型:原理與工程實(shí)踐】探索《大語言模型原理與工程實(shí)踐》

    的未來發(fā)展方向進(jìn)行了展望,包括跨領(lǐng)域、跨模態(tài)和自動(dòng)提示生成能力方向,為讀者提供了對(duì)未來技術(shù)發(fā)展的深刻見解?!洞?b class='flag-5'>語言模型原理與工程實(shí)踐》是一本內(nèi)容豐富、深入淺出的技術(shù)書籍。它不僅為讀者提供了大
    發(fā)表于 04-30 15:35

    【大語言模型:原理與工程實(shí)踐】揭開大語言模型的面紗

    語言模型(LLM)是人工智能領(lǐng)域的尖端技術(shù),憑借龐大的參數(shù)量和卓越的語言理解能力贏得了廣泛關(guān)注。它基于深度學(xué)習(xí),利用神經(jīng)網(wǎng)絡(luò)框架來理解和生成自然
    發(fā)表于 05-04 23:55

    【大語言模型:原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

    語言模型基礎(chǔ)技術(shù)21隨著Transformer結(jié)構(gòu)在機(jī)器翻譯領(lǐng)域取得巨大成功,研究人員開始探索其在其他自然語言處理任務(wù)中的潛力。很快,Transformer 結(jié)構(gòu)被證明不僅適用于序列
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實(shí)踐】大語言模型的評(píng)測(cè)

    閱讀和理解。 文案創(chuàng)作能力:在大語言模型應(yīng)用中占據(jù)核心地位,尤其對(duì)于滿足多樣化、復(fù)雜化的內(nèi)容需求具有不可替代的價(jià)值。這種能力不僅限于戲劇劇本、市場(chǎng)營(yíng)銷文案、學(xué)術(shù)研究論文和數(shù)據(jù)分析報(bào)告等多種文章形態(tài)的
    發(fā)表于 05-07 17:12

    【大語言模型:原理與工程實(shí)踐】大語言模型的應(yīng)用

    的創(chuàng)造力進(jìn)行結(jié)合,從而創(chuàng)造出更加豐富多樣的內(nèi)容。隨著技術(shù)的不斷發(fā)展,自動(dòng)提示生成技術(shù)有望逐漸成熟。這將使大語言模型變得更加自主,能夠自行構(gòu)建和改進(jìn)提示詞以達(dá)到理想的結(jié)果。這將極大地提高
    發(fā)表于 05-07 17:21

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    今天來學(xué)習(xí)大語言模型在自然語言理解方面的原理以及問答回復(fù)實(shí)現(xiàn)。 主要是基于深度學(xué)習(xí)和自然語言處理技術(shù)。 大
    發(fā)表于 08-02 11:03

    為什么生成模型值得研究

    1.Why study generative modeling? 人們可能很自然地想知道為什么生成模型值得研究,尤其是那些只能夠生成數(shù)據(jù)而不能提供密度函數(shù)估計(jì)的
    發(fā)表于 09-15 06:03

    一種結(jié)合回復(fù)生成的對(duì)話意圖預(yù)測(cè)模型

    ,但是,在很多場(chǎng)景下回復(fù)可能并沒有生成。因此,文中提出了一種結(jié)合回復(fù)生成的對(duì)話意圖預(yù)測(cè)模型。在生成部分,使用Seq2Seq結(jié)構(gòu),根據(jù)對(duì)話歷史
    發(fā)表于 04-14 14:02 ?5次下載
    一種結(jié)合<b class='flag-5'>回復(fù)生成</b>的對(duì)話意圖預(yù)測(cè)<b class='flag-5'>模型</b>

    使用DeepSpeed和Megatron驅(qū)動(dòng)MT-NLG語言模型

    盡管巨型語言模型正在推動(dòng)語言生成技術(shù)的發(fā)展,但它們也面臨著偏見和毒性等問題。人工智能社區(qū)正在積極研究如何理解和消除
    的頭像 發(fā)表于 04-17 11:25 ?2706次閱讀
    使用DeepSpeed和Megatron驅(qū)動(dòng)MT-NLG<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    NVIDIA NeMo最新語言模型服務(wù)幫助開發(fā)者定制大規(guī)模語言模型

    NVIDIA NeMo 大型語言模型(LLM)服務(wù)幫助開發(fā)者定制大規(guī)模語言模型;NVIDIA BioNeMo 服務(wù)幫助研究人員
    發(fā)表于 09-22 10:42 ?1047次閱讀

    大型語言模型能否捕捉到它們所處理和生成的文本中的語義信息

    ? 大型語言模型能否捕捉到它們所處理和生成的文本中的語義信息?這一問題在計(jì)算機(jī)科學(xué)和自然語言處理領(lǐng)域一直存在爭(zhēng)議。然而,MIT的一項(xiàng)新研究
    的頭像 發(fā)表于 05-25 11:34 ?979次閱讀
    大型<b class='flag-5'>語言</b><b class='flag-5'>模型</b>能否捕捉到它們所處理和<b class='flag-5'>生成</b>的文本中的語義信息

    模型對(duì)話系統(tǒng)的內(nèi)功與外功

    Zero-shot Setting:在 O-Cue 中,由于單步指令較復(fù)雜(不要要進(jìn)行推理還要進(jìn)行回復(fù)生成,以及生成的格式要求),單步生成內(nèi)容過多,導(dǎo)致 LLM 無法很好的理解指令;生成
    的頭像 發(fā)表于 12-01 16:32 ?923次閱讀
    大<b class='flag-5'>模型</b>對(duì)話系統(tǒng)的內(nèi)功與外功

    語言模型簡(jiǎn)介:基于大語言模型模型全家桶Amazon Bedrock

    本文基于亞馬遜云科技推出的大語言模型生成式AI的全家桶:Bedrock對(duì)大語言模型進(jìn)行介紹。大語言
    的頭像 發(fā)表于 12-04 15:51 ?1157次閱讀

    如何加速大語言模型推理

    隨著人工智能技術(shù)的飛速發(fā)展,大語言模型(LLM)已成為自然語言處理領(lǐng)域的核心工具,廣泛應(yīng)用于智能客服、文本生成、機(jī)器翻譯等多個(gè)場(chǎng)景。然而,大語言
    的頭像 發(fā)表于 07-04 17:32 ?1043次閱讀

    語言模型優(yōu)化生成管理方法

    語言模型的優(yōu)化生成管理是一個(gè)系統(tǒng)工程,涉及模型架構(gòu)、數(shù)據(jù)處理、內(nèi)容控制、實(shí)時(shí)響應(yīng)以及倫理監(jiān)管等多個(gè)層面。以下,是對(duì)大語言
    的頭像 發(fā)表于 12-02 10:45 ?408次閱讀