在线欧美鲁香蕉94色,色吧!亚洲国产综合色aⅴ,国产成人午夜精品一区二区三区免费视频

隨著指令微調(diào)模型的發(fā)展，開始有人思考既然指令微調(diào)可以用來提升語言模型的性能，那么是否也可以用類似的方法來提升文本嵌入模型的性能呢？于是本文作者提出了INSTRUCTOR，這個(gè)模型設(shè)計(jì)了一種通用的Embedder，使得文本嵌入表示能更好地遷移到新的任務(wù)和領(lǐng)域，而不需要額外的訓(xùn)練。這個(gè)想法也是很有意思的，具體的請(qǐng)看下文吧~

背景介紹

現(xiàn)有的文本嵌入表示方法在應(yīng)用到新的任務(wù)或領(lǐng)域時(shí)，通常性能都會(huì)受損，甚至應(yīng)用到相同任務(wù)的不同領(lǐng)域也會(huì)遇到同樣的問題。常見的解決辦法是通過針對(duì)下游任務(wù)和領(lǐng)域的數(shù)據(jù)集進(jìn)一步微調(diào)文本嵌入，而這個(gè)工作通常需要大量的注釋數(shù)據(jù)。

本文提出的INSTRUCOR(Instruction-basedOmnifariousRepresentations)不需要針對(duì)特定任務(wù)或領(lǐng)域進(jìn)行微調(diào)就可以生成輸入文本的嵌入。該模型在70個(gè)嵌入評(píng)價(jià)數(shù)據(jù)集上表現(xiàn)比SOTA嵌入模型平均要高3.4%。INSTRUCTOR和以往的模型不同，它向量表示不僅包含輸入文本還有端任務(wù)和領(lǐng)域的指令。并且針對(duì)不同的目標(biāo)，對(duì)于同一個(gè)輸入文本，INSTRUCTOR會(huì)將輸入表示為不同的嵌入。例如圖1中Who sings the song “Love Story”?會(huì)根據(jù)不同的任務(wù)被表示為不同的嵌入。

如圖2所示，INSTRUCTOR是在MEDI上進(jìn)行訓(xùn)練的，MEDI是我們的330個(gè)文本嵌入數(shù)據(jù)集的新集合，新標(biāo)注了人工編寫的任務(wù)指令。我們?cè)谒袛?shù)據(jù)集上使用對(duì)比損失來訓(xùn)練INSTRUCTOR，從而最大化語義相關(guān)文本對(duì)之間的相似性，同時(shí)最小化不相關(guān)文本對(duì)的相似性。

INSTRUCTOR

結(jié)構(gòu)

INSTRUCTOR基于單個(gè)Encoder來設(shè)計(jì)，使用GTR系列模型作為框架(GTR-Base for INSTRUCTOR-Base,GTR-Large for INSTRUCTOR,GTR-XL for INSTRUCTOR-XL)。GTR模型使用T5進(jìn)行初始化。不同大小的GTR使得我們指令微調(diào)嵌入模型的表現(xiàn)也不同。給定一個(gè)輸入文本以及任務(wù)指令，INSTRUCTOR將他們組合成，然后通過對(duì)的最后一個(gè)隱藏表征進(jìn)行均值池化來生成固定大小、特定任務(wù)的嵌入。

訓(xùn)練目標(biāo)

通過將各種任務(wù)轉(zhuǎn)為文本到文本的方式來訓(xùn)練INSTRUCTOR，給定輸入，需要去區(qū)分好/壞候選輸出，其中訓(xùn)練樣本對(duì)應(yīng)于元組，其中和分別是與和相關(guān)的指令。例如，在檢索任務(wù)中，是查詢，好/壞是來自某個(gè)文檔的相關(guān)/不相關(guān)文檔。

輸入的候選的好由相似度給出，即它們的INSTRUCTOR嵌入之間的余弦:

最大化正樣本對(duì)之間的相似度，并最小化負(fù)樣本對(duì)之間的相似度，其中表示每個(gè)正樣本對(duì)的負(fù)樣本對(duì)的數(shù)量，訓(xùn)練目標(biāo)：

其中是softmax的溫度，是和的并集。此外還加入了雙向批內(nèi)采樣損失。

MEDI: Multitask Embedding Data with Instructions

MEDI(MultitaskEmbeddingsData withInstructions)是我們由330個(gè)數(shù)據(jù)集構(gòu)造而成，該數(shù)據(jù)集包含不同任務(wù)和領(lǐng)域的指令。

數(shù)據(jù)構(gòu)造：使用來自super-NI的300個(gè)數(shù)據(jù)集，另外30個(gè)來自現(xiàn)有的為嵌入訓(xùn)練設(shè)計(jì)的數(shù)據(jù)集。super-NI數(shù)據(jù)集附帶自然語言指令，但不提供正負(fù)樣本對(duì)。我們使用Sentence-T5嵌入來構(gòu)建樣本對(duì)，用表示。對(duì)于分類數(shù)據(jù)集，我們基于輸入文本嵌入計(jì)算樣本之間的余弦相似度。如果兩樣本具有相同的類標(biāo)簽，則使用與高度相似的示例創(chuàng)建一個(gè)正樣本對(duì)，如果標(biāo)簽不同，則創(chuàng)建一個(gè)負(fù)樣本對(duì)。對(duì)于輸出標(biāo)簽為文本序列的其余任務(wù)，首先計(jì)算以下分?jǐn)?shù):

選擇最高的樣本作為正樣本對(duì)，并選擇具有最高的作為負(fù)樣本對(duì)。其他30個(gè)嵌入訓(xùn)練數(shù)據(jù)集來自Sentence Transformers embedding data、KILT、MedMCQA。這30個(gè)數(shù)據(jù)集已經(jīng)包含正樣本對(duì);其中MSMARCO和Natural Questions也包含負(fù)樣本對(duì)。我們?cè)谀Ｐ臀⒄{(diào)過程中使用了4個(gè)負(fù)樣本對(duì)。

指令注釋：每一個(gè)MEDI的實(shí)例都是一個(gè)元組。為了引入指令，我們?cè)O(shè)計(jì)了一個(gè)統(tǒng)一的指令模板：

文本類型：指定輸入文本的類型。例如，對(duì)于開放域QA任務(wù)，查詢的輸入類型是問題，而目標(biāo)的輸入類型是文檔。
任務(wù)目標(biāo)（可選項(xiàng)）：描述輸入文本在該任務(wù)中如何使用。
領(lǐng)域（可選項(xiàng)）：描述任務(wù)領(lǐng)域

最終的指令格式：“REPRESENT THE(DOMAIN)TEXT TYPEFORTASK OBJECTIVE:."

實(shí)驗(yàn)

用MEDI數(shù)據(jù)集對(duì)INSTRUCTOR進(jìn)行訓(xùn)練，并在70個(gè)下游任務(wù)對(duì)其進(jìn)行評(píng)估。使用了MTEB基準(zhǔn)，該基準(zhǔn)由7個(gè)不同任務(wù)類別(如分類、重新排序和信息檢索)的56個(gè)數(shù)據(jù)集組成。然后，我們進(jìn)一步將INSTRUCTOR應(yīng)用于上下文學(xué)習(xí)和文本生成評(píng)估的提示檢索。在三種設(shè)置中，INSRTUCTOR都達(dá)到了最先進(jìn)的性能。

正如預(yù)期的那樣，基于檢索的模型(如GTR-XXL)在檢索和重排序方面表現(xiàn)出較強(qiáng)的性能，但在STS和分類方面明顯落后。相反，基于相似性的模型(例如，Sent-T5-XXL)在STS、分類和文本評(píng)估方面表現(xiàn)良好，但在檢索方面表現(xiàn)不佳。這表明，這些基線傾向于生成只擅長某些任務(wù)的專門嵌入，而INSTRUCTOR提供了在不同任務(wù)類別上表現(xiàn)良好的通用嵌入。

分析以及消融實(shí)驗(yàn)

指令的重要性

我們將MEDI劃分為對(duì)稱和非對(duì)稱組，然后對(duì)每個(gè)組進(jìn)行有指令和沒有指令的訓(xùn)練。實(shí)驗(yàn)結(jié)果如圖3所示，結(jié)果表明如果數(shù)據(jù)是對(duì)稱的或非對(duì)稱的，在沒有指令的情況下進(jìn)行微調(diào)的INSTRUCTOR的性能與原始GTR相近或更好。但是，使用指令微調(diào)使模型能夠從對(duì)稱和非對(duì)稱數(shù)據(jù)的組合中獲益。這體現(xiàn)了指令微調(diào)的重要性。

指令的魯棒性

我們?yōu)樗性u(píng)估數(shù)據(jù)集編寫了五個(gè)意譯指令，并測(cè)量了表現(xiàn)最佳和表現(xiàn)最差的指令之間的INSTRUCTOR的性能差距。圖4表明，包含300個(gè)super-NI數(shù)據(jù)集對(duì)INSTRUCTOR的魯棒性至關(guān)重要。從訓(xùn)練中刪除這些數(shù)據(jù)集(沒有super-NI)大大增加了表現(xiàn)最好和最差的指令之間的性能差距，這表明super-NI的多樣化指令有助于模型處理不同的格式和風(fēng)格。

指令的復(fù)雜程度

我們考慮了四個(gè)層次的指令復(fù)雜性:N/A(無指令)、數(shù)據(jù)集標(biāo)簽、簡(jiǎn)單指令和詳細(xì)指令。在數(shù)據(jù)集標(biāo)簽實(shí)驗(yàn)中，每個(gè)示例都附有其數(shù)據(jù)集名稱。例如，在Natural Questions數(shù)據(jù)集上，查詢格式為"Natural Questions; Input: who sings the song Love Story").。在簡(jiǎn)單的指令實(shí)驗(yàn)中，我們使用一兩個(gè)單詞來描述域(例如，對(duì)于Natural Questions數(shù)據(jù)集，輸入查詢是Wikipedia Questions;輸入是who sings the song Love Story)。圖5表明使用瑣碎的數(shù)據(jù)集標(biāo)簽，INSTRUCTOR也優(yōu)于原始的GTR模型，說明了指令在不同訓(xùn)練中的有效性。隨著提供的信息越來越多，我們觀察到持續(xù)的改進(jìn)。

模型大小和指令微調(diào)

圖6展示了比較不同大小的模型的平均性能。隨著編碼器transformer模型的擴(kuò)大，GTR和INSTRUCTOR的性能都在不斷提高。盡管如此，INSTRUCTOR的改進(jìn)更加明顯，這可能是因?yàn)閹в兄噶畹那度胧芤嬗诟蟮娜萘俊＿@意味著大模型在計(jì)算各種領(lǐng)域和任務(wù)類型中的文本時(shí)更加一般化。

指令的域轉(zhuǎn)移

基于指令微調(diào)的一個(gè)優(yōu)點(diǎn)是，它提高了模型泛化到不可見領(lǐng)域和任務(wù)的能力。為了證明這種有效性，我們研究了三個(gè)unseen的INSTRUCTOR沒有受過訓(xùn)練的領(lǐng)域:地理、生物和民間評(píng)論。如表3所示，INSTRUCTOR在所有三個(gè)領(lǐng)域上極大地提高了GTR-Large的性能(高于平均水平)，這表明當(dāng)將模型應(yīng)用于不可見或不常見的領(lǐng)域時(shí)，指令可以提供更多幫助。

消融實(shí)驗(yàn)

我們使用T-SNE來可視化兩個(gè)有和沒有指令的分類示例。如圖7所示，情感相同的點(diǎn)對(duì)距離更近，而情感不同的點(diǎn)對(duì)距離更遠(yuǎn)。

總結(jié)

本文的貢獻(xiàn)有兩點(diǎn)：

提出了INSTRUCTOR,一個(gè)使用自然語言指令創(chuàng)建廣泛適用的文本嵌入的單模型。大量實(shí)驗(yàn)表明INSTRUCTOR在文本嵌入測(cè)試中達(dá)到了最先進(jìn)的性能。
構(gòu)建了MEDI數(shù)據(jù)集。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴