99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

文本匹配任務(wù)中常用的孿生網(wǎng)絡(luò)

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:NLP情報(bào)局 ? 作者:NLP情報(bào)局 ? 2021-03-05 15:47 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

文本匹配是自然語(yǔ)言處理領(lǐng)域一個(gè)基礎(chǔ)且重要的方向,一般研究?jī)啥挝谋局g的關(guān)系。文本相似度、自然語(yǔ)言推理、問(wèn)答系統(tǒng)、信息檢索都可以看作針對(duì)不同數(shù)據(jù)和場(chǎng)景的文本匹配應(yīng)用。

本文總結(jié)了文本匹配任務(wù)中的經(jīng)典網(wǎng)絡(luò)Siamse Network,它和近期預(yù)訓(xùn)練語(yǔ)言模型的組合,一些調(diào)優(yōu)技巧以及在線(xiàn)下數(shù)據(jù)集上的效果檢驗(yàn)。

Siamese 孿生網(wǎng)絡(luò)

在正式介紹前,我們先來(lái)看一個(gè)有趣的故事。

孿生網(wǎng)絡(luò)的由來(lái)

“Siamese”中的“Siam”是古時(shí)泰國(guó)的稱(chēng)呼,中文譯作暹羅,所以“Siamese”就是指“暹羅”人或“泰國(guó)”人。“Siamese”在英語(yǔ)中同時(shí)表示“孿生”,這又是為什么呢?

十九世紀(jì),泰國(guó)出生了一對(duì)連體嬰兒“恩”和“昌”,當(dāng)時(shí)的醫(yī)學(xué)技術(shù)無(wú)法使他們分離出來(lái),于是兩人頑強(qiáng)地生活了一生。

1829年他們被英國(guó)商人發(fā)現(xiàn),進(jìn)入馬戲團(tuán),在全世界各地演出。1839年他們?cè)L問(wèn)美國(guó)北卡羅萊那州成為“玲玲馬戲團(tuán)” 的臺(tái)柱,最后成為美國(guó)公民。1843年4月13日跟英國(guó)一對(duì)姐妹結(jié)婚,恩生了10個(gè)小孩,昌生了12個(gè)。1874年,兩人因病均于63歲離開(kāi)了人間。他們的肝至今仍保存在費(fèi)城的馬特博物館內(nèi)。

從此之后,“暹羅雙胞胎”(Siamese twins)就成了連體人的代名詞,也因?yàn)檫@對(duì)雙胞胎全世界開(kāi)始重視這項(xiàng)特殊疾病。

孿生網(wǎng)絡(luò)

由于結(jié)構(gòu)具有鮮明的對(duì)稱(chēng)性,就像兩個(gè)孿生兄弟,所以下圖這種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)被研究人員稱(chēng)作“Siamese Network”,即孿生網(wǎng)絡(luò)。

其中最能體現(xiàn)“孿生”的地方,在于網(wǎng)絡(luò)具有相同的編碼器(sentence encoder),即將文本轉(zhuǎn)換為高維向量的部分。網(wǎng)絡(luò)隨后對(duì)兩段文本的特征進(jìn)行交互,最后完成分類(lèi)/相似預(yù)測(cè)。“孿生網(wǎng)絡(luò)”結(jié)構(gòu)簡(jiǎn)單,訓(xùn)練穩(wěn)定,是很多文本任務(wù)不錯(cuò)的baseline模型。

孿生網(wǎng)絡(luò)的具體用途是衡量?jī)蓚€(gè)輸入文本的相似程度。

例如,現(xiàn)在我們有文本1和2,首先把它們分別輸入 sentence encoder 進(jìn)行特征提取和編碼,將輸入映射到新的空間得到特征向量u和v;最終通過(guò)u、v的拼接組合,經(jīng)過(guò)下游網(wǎng)絡(luò)來(lái)計(jì)算文本1和2的相似性。

整個(gè)過(guò)程有2個(gè)值得關(guān)注的點(diǎn):

在訓(xùn)練和測(cè)試中,模型的編碼器是權(quán)重共享的(“孿生”);編碼器的選擇非常廣泛,傳統(tǒng)的CNN、RNN和Attention、Transformer都可以

得到特征u、v后,可以直接使用cosine距離、歐式距離得到兩個(gè)文本的相似度;不過(guò)更通用的做法是,基于u和v構(gòu)建用于匹配兩者關(guān)系的特征向量,然后用額外的模型學(xué)習(xí)通用的文本關(guān)系映射;畢竟我們的場(chǎng)景不一定只是衡量相似度,可能還有問(wèn)答、蘊(yùn)含等復(fù)雜任務(wù)

????????三連體網(wǎng)絡(luò)????????

基于孿生網(wǎng)絡(luò),還有人提出了 Triplet network 三連體網(wǎng)絡(luò)。顧名思義,輸入由三部分組成,文本1,和1相似的文本2,和1不相似的文本3。

訓(xùn)練的目標(biāo)非常樸素,期望讓相同類(lèi)別間的距離盡可能的小,讓不同類(lèi)別間的距離盡可能的大,即減小類(lèi)內(nèi)距,增大類(lèi)間距。

3205d0b2-7c22-11eb-8b86-12bb97331649.jpg

Sentence-BERT

自從2018年底Bert等預(yù)訓(xùn)練語(yǔ)言模型橫空出世,NLP屆的游戲規(guī)則某種程度上被大幅更改了。在計(jì)算資源允許的條件下,Bert成為解決很多問(wèn)題的首選。甚至有時(shí)候拿Bert跑一跑baseline,發(fā)現(xiàn)問(wèn)題已經(jīng)解決了十之八九。

但是Bert的缺點(diǎn)也很明顯,1.1億參數(shù)量使得推理速度明顯比CNN等傳統(tǒng)網(wǎng)絡(luò)慢了不止一個(gè)量級(jí),對(duì)資源要求更高,也不適合處理某些任務(wù)。

例如,從10,000條句子中找到最相似的一對(duì)句子,由于可能的組合眾多,需要完成49,995,000次推理;在一塊現(xiàn)代V100GPU上使用Bert計(jì)算,將消耗65小時(shí)。

考慮到孿生網(wǎng)絡(luò)的簡(jiǎn)潔有效,有沒(méi)有可能將它和Bert強(qiáng)強(qiáng)聯(lián)合呢?

當(dāng)然可以,這正是論文《Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks》的工作,首次提出了Sentence-Bert模型(以下簡(jiǎn)稱(chēng)SBert)。

SBert在眾多文本匹配工作中(包括語(yǔ)義相似性、推理等)都取得了最優(yōu)結(jié)果。更讓人驚訝的是,前文所述的從10,000條句子尋找最相似pair任務(wù),SBert僅需5秒就能完成!

基于BERT的文本匹配

讓我們簡(jiǎn)短回顧此前Bert是怎么處理文本匹配任務(wù)的。

常規(guī)做法是將匹配轉(zhuǎn)換成二分類(lèi)任務(wù)。輸入的兩個(gè)文本拼接成一個(gè)序列(中間用特殊符號(hào)“SEP”分割),經(jīng)過(guò)12層或24層Transformer模塊編碼后,將輸出層的字向量取平均或者取“CLS”位置的特征作為句向量,經(jīng)softmax完成最終分類(lèi)。

但是論文作者 Nils Reimers 在實(shí)驗(yàn)中指出,這樣的做法產(chǎn)生的結(jié)果并不理想(至少在處理語(yǔ)義檢索和聚類(lèi)問(wèn)題時(shí)是如此),甚至比Glove詞向量取平均的效果還差。

基于S-BERT的文本匹配

為了讓Bert更好地利用文本信息,作者們?cè)谡撐闹刑岢隽巳缦碌腟Bert模型。是不是非常眼熟?對(duì),這不就是之前見(jiàn)過(guò)的孿生網(wǎng)絡(luò)嘛!

SBert沿用了孿生網(wǎng)絡(luò)的結(jié)構(gòu),文本Encoder部分用同一個(gè)Bert來(lái)處理。之后,作者分別實(shí)驗(yàn)了CLS-token和2種池化策略(Avg-Pooling、Mean-Pooling),對(duì)Bert輸出的字向量進(jìn)一步特征提取、壓縮,得到u、v。關(guān)于u、v整合,作者提供了3種策略:

針對(duì)分類(lèi)任務(wù),將u、v拼接,接入全連接網(wǎng)絡(luò),經(jīng)softmax分類(lèi)輸出;損失函數(shù)用交叉熵

直接計(jì)算、輸出余弦相似度;訓(xùn)練損失函數(shù)采用均方根誤差

如果輸入的是三元組,論文種也給出了相應(yīng)的損失函數(shù)

總的來(lái)說(shuō),SBert直接用Bert的原始權(quán)重初始化,在具體數(shù)據(jù)集上微調(diào),訓(xùn)練過(guò)程和傳統(tǒng)Siamse Network差異不大。

但是這種訓(xùn)練方式能讓Bert更好的捕捉句子之間的關(guān)系,生成更優(yōu)質(zhì)的句向量。在測(cè)試階段,SBert直接使用余弦相似度來(lái)衡量?jī)蓚€(gè)句向量之間的相似度,極大提升了推理速度。

實(shí)驗(yàn)為證

作者在7個(gè)文本匹配相關(guān)的任務(wù)中做了對(duì)比實(shí)驗(yàn),結(jié)果在其中5個(gè)任務(wù)上,SBert都有更優(yōu)表現(xiàn)。

337dcd46-7c22-11eb-8b86-12bb97331649.png

作者還做了一些有趣的消融實(shí)驗(yàn)。

使用NLI和STS為代表的匹配數(shù)據(jù)集,在分類(lèi)目標(biāo)函數(shù)訓(xùn)練時(shí),作者測(cè)試了不同的整合策略,結(jié)果顯示“(u, v, |u-v|)”的組合效果最好。這里面最重要的部分是元素差:(|u - v|)。句向量之間的差異度量了兩個(gè)句子嵌入維度間的距離,確保相似的pair更近,不同的pair更遠(yuǎn)。

3407bb96-7c22-11eb-8b86-12bb97331649.png

文章最后,作者將SBert和傳統(tǒng)方????法做了對(duì)比。

343b97fe-7c22-11eb-8b86-12bb97331649.jpg

SBert的計(jì)算效率要更高。其中的smart-batching是一個(gè)小技巧。先將輸入的文本按長(zhǎng)度排序,這樣同一個(gè)mini-batch的文本長(zhǎng)度更加統(tǒng)一,padding時(shí)能顯著減少填充的token。

線(xiàn)下實(shí)測(cè)

我們將SBert模型在天池—新冠疫情相似句對(duì)判定比賽數(shù)據(jù)集上做了測(cè)試。經(jīng)數(shù)據(jù)增強(qiáng)后,線(xiàn)下訓(xùn)練集和驗(yàn)證集分別是13,500和800條句子組合。預(yù)訓(xùn)練模型權(quán)重選擇BERT_large。

最終SBert單模型在驗(yàn)證集上的準(zhǔn)確率是95.7%。直接使用Bert微調(diào)準(zhǔn)確率為95.2%。

小結(jié)

本文介紹了文本匹配任務(wù)中常用的孿生網(wǎng)絡(luò),和在此基礎(chǔ)上改進(jìn)而來(lái)的Sentence-BERT模型。

Siamse Network 簡(jiǎn)潔的設(shè)計(jì)和平穩(wěn)高效訓(xùn)練非常適合作為文本匹配任務(wù)的baseline模型。SBert則充分利用了孿生網(wǎng)絡(luò)的優(yōu)點(diǎn)和預(yù)訓(xùn)練模型的特征抽取優(yōu)勢(shì),在眾多匹配任務(wù)上取得了最優(yōu)結(jié)果。

拋開(kāi)具體任務(wù),SBert 可以幫助我們生成更好的句向量,在一些任務(wù)上可能產(chǎn)生更優(yōu)結(jié)果。在推理階段,SBert直接計(jì)算余弦相似度的方式,大大縮短了預(yù)測(cè)時(shí)間,在語(yǔ)義檢索、信息搜索等任務(wù)中預(yù)計(jì)會(huì)有不錯(cuò)表現(xiàn)。同時(shí),得益于生成的高質(zhì)量句嵌入特征,SBert也非常適合做文本聚類(lèi)、新FAQ發(fā)現(xiàn)等工作。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3520

    瀏覽量

    50418
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25446
  • 文本
    +關(guān)注

    關(guān)注

    0

    文章

    119

    瀏覽量

    17452

原文標(biāo)題:文本匹配利器:從孿生網(wǎng)絡(luò)到Sentence-BERT綜述

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    電子電路設(shè)計(jì)中常用的接地方式詳解

    在電子電路設(shè)計(jì)中,接地方式的選擇至關(guān)重要,它直接影響到電路的穩(wěn)定性、抗干擾能力和安全性。以下是電子電路設(shè)計(jì)中常用的幾種接地方式的詳解: 一、浮地 1. 定義:浮地是指電路或設(shè)備與公共地線(xiàn)可能引起環(huán)流
    的頭像 發(fā)表于 04-17 16:24 ?463次閱讀
    電子電路設(shè)計(jì)<b class='flag-5'>中常用</b>的接地方式詳解

    把樹(shù)莓派打造成識(shí)別文本的“神器”!

    在許多項(xiàng)目中,RaspberryPi被用作監(jiān)控?cái)z像頭或執(zhí)行機(jī)器學(xué)習(xí)任務(wù)。在這些場(chǎng)景中,圖像中經(jīng)常包含應(yīng)用程序感興趣的文本信息。我們希望提取這些信息并將其轉(zhuǎn)換,以便通過(guò)程序分析文本
    的頭像 發(fā)表于 03-25 09:30 ?414次閱讀
    把樹(shù)莓派打造成識(shí)別<b class='flag-5'>文本</b>的“神器”!

    數(shù)字孿生系統(tǒng)

    傳統(tǒng)港口存在痛點(diǎn),數(shù)字孿生系統(tǒng)通過(guò)在虛擬空間中建立與物理港口一一對(duì)應(yīng)的模型,并接入實(shí)時(shí)生產(chǎn)運(yùn)營(yíng)數(shù)據(jù),實(shí)現(xiàn)對(duì)碼頭的生產(chǎn)作業(yè)進(jìn)行多角度、全方位的實(shí)時(shí)監(jiān)控,推動(dòng)碼頭作業(yè)及管理工作的數(shù)字化轉(zhuǎn)型同時(shí)提高
    的頭像 發(fā)表于 01-10 10:05 ?755次閱讀
    數(shù)字<b class='flag-5'>孿生</b>系統(tǒng)

    低壓配電柜中常用的電表有哪些?

    一、 低壓配電柜中常用的電表類(lèi)型包括: 1. 電壓表 電壓表主要用于測(cè)量電壓,廣泛應(yīng)用于電力系統(tǒng)中。在低壓配電柜中,電壓表被用于測(cè)量電源電壓,其顯示范圍一般為0-1000V。電壓表可以分為直流電
    的頭像 發(fā)表于 12-25 10:50 ?1873次閱讀
    低壓配電柜<b class='flag-5'>中常用</b>的電表有哪些?

    工業(yè)自動(dòng)化中常用的傳感器類(lèi)型

    工業(yè)自動(dòng)化是現(xiàn)代制造業(yè)的關(guān)鍵組成部分,它依賴(lài)于各種傳感器來(lái)監(jiān)測(cè)和控制生產(chǎn)過(guò)程。以下是一些在工業(yè)自動(dòng)化中常用的傳感器類(lèi)型,以及它們的主要應(yīng)用和特點(diǎn): 1. 接近傳感器 接近傳感器用于檢測(cè)物體的接近
    的頭像 發(fā)表于 12-06 14:11 ?2163次閱讀

    使用語(yǔ)義線(xiàn)索增強(qiáng)局部特征匹配

    視覺(jué)匹配是關(guān)鍵計(jì)算機(jī)視覺(jué)任務(wù)中的關(guān)鍵步驟,包括攝像機(jī)定位、圖像配準(zhǔn)和運(yùn)動(dòng)結(jié)構(gòu)。目前最有效的匹配關(guān)鍵點(diǎn)的技術(shù)包括使用經(jīng)過(guò)學(xué)習(xí)的稀疏或密集匹配器,這需要成對(duì)的圖像。這些神經(jīng)
    的頭像 發(fā)表于 10-28 09:57 ?886次閱讀
    使用語(yǔ)義線(xiàn)索增強(qiáng)局部特征<b class='flag-5'>匹配</b>

    數(shù)字孿生對(duì)工業(yè)4.0的影響

    在工業(yè)4.0的浪潮中,數(shù)字孿生技術(shù)正逐漸成為制造業(yè)轉(zhuǎn)型的關(guān)鍵驅(qū)動(dòng)力。數(shù)字孿生,即創(chuàng)建一個(gè)物理實(shí)體的精確數(shù)字副本,這個(gè)概念在工業(yè)領(lǐng)域中的應(yīng)用,不僅改變了產(chǎn)品設(shè)計(jì)、制造和維護(hù)的方式,還為整個(gè)工業(yè)生態(tài)系統(tǒng)
    的頭像 發(fā)表于 10-25 14:46 ?979次閱讀

    數(shù)字孿生與物聯(lián)網(wǎng)的結(jié)合

    聯(lián)網(wǎng)則是通過(guò)傳感器、設(shè)備和網(wǎng)絡(luò)連接,實(shí)現(xiàn)物理世界與數(shù)字世界的無(wú)縫連接。當(dāng)這兩個(gè)技術(shù)結(jié)合時(shí),它們可以為制造業(yè)、醫(yī)療、城市基礎(chǔ)設(shè)施和其他行業(yè)帶來(lái)革命性的變化。 數(shù)字孿生與物聯(lián)網(wǎng)的結(jié)合 1. 概念簡(jiǎn)介 數(shù)字孿生 :數(shù)字
    的頭像 發(fā)表于 10-25 14:36 ?1131次閱讀

    無(wú)線(xiàn)電接收設(shè)備中常用的高頻電路有哪些

    、解調(diào)等。以下是一些無(wú)線(xiàn)電接收設(shè)備中常用的高頻電路的介紹: 1. 天線(xiàn)與天線(xiàn)調(diào)諧電路 天線(xiàn)是無(wú)線(xiàn)電接收設(shè)備中用于接收無(wú)線(xiàn)電波的部件。天線(xiàn)調(diào)諧電路用于匹配天線(xiàn)與接收機(jī)之間的阻抗,以提高信號(hào)的接收效率。 2. 射頻放大器 射頻
    的頭像 發(fā)表于 09-07 10:11 ?1663次閱讀

    labview中常用的程序結(jié)構(gòu)有哪幾種

    和邏輯的關(guān)鍵,以下是LabVIEW中常用的幾種程序結(jié)構(gòu): 順序結(jié)構(gòu)(Sequential Structure) 順序結(jié)構(gòu)是最簡(jiǎn)單的程序結(jié)構(gòu),它按照從上到下、從左到右的順序執(zhí)
    的頭像 發(fā)表于 09-04 16:32 ?1811次閱讀

    領(lǐng)慧立芯LHE5400四電阻匹配網(wǎng)絡(luò)產(chǎn)品介紹

    領(lǐng)慧立芯LHE5400四電阻匹配網(wǎng)絡(luò)產(chǎn)品介紹
    的頭像 發(fā)表于 08-28 16:58 ?667次閱讀
    領(lǐng)慧立芯LHE5400四電阻<b class='flag-5'>匹配</b><b class='flag-5'>網(wǎng)絡(luò)</b>產(chǎn)品介紹

    NVIDIA文本嵌入模型NV-Embed的精度基準(zhǔn)

    NVIDIA 的最新嵌入模型 NV-Embed —— 以 69.32 的分?jǐn)?shù)創(chuàng)下了嵌入準(zhǔn)確率的新紀(jì)錄海量文本嵌入基準(zhǔn)測(cè)試(MTEB)涵蓋 56 項(xiàng)嵌入任務(wù)
    的頭像 發(fā)表于 08-23 16:54 ?2493次閱讀
    NVIDIA<b class='flag-5'>文本</b>嵌入模型NV-Embed的精度基準(zhǔn)

    思科設(shè)備常用的巡檢命令介紹

    思科(Cisco)設(shè)備在網(wǎng)絡(luò)領(lǐng)域具有廣泛的應(yīng)用,其可靠性和功能強(qiáng)大使其成為許多企業(yè)網(wǎng)絡(luò)基礎(chǔ)設(shè)施的核心。然而,確保這些設(shè)備始終高效運(yùn)行,定期進(jìn)行巡檢是必不可少的。這篇文章將詳細(xì)介紹思科設(shè)備巡檢中常用的命令,幫助
    的頭像 發(fā)表于 08-12 18:16 ?1187次閱讀

    華為設(shè)備中常用的RIP命令及其應(yīng)用

    RIP(Routing Information Protocol,路由信息協(xié)議)是一種應(yīng)用廣泛的距離矢量路由協(xié)議,尤其適用于中小型網(wǎng)絡(luò)。本文將詳細(xì)介紹在華為設(shè)備中常用的RIP命令及其應(yīng)用,以幫助網(wǎng)絡(luò)管理員和工程師更好地理解和配置
    的頭像 發(fā)表于 08-12 18:10 ?1537次閱讀

    嵌入式系統(tǒng)中常用的五種微處理器類(lèi)型

    本文介紹了嵌入式系統(tǒng)中常用的五種微處理器類(lèi)型:微處理器單元(MPU)、微控制器(MCU)、數(shù)字信號(hào)處理器(DSP)、現(xiàn)場(chǎng)可編程邏輯門(mén)陣列(FPGA)和單片機(jī)(SBC)。文章詳細(xì)闡述了每種處理器的功能、優(yōu)點(diǎn)、缺點(diǎn)以及選擇建議,并列出了一些精選的微處理器產(chǎn)品,供讀者參考。
    的頭像 發(fā)表于 07-25 09:29 ?2651次閱讀