99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

通過Token實現(xiàn)多視角文檔向量表征的構(gòu)建

深度學(xué)習(xí)自然語言處理 ? 來源:NLP工作站 ? 作者:劉聰 ? 2022-07-08 11:13 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

寫在前面

今天給大家?guī)硪黄?a target="_blank">ACL2022論文MVR,「面向開放域檢索的多視角文檔表征」,主要解決同一個文檔向量與多個語義差異較大問題向量語義不匹配的問題。通過「插入多個特殊Token」實現(xiàn)多視角文檔向量表征的構(gòu)建,并為了防止多種視角間向量的趨同,引入了「退火溫度」的全局-局部損失,論文全稱《Multi-View Document Representation Learning for Open-Domain Dense Retrieval》。

該篇論文與前兩天分享的DCSR-面向開放域段落檢索的句子感知的對比學(xué)習(xí)一文有異曲同工之妙,都是在檢索排序不引入額外計算量的同時,通過插入特殊Token構(gòu)建長文檔的多語義向量表征,使得同一文檔可以與多種不同問題的向量表征相似。

8665290c-f08c-11ec-ba43-dac502259ad0.png

并且目前的檢索召回模型均存在一些缺陷:

Cross-encoder類模型(BERT)由于計算量太大,無法在召回階段使用;

Bi-encoder類模型(DPR)無法很好地表現(xiàn)長文檔中的多主題要素;

Late Interaction類模型(ColBERT)由于使用sum操作,無法直接使用ANN進行排序;

Attention-based Aggregator類模型(PolyEncoder)增加了額外運算并且無法直接使用ANN進行排序。

867ad496-f08c-11ec-ba43-dac502259ad0.png

模型

868cedd4-f08c-11ec-ba43-dac502259ad0.png

通常向量表征時,采用特殊字符[CLS]對應(yīng)的向量表征作為文本的向量表征。為了獲取文檔中更細(xì)粒度的語義信息,MVR引入多個特殊字符[VIE]替代[CLS]。

對于文檔來說,在文本前插入多個字符[],為了防止干擾原始文本的位置信息,我們將[]的所有位置信息設(shè)置為0,文檔語句位置信息從1開始。

對于問題來說,由于問題較短且通常表示同一含義,因此僅使用一個特殊字符[VIE]。

模型采用雙編碼器作為骨干,分別對問題和文檔進行編碼,如下:

其中,表示鏈接符,[VIE]和[SEP]為BERT模型的特殊字符,和分別為問題編碼器和文檔編碼器。

如上圖所示,首先計算問題向量與每個視角的文檔向量進行點積,獲取每一個視角的得分,然后通過max-pooler操作,獲取視角中分值最大的作為問題向量與文檔向量的得分,如下:

為了防止多種視角間向量的趨同,引入了帶有退火溫度的Global-Local Loss,包括全局對比損失和局部均勻損失,如下:

其中,全局對比損失為傳統(tǒng)的對比損失函數(shù),給定一個問題、一個正例文檔以及多個負(fù)例文檔,損失函數(shù)如下:

為了提高多視角向量的均勻性,提出局部均勻性損失,強制將選擇的查詢向量與視角向量更緊密,原理其他其視角向量,如下:

為了進一步區(qū)分不同視角向量間的差異,采用了退火溫度,逐步調(diào)整不同視角向量的softmax分布,如下:

其中,為控制退火速度的超參,為模型訓(xùn)練輪數(shù),每訓(xùn)練一輪,溫度更新一次。注意:在全局對比損失和局部均勻損失中,均使用了退火溫度。

實驗

如下表所示,MVR方法對比于其他模型,獲取了更好的效果。

86a9f596-f08c-11ec-ba43-dac502259ad0.png

并且,通過實驗發(fā)現(xiàn),當(dāng)視角個數(shù)選擇8時,MVR模型效果最佳。

86d99328-f08c-11ec-ba43-dac502259ad0.png

針對Global-Local Loss進行消融實驗,發(fā)現(xiàn)當(dāng)沒有局部均勻損失和退火溫度時,會使得效果下降;當(dāng)兩者都沒有時,效果下降更加明顯;并且一個合適退火速度,對訓(xùn)練較為重要。

86ef0b4a-f08c-11ec-ba43-dac502259ad0.png

相比于其他模型來說,在文檔編碼階段和檢索召回階段的速度基本沒有影響,但由于需要存儲多個視角向量,因此造成存儲空間變大。

8705501c-f08c-11ec-ba43-dac502259ad0.png

并且,對比了簡單的句子切割或者等片段截斷方法獲取一個文本的多個向量表征,發(fā)現(xiàn)其效果均不理想,與DCSR一文觀點一致。

87189046-f08c-11ec-ba43-dac502259ad0.png

總結(jié)

該論文為了對長文檔更好地進行向量表征,引入多個特殊字符,使其生成「多種不同視角的向量表征」,解決了同一個文檔向量與多個語義差異較大問題向量語義不匹配的問題。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3808

    瀏覽量

    138042

原文標(biāo)題:ACL2022 | MVR:面向開放域檢索的多視角文檔表征

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    工業(yè)相機視角成像 高效解決瓶體檢測難題

    廣角式側(cè)面視角成像系統(tǒng)通過成像和照明一體式設(shè)計,解決了多相機布局復(fù)雜、反光干擾及異形瓶檢測適應(yīng)性差等痛點。
    的頭像 發(fā)表于 07-17 15:16 ?154次閱讀
    工業(yè)相機<b class='flag-5'>多</b><b class='flag-5'>視角</b>成像 高效解決瓶體檢測難題

    AT32 IAP using the USART

    的中斷向量表相應(yīng)的移動,移動的偏移量為x AT32 USART IAP 快速使用方法 硬件資源 文檔中是用 AT-START-AT32F403A 實驗板的硬件條件為例,IAP demo 源代碼還包括
    發(fā)表于 07-11 10:51

    通過御控工業(yè)網(wǎng)關(guān)實現(xiàn)遠(yuǎn)程調(diào)試下載國外PLC

    御控工業(yè)網(wǎng)關(guān)通過構(gòu)建安全隧道、協(xié)議解析、數(shù)據(jù)透傳三大核心技術(shù),將跨國設(shè)備維護周期從5天壓縮至2小時,成為破解海外設(shè)備運維難題的關(guān)鍵工具。
    的頭像 發(fā)表于 06-24 17:21 ?115次閱讀

    PLC通過智能網(wǎng)關(guān)實現(xiàn)HTTP協(xié)議通訊,先取得token后再提交獲取JSON格式的數(shù)據(jù)文件

    組1獲取到的token通過以上任務(wù)組2配置生成的JSON文件,以及接收的JSON文件如下: 從以上配置可以看到,通過‘?dāng)?shù)據(jù)處理/初始值’ 可以實現(xiàn)簡單的數(shù)據(jù)處理,還可支持更多的數(shù)據(jù)
    發(fā)表于 06-17 16:07

    HarmonyOS5云服務(wù)技術(shù)分享--認(rèn)證文檔問題

    ??: 通過創(chuàng)建不同項目區(qū)分測試環(huán)境與生產(chǎn)環(huán)境。 每個項目可獨立管理不同版本的認(rèn)證服務(wù)配置。 ??2. 開通認(rèn)證服務(wù)?? 登錄AGC控制臺,進入目標(biāo)項目,在「構(gòu)建 > 認(rèn)證服務(wù)」頁面啟用
    發(fā)表于 05-22 13:20

    請問如何通過S32K312命令行構(gòu)建代碼?

    現(xiàn)在我們已經(jīng)通過 S32DS3.5 IDE 開發(fā)了固件,它也可以工作了。 最近,我們收到了通過命令行構(gòu)建代碼的要求,并且 我從 S32DS 幫助內(nèi)容中讀取了相關(guān)文檔,但這種情況會發(fā)生
    發(fā)表于 04-09 07:48

    Token經(jīng)濟,風(fēng)起隴東

    以萬全之力,筑成東數(shù)西算的token經(jīng)濟走廊
    的頭像 發(fā)表于 04-01 09:46 ?1898次閱讀
    <b class='flag-5'>Token</b>經(jīng)濟,風(fēng)起隴東

    恭喜福建好視角順利通過三體系復(fù)審

    的規(guī)范化管理。通過復(fù)審,企業(yè)能夠不斷提升內(nèi)部管理水平,增強市場競爭力。2025年3月,福建好視角電子科技有限公司順利通過三體系復(fù)審。此次審核全面檢驗了質(zhì)量管理體系(QM
    的頭像 發(fā)表于 03-25 10:57 ?428次閱讀
    恭喜福建好<b class='flag-5'>視角</b>順利<b class='flag-5'>通過</b>三體系復(fù)審

    《AI Agent 應(yīng)用與項目實戰(zhàn)》閱讀心得3——RAG架構(gòu)與部署本地知識庫

    功能模塊包括文檔處理器、向量化引擎、檢索模塊和響應(yīng)生成器。文檔處理器負(fù)責(zé)解析不同格式的輸入文件,將文本內(nèi)容規(guī)范化處理;向量化引擎使用預(yù)訓(xùn)練的embedding模型將文本轉(zhuǎn)換為
    發(fā)表于 03-07 19:49

    通過Arduino Nano Matter開發(fā)板構(gòu)建智能卷簾系統(tǒng)

    在本指南中,您將學(xué)習(xí)如何通過Arduino NanoMatter開發(fā)板和板上的Silicon Labs(芯科科技)MGM240S協(xié)議無線模塊來構(gòu)建一個智能卷簾系統(tǒng)。該系統(tǒng)可通過 Am
    的頭像 發(fā)表于 02-28 09:46 ?539次閱讀
    <b class='flag-5'>通過</b>Arduino Nano Matter開發(fā)板<b class='flag-5'>構(gòu)建</b>智能卷簾系統(tǒng)

    2025年Next Token Prediction范式會統(tǒng)一模態(tài)嗎

    訓(xùn)練方法與推理策略 性能評測體系 現(xiàn)存挑戰(zhàn)與未來方向 綜述的完整目錄如下: 模態(tài)的 Tokenization 我們認(rèn)為模態(tài)的 Tokenization 是 MMNTP 的基石和最重要的部分,它將
    的頭像 發(fā)表于 01-21 10:11 ?476次閱讀
    2025年Next <b class='flag-5'>Token</b> Prediction范式會統(tǒng)一<b class='flag-5'>多</b>模態(tài)嗎

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗】+Embedding技術(shù)解讀

    引入外部知識庫來增強生成模型的能力。而Embedding在 Embedding模型將用戶的問題和文檔庫中的文本轉(zhuǎn)換為向量表示,這是RAG系統(tǒng)進行信息檢索和文本生成的基礎(chǔ)。RAG系統(tǒng)通過計算用戶問題
    發(fā)表于 01-17 19:53

    如何實現(xiàn)智慧交通的模式銜接

    實現(xiàn)智慧交通的模式銜接是一個復(fù)雜而系統(tǒng)的工程,它涉及多種交通方式的整合、信息共享、技術(shù)應(yīng)用等多個方面。以下是一些關(guān)鍵步驟和策略,以實現(xiàn)智慧交通的模式銜接: 一、
    的頭像 發(fā)表于 11-22 18:11 ?1895次閱讀

    通過工業(yè)智能網(wǎng)關(guān)實現(xiàn)中間變量表達式的快速配置

    ,出現(xiàn)告警可能是多個變量達到條件而觸發(fā)的,就需要對中間變量進行配置。 對此,物通博聯(lián)提供基于工業(yè)智能網(wǎng)關(guān)實現(xiàn)中間變量表達式的快速配置操作。用戶可以根據(jù)生產(chǎn)現(xiàn)場的應(yīng)用需求,靈活配置中間變量表達式,
    的頭像 發(fā)表于 10-08 17:10 ?642次閱讀
    <b class='flag-5'>通過</b>工業(yè)智能網(wǎng)關(guān)<b class='flag-5'>實現(xiàn)</b>中間變<b class='flag-5'>量表</b>達式的快速配置

    量表接入能源監(jiān)測平臺實現(xiàn)遠(yuǎn)程監(jiān)控節(jié)能管理

    在這個信息化、智能化的時代,節(jié)能減排已經(jīng)成為全球共識。如何在保障生活質(zhì)量的同時,最大限度地節(jié)約能源? 熱量表是一種用于測量供暖或制冷系統(tǒng)中熱能消耗的設(shè)備。通過加裝塊熱量表,可以精確地
    的頭像 發(fā)表于 07-22 10:42 ?598次閱讀