99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

ICCV 2023 | 面向視覺-語言導航的實體-標志物對齊自適應預訓練方法

智能感知與物聯(lián)網(wǎng)技術研究所 ? 來源:未知 ? 2023-10-23 09:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文是 ICCV 2023 入選 Oral 論文 Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language Navigation 的解讀。本論文是某智能人機交互團隊在視覺-語言導航(Vision-and-Language Navigation, VLN)領域的最新工作。該工作構建了 VLN 中首個帶有高質(zhì)量實體-標志物對齊標注的數(shù)據(jù)集,并提出實體-標志物對齊的自適應預訓練方法,從而顯著提高了智能體的導航性能。

ICCV 是“計算機視覺三大頂級會議”之一,ICCV 2023 于今年 10 月 2 日至 6 日在法國巴黎舉行,本屆會議共收到全球 8260 篇論文投稿,2161 篇被接收,接收率為 26.16%,其中 152 篇論文被選為口頭報告展示(Oral Presentation),Oral 接收率僅為 1.8%。

wKgZomU10DKADan6AAHijJ9FR38163.png

論文題目:

Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language Navigation

論文地址:

https://arxiv.org/abs/2308.12587

開源數(shù)據(jù)集:

https://pan.baidu.com/s/12WTzZ05T8Uxy85znn28dfQ?pwd=64t7

代碼地址:

https://github.com/csir1996/vln-gela

wKgZomU10DKAfgAhAAAl6LOgh3c680.png

引言

視覺-語言導航(Vision-and-Language Navigation, VLN)任務旨在構建一種能夠用自然語言與人類交流并在真實 3D 環(huán)境中自主導航的具身智能體。自提出以來,VLN 越來越受到計算機視覺、自然語言處理和機器人等領域的廣泛關注。 如圖 1 所示,將自然語言指令中提過的標志物(物體或者場景)對應到環(huán)境中能夠極大的幫助智能體理解環(huán)境和指令,由此跨模態(tài)對齊是 VLN 中的關鍵步驟。然而,大多數(shù)可用的數(shù)據(jù)集只能提供粗粒度的文本-圖像對齊信號,比如整條指令與整條軌跡的對應或者子指令與子路徑之間的對應,而跨模態(tài)對齊監(jiān)督也都停留在句子級別(sentence-level)。因此,VLN 需要更細粒度(entity-level)的跨模態(tài)對齊數(shù)據(jù)和監(jiān)督方法以促進智能體更準確地導航。

為解決以上問題,我們提出了一種面向 VLN 的實體-標志物自適應預訓練方法,主要工作與貢獻如下:

1. 我們基于 Room-to-Room(R2R)數(shù)據(jù)集 [1] 標注實體-標志物對齊,構建了第一個帶有高質(zhì)量實體-標志物對齊標注的 VLN 數(shù)據(jù)集,命名為 GEL-R2R;

2. 我們提出一種實體-標志物自適應預訓練 (Grounded Entity-Landmark Adaptive,GELA) 方法,利用 GEL-R2R 數(shù)據(jù)集顯式監(jiān)督 VLN 模型學習實體名詞和環(huán)境標志物之間的細粒度跨模態(tài)對齊;

3. 我們構建的 GELA 模型在兩個 VLN 下游任務上取得了最佳的導航性能,證明了我們數(shù)據(jù)集和方法的有效性和泛化性。 wKgZomU10DKAHMgwAAy1Xi4UNy4383.png▲圖1. 具身智能體在3D真實環(huán)境中的導航示例 wKgZomU10DOARN_dAAAuhh9-KLM163.png

GEL-R2R數(shù)據(jù)集

為了建立指令中實體短語與其周圍環(huán)境中相應標志物之間的對齊,我們在 R2R 數(shù)據(jù)集的基礎上進行了實體-標志物對齊的人工標注,整個流程包括五個階段:

1. 原始數(shù)據(jù)準備。我們從 Matterport3D 模擬器中采集每個可導航點的全景圖。為了提高標注的效率和準確性,我們在全景圖中標注下一個動作方向,并根據(jù) FG-R2R 數(shù)據(jù)集 [2] 將每個全景圖與相應的子指令進行對應;

2. 標注工具開發(fā)。我們基于 Label-Studio 開發(fā)了一個跨模態(tài)標注平臺,如圖 2 所示;

3. 標注指南建立。為確保標注的一致性,我們經(jīng)過預標注之后建立了四個準則來標準化標注指南:

  • 對齊準則:指令中的實體短語應與全景圖中的標志物準確匹配

  • 自由文本準則:標注自由文本而不是類別

  • 文本共指準則:指代相同標志物的實體短語用相同的標簽標注

  • 唯一標志物準則:對于一個實體短語,在全景圖中只應標注一個對應的標志物

4. 數(shù)據(jù)標注與修訂;

5. 數(shù)據(jù)整合與處理。

wKgZomU10DOAbfPKAAh8T1fXP9Q036.png

▲圖2. GEL-R2R數(shù)據(jù)集標注界面如圖 3 所示,GEL-R2R 數(shù)據(jù)集共包含:71467 個實體短語,其中訓練集 57788 個,已見環(huán)境驗證集 4196 個,未見環(huán)境驗證集 9483 個;150183 個標志物,其中訓練集 121146 個,已見環(huán)境驗證集 8741 個,未見環(huán)境驗證集 20296 個。

wKgZomU10DOAaVXnAAIx1uvi4R8766.png▲圖3. GEL-R2R數(shù)據(jù)集統(tǒng)計分析 wKgZomU10DOAdwO2AAAtJ0fTuoM459.png

GELA方法

wKgZomU10DOADXdrAARjJLZ30i8478.png圖4. GELA方法概覽

如圖 4 所示,方法流程分為三個階段:預訓練(pre-training)、自適應預訓練(adaptive pre-training)和微調(diào)(fine-tuning)。我們直接在預訓練模型 HAMT [3] 的基礎上進行自適應預訓練,HAMT 模型由文本編碼器、圖像編碼器、歷史編碼器和跨模態(tài)編碼器構成。我們將跨模態(tài)編碼器輸出的文本向量、歷史向量和圖像向量分別記為 Z、Y 和 S。我們設計了三種自適應預訓練任務:

1. 實體短語預測。在這個任務中,我們通過標注的環(huán)境標志物預測其對應的實體短語在指令中的位置。首先將人工標注的實體位置轉化為 L+1 維的掩碼向量 (與 維度相同),并將人工標注的標志物邊界框轉化為 37 維的掩碼向量 (與 維度相同)。然后,我們將標志物圖像 patch 的特征平均化,并將其輸入一個兩層前饋網(wǎng)絡(Feedforward Network, FFN)中,預測指令序列中 token 位置的概率分布,用掩碼向量 作監(jiān)督,具體損失函數(shù)為:

wKgZomU10DOAJKS2AAAX-lg11Os006.png

wKgZomU10DSAezOmAAAX-6i6ifg222.png

2. 標志物邊界框預測。在這個任務中,我們通過標注的實體名詞預測其對應的標志物邊界框坐標。首先平均實體短語 token 的特征向量,然后將其輸入兩層 FFN 和 Sigmoid 函數(shù)預測坐標 :

wKgZomU10DSAEijaAAAVifzwXqI883.png

最后,將人工標注的 box=(x,y,w,h) 和 box’ 作 smooth-l1 損失和 GIoU 損失:

wKgZomU10DSAahFTAAAUW23ODXc548.png

3. 實體-標志物語義對齊。上述兩個單向預測任務使用位置信息來匹配實體和標志物,而此任務在跨模態(tài)編碼器輸出端強制對齊相對應的標志物和實體的特征向量。這個任務的約束比上面兩個單向預測任務更強,因為它直接作用于表示,而不是僅僅基于位置信息。具體損失函數(shù)如下:

wKgZomU10DSANVDoAAB0Xlwcdgw449.png自適應預訓練最終的損失函數(shù)為:

wKgZomU10DSABFrEAAAP7deVISE239.png

經(jīng)過自適應預訓練后,我們利用模仿學習 (Imitation Learning,IL) 和強化學習 (Reinforcement Learning,RL) 訓練策略對 GELA 模型在兩個 VLN 下游任務(R2R 和 CVDN)上進行微調(diào)。IL 監(jiān)督智能體克隆專家的行為,RL 鼓勵智能體根據(jù)學習策略探索軌跡。 wKgZomU10DWAZwyjAAAr2pbNr48702.png ?

實驗結果

如圖 5 所示,GELA 模型在 R2R 數(shù)據(jù)集上與先前 SOTA 模型的性能進行比較。GELA 模型在所有子集上的主要指標(SR 和 SPL)均優(yōu)于所有其他模型。具體地,在已知驗證集上,GELA 的性能與 HAMT 模型相當,而在未知驗證集和測試集上,GELA 模型分別取得了 5% 、2% (SR) 和 4% 、2% (SPL) 的提高。因此,GELA 模型具有更好的未知環(huán)境泛化能力,這主要是由于 GELA 模型在學習實體-標志物對齊后,具有較強的語義特征捕捉能力。 wKgZomU10DWAfcr3AAMjz4D3vq4782.png 圖5. R2R數(shù)據(jù)集上的性能對比 我們同樣在 CVDN 數(shù)據(jù)集上對比了 GELA 模型與先前 SOTA 模型的性能,如圖 6 所示,該數(shù)據(jù)集使用以米為單位的目標進度 (Goal Progress,GP) 作為關鍵性能指標。結果表明,GELA 模型在驗證集和測試集上的性能都明顯優(yōu)于其他模型。因此,GELA 模型對不同的 VLN 下游任務具有良好的泛化能力。

wKgZomU10DWAPX-AAADJrBWOOD4487.png圖6. CVDN數(shù)據(jù)集上的性能對比

wKgZomU10DWANcWFAAAC0jQz1zo582.jpg

參考文獻

wKgZomU10DWANcWFAAAC0jQz1zo582.jpg ?

[1] Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, Mark Johnson, Niko S ? underhauf, Ian D. Reid, Stephen Gould, and Anton van den Hengel. Vision-and-language navigation: Interpreting visually-grounded navigation instructions in real environments. In CVPR, pages 3674–3683, 2018.

[2] Yicong Hong, Cristian Rodriguez Opazo, Qi Wu, and Stephen Gould. Sub-instruction aware vision-and-language navigation. In EMNLP, pages 3360–3376, 2020.

[3] Shizhe Chen, Pierre-Louis Guhur, Cordelia Schmid, and Ivan Laptev. History aware multimodal transformer for vision-and-language navigation. In NeurIPS, pages 58345847, 2021.

·


原文標題:ICCV 2023 | 面向視覺-語言導航的實體-標志物對齊自適應預訓練方法

文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術研究所】歡迎添加關注!文章轉載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:ICCV 2023 | 面向視覺-語言導航的實體-標志物對齊自適應預訓練方法

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    基于FPGA LMS算法的自適應濾波器設計

    自適應濾波是近幾十年發(fā)展起來的信號處理理論的的新分支。隨著人們在該領域研究的不斷深入,自適應處理的理論和技術日趨完善,其應用領域也越來越廣泛。自適應濾波在通信、控制、語言分析和綜合、地
    的頭像 發(fā)表于 07-10 11:25 ?1134次閱讀
    基于FPGA LMS算法的<b class='flag-5'>自適應</b>濾波器設計

    無刷直流電機雙閉環(huán)模糊自適應控制方法研究

    純分享帖,點擊下方附件免費獲取完整資料~~~ *附件:無刷直流電機雙閉環(huán)模糊自適應控制方法研究.pdf 【免責聲明】本文系網(wǎng)絡轉載,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題,請第一時間告知,刪除內(nèi)容,謝謝!
    發(fā)表于 07-08 18:35

    暨南大學:鐵電極化調(diào)控的自供電、高靈敏PEC型腫瘤標志物傳感技術

    ? 惡性腫瘤的早期診斷與精準監(jiān)測是臨床醫(yī)學與基礎研究的核心挑戰(zhàn)。癌胚抗原(CEA)作為結直腸癌、胃癌及乳腺癌等多種實體瘤的關鍵腫瘤標志物,其濃度異常升高與腫瘤負荷及進展顯著相關。實現(xiàn)CEA的超靈敏
    的頭像 發(fā)表于 07-08 17:27 ?1034次閱讀
    暨南大學:鐵電極化調(diào)控的自供電、高靈敏PEC型腫瘤<b class='flag-5'>標志物</b>傳感技術

    格靈深瞳六篇論文入選ICCV 2025

    近日,國際頂級會議ICCV 2025(計算機視覺國際大會)公布論文錄用結果,格靈深瞳團隊共有6篇論文入選。
    的頭像 發(fā)表于 07-07 18:23 ?466次閱讀

    永磁同步電機自適應高階滑模Type-2模糊控制

    針對永磁同步電機數(shù)學模型不確定問題,提出一種自適應高階滑模Type-2模糊控制方法。采用積分滑模面二階滑??刂坡?,保持傳統(tǒng)滑模控制的魯棒性并實現(xiàn)不含不確定高階輸入輸出有限時間穩(wěn)定;不需要預先確定干擾
    發(fā)表于 03-27 11:54

    用PaddleNLP為GPT-2模型制作FineWeb二進制訓練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《用PaddleNLP在4060單卡上實踐大模型訓練技術》發(fā)布后收到讀者熱烈反響,很多讀者要求進一步講解更多的技術細節(jié)。本文主要針對大語言模型的
    的頭像 發(fā)表于 03-21 18:24 ?1684次閱讀
    用PaddleNLP為GPT-2模型制作FineWeb二進制<b class='flag-5'>預</b><b class='flag-5'>訓練</b>數(shù)據(jù)集

    GLAD應用:大氣像差與自適應光學

    概述 激光在大氣湍流中傳輸時會拾取大氣湍流導致的相位畸變,特別是在長距離傳輸?shù)募す馔ㄐ畔到y(tǒng)中。這種畸變會使傳輸激光的波前劣化。通過在系統(tǒng)中引入自適應光學系統(tǒng),可以對激光傳輸時拾取的低頻畸變進行校正
    發(fā)表于 03-10 08:55

    用PaddleNLP在4060單卡上實踐大模型訓練技術

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 之前我們分享了《從零開始訓練一個大語言模型需要投資多少錢》,其中高昂的訓練費用讓許多對大模型
    的頭像 發(fā)表于 02-19 16:10 ?999次閱讀
    用PaddleNLP在4060單卡上實踐大模型<b class='flag-5'>預</b><b class='flag-5'>訓練</b>技術

    騰訊公布大語言模型訓練新專利

    近日,騰訊科技(深圳)有限公司公布了一項名為“大語言模型的訓練方法、裝置、計算機設備及存儲介質(zhì)”的新專利。該專利的公布,標志著騰訊在大語言模型訓練
    的頭像 發(fā)表于 02-10 09:37 ?414次閱讀

    基于自適應優(yōu)化的高速交叉矩陣設計

    提出了一種基于自適應優(yōu)化的交叉矩陣傳輸設計,采用AHB協(xié)議并引入自適應突發(fā)傳輸調(diào)整和自適應優(yōu)先級調(diào)整的創(chuàng)新機制。通過動態(tài)調(diào)整突發(fā)傳輸?shù)拈L度和優(yōu)先級分配,實現(xiàn)了對數(shù)據(jù)流的有效管理,提升了系統(tǒng)的帶寬
    的頭像 發(fā)表于 01-18 10:24 ?400次閱讀

    《具身智能機器人系統(tǒng)》第7-9章閱讀心得之具身智能機器人與大模型

    模型展示了強大的泛化能力,能夠?qū)⒃谀M環(huán)境學到的技能遷移到真實場景。RT-2的改進版本更是引入了視覺-語言訓練技術,使模型能夠理解更抽象的任務描述。 第8章通過具體應用案例展現(xiàn)了具身
    發(fā)表于 12-24 15:03

    基于視覺語言模型的導航框架VLMnav

    本文提出了一種將視覺語言模型(VLM)轉換為端到端導航策略的具體框架。不依賴于感知、規(guī)劃和控制之間的分離,而是使用VLM在一步中直接選擇動作。驚訝的是,我們發(fā)現(xiàn)VLM可以作為一種無需任何微調(diào)或
    的頭像 發(fā)表于 11-22 09:42 ?799次閱讀

    LLM和傳統(tǒng)機器學習的區(qū)別

    訓練方法 LLM: 訓練和微調(diào): LLM通常采用訓練(Pre-training)和微調(diào)(Fine-tuning)的
    的頭像 發(fā)表于 11-08 09:25 ?1899次閱讀

    AGV激光導航定位技術與構建地圖

    AGV是制造物流重要設備,激光導航AGV高可靠靈活,SLAM技術關鍵,激光SLAM成熟且落地豐富,無需人工標志物,復合式激光導航兼顧可靠性與靈活性,激光導航結合內(nèi)部傳感器提升
    的頭像 發(fā)表于 11-06 11:51 ?818次閱讀
    AGV激光<b class='flag-5'>導航</b>定位技術與構建地圖

    步進電機如何自適應控制?步進電機如何細分驅(qū)動控制?

    是一種智能控制方法,它可以根據(jù)系統(tǒng)參數(shù)的變化和外部干擾自動調(diào)整控制策略,以實現(xiàn)對系統(tǒng)的穩(wěn)定和精確控制。在步進電機的自適應控制中,主要涉及到以下幾個方面: 系統(tǒng)建模:首先需要對步進電機的動態(tài)特性進行建模,包括電機的
    的頭像 發(fā)表于 10-23 10:04 ?1638次閱讀