研究動(dòng)機(jī)
傳統(tǒng)的多模態(tài)預(yù)訓(xùn)練方法通常需要"大數(shù)據(jù)"+"大模型"的組合來(lái)同時(shí)學(xué)習(xí)視覺(jué)+語(yǔ)言的聯(lián)合特征。但是關(guān)注如何利用視覺(jué)+語(yǔ)言數(shù)據(jù)提升視覺(jué)任務(wù)(多模態(tài)->單模態(tài))上性能的工作并不多。本文旨在針對(duì)上述問(wèn)題提出一種簡(jiǎn)單高效的方法。
在這篇文章中,以醫(yī)療影像上的特征學(xué)習(xí)為例,我們提出對(duì)圖像+文本同時(shí)進(jìn)行掩碼建模(即Masked Record Modeling,Record={Image,Text})可以更好地學(xué)習(xí)視覺(jué)特征。該方法具有以下優(yōu)點(diǎn):
簡(jiǎn)單。僅通過(guò)特征相加就可以實(shí)現(xiàn)多模態(tài)信息的融合。此處亦可進(jìn)一步挖掘,比如引入更高效的融合策略或者擴(kuò)展到其它領(lǐng)域。
高效。在近30w的數(shù)據(jù)集上,在4張NVIDIA 3080Ti上完成預(yù)訓(xùn)練僅需要1天半左右的時(shí)間。
性能強(qiáng)。在微調(diào)階段,在特定數(shù)據(jù)集上,使用1%的標(biāo)記數(shù)據(jù)可以接近100%標(biāo)記數(shù)據(jù)的性能。
方法(一句話總結(jié))
如上圖所示,我們提出的訓(xùn)練策略是比較直觀的,主要包含三步:
隨機(jī)Mask一部分輸入的圖像和文本
使用加法融合過(guò)后的圖像+文本的特征重建文本
使用圖像的特征重建圖像。
性能
如上圖所示,我們?nèi)鎸?duì)比了現(xiàn)有的相關(guān)方法和模型在各類微調(diào)任務(wù)上的性能。
在CheXpert上,我們以1%的有標(biāo)記數(shù)據(jù)接近使用100%有標(biāo)記數(shù)據(jù)的性能。
在RSNA Pneumonia和SIIM (分割)上,我們以較大幅度超過(guò)了之前最先進(jìn)的方法。
審核編輯 :李倩
-
建模
+關(guān)注
關(guān)注
1文章
317瀏覽量
61580 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1224瀏覽量
25437 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8959瀏覽量
140154
原文標(biāo)題:ICLR 2023 | 廈大&港大提出MRM:利用視覺(jué)+語(yǔ)言數(shù)據(jù)增強(qiáng)視覺(jué)特征
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
機(jī)器視覺(jué)照明的技術(shù)選擇與應(yīng)用
?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

NaVILA:加州大學(xué)與英偉達(dá)聯(lián)合發(fā)布新型視覺(jué)語(yǔ)言模型
適用于機(jī)器視覺(jué)應(yīng)用的智能機(jī)器視覺(jué)控制平臺(tái)

基于視覺(jué)語(yǔ)言模型的導(dǎo)航框架VLMnav
視覺(jué)軟件HALCON的數(shù)據(jù)結(jié)構(gòu)

SegVG視覺(jué)定位方法的各個(gè)組件

使用語(yǔ)義線索增強(qiáng)局部特征匹配

如何利用FPGA技術(shù)革新視覺(jué)人工智能應(yīng)用?

圖像采集卡:增強(qiáng)視覺(jué)數(shù)據(jù)采集

評(píng)論