99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

多模態(tài)大模型最全綜述來了!

深度學(xué)習(xí)自然語言處理 ? 來源:量子位 ? 2023-09-26 16:42 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

多模態(tài)大模型最全綜述來了!

由微軟7位華人研究員撰寫,足足119頁——

0ef65ffa-5c36-11ee-939d-92fbcf53809c.png

它從目前已經(jīng)完善的和還處于最前沿的兩類多模態(tài)大模型研究方向出發(fā),全面總結(jié)了五個具體研究主題:

視覺理解

視覺生成

統(tǒng)一視覺模型

LLM加持的多模態(tài)大模型

多模態(tài)agent

0f01b436-5c36-11ee-939d-92fbcf53809c.gif

?并重點關(guān)注到一個現(xiàn)象:

多模態(tài)基礎(chǔ)模型已經(jīng)從專用走向通用

Ps. 這也是為什么論文開頭作者就直接畫了一個哆啦A夢的形象。

誰適合閱讀這份綜述(報告)?

用微軟的原話來說:

只要你想學(xué)習(xí)多模?態(tài)基礎(chǔ)模型的基礎(chǔ)知識和最新進(jìn)展,不管你是專業(yè)研究員,還是在校學(xué)生,它都是你的“菜”。

一起來看看~

一文摸清多模態(tài)大模型現(xiàn)狀

這五個具體主題中的前2個為目前已經(jīng)成熟的領(lǐng)域,后3個則還屬于前沿領(lǐng)域。

1、視覺理解

這部分的核心問題是如何預(yù)訓(xùn)練一個強(qiáng)大的圖像理解backbone。

如下圖所示,根據(jù)用于訓(xùn)練模型的監(jiān)督信號的不同,我們可以將方法分為三類:

標(biāo)簽監(jiān)督、語言監(jiān)督(以CLIP為代表)和只有圖像的自監(jiān)督。

其中最后一個表示監(jiān)督信號是從圖像本身中挖掘出來的,流行的方法包括對比學(xué)習(xí)、非對比學(xué)習(xí)和masked image建模。

在這些方法之外,文章也進(jìn)一步討論了多模態(tài)融合、區(qū)域級和像素級圖像理解等類別的預(yù)訓(xùn)練方法。

0f15730e-5c36-11ee-939d-92fbcf53809c.png

還列出了以上這些方法各自的代表作品。

0f2ac5ce-5c36-11ee-939d-92fbcf53809c.png

2、視覺生成

這個主題是AIGC的核心,不限于圖像生成,還包括視頻、3D點云圖等等。

并且它的用處不止于藝術(shù)、設(shè)計等領(lǐng)域——還非常有助于合成訓(xùn)練數(shù)據(jù),直接幫助我們實現(xiàn)多模態(tài)內(nèi)容理解和生成的閉環(huán)。

在這部分,作者重點討論了生成與人類意圖嚴(yán)格一致的效果的重要性和方法(重點是圖像生成)。

具體則從空間可控生成、基于文本再編輯、更好地遵循文本提示和生成概念定制(concept customization)四個方面展開。

0f346552-5c36-11ee-939d-92fbcf53809c.png

在本節(jié)最后,作者還分享了他們對當(dāng)前研究趨勢和短期未來研究方向的看法。

即,開發(fā)一個通用的文生圖模型,它可以更好地遵循人類的意圖,并使上述四個方向都能應(yīng)用得更加靈活并可替代。

同樣列出了四個方向的各自代表作:

0f411f5e-5c36-11ee-939d-92fbcf53809c.png

3、統(tǒng)一視覺模型

這部分討論了構(gòu)建統(tǒng)一視覺模型的挑戰(zhàn):

?一是輸入類型不同;

二是不同的任務(wù)需要不同的粒度,輸出也要求不同的格式;

三是在建模之外,數(shù)據(jù)也有挑戰(zhàn)。

比如不同類型的標(biāo)簽注釋成本差異很大,收集成本比文本數(shù)據(jù)高得多,這導(dǎo)致視覺數(shù)據(jù)的規(guī)模通常比文本語料庫小得多。

不過,盡管挑戰(zhàn)多多,作者指出:

CV領(lǐng)域?qū)τ陂_發(fā)通用、統(tǒng)一的視覺系統(tǒng)的興趣是越來越高漲,還衍生出來三類趨勢:

0f4de108-5c36-11ee-939d-92fbcf53809c.png

一是從閉集(closed-set)到開集(open-set),它可以更好地將文本和視覺匹配起來。

二是從特定任務(wù)到通用能力,這個轉(zhuǎn)變最重要的原因還是因為為每一項新任務(wù)都開發(fā)一個新模型的成本實在太高了;

三是從靜態(tài)模型到可提示模型,LLM可以采用不同的語言和上下文提示作為輸入,并在不進(jìn)行微調(diào)的情況下產(chǎn)生用戶想要的輸出。我們要打造的通用視覺模型應(yīng)該具有相同的上下文學(xué)習(xí)能力。

4、LLM加持的多模態(tài)大模型

本節(jié)全面探討多模態(tài)大模型。

先是深入研究背景和代表實例,并討論OpenAI的多模態(tài)研究進(jìn)展,確定該領(lǐng)域現(xiàn)有的研究空白。

接下來作者詳細(xì)考察了大語言模型中指令微調(diào)的重要性。

再接著,作者探討了多模態(tài)大模型中的指令微調(diào)工作,包括原理、意義和應(yīng)用。

最后,涉及多模態(tài)模型領(lǐng)域中的一些高階主題,方便我們進(jìn)行更深入的了解,包括:

更多超越視覺和語言的模態(tài)、多模態(tài)的上下文學(xué)習(xí)、參數(shù)高效訓(xùn)練以及Benchmark等內(nèi)容。

5、多模態(tài)agent

所謂多模態(tài)agent,就是一種將不同的多模態(tài)專家與LLM聯(lián)系起來解決復(fù)雜多模態(tài)理解問題的辦法。

這部分,作者主要先帶大家回顧了這種模式的轉(zhuǎn)變,總結(jié)該方法與傳統(tǒng)方法的根本差異。

然后以MM-REACT為代表帶大家看了這種方法的具體運(yùn)作方式。

接著全面總結(jié)了如何構(gòu)建多模態(tài)agent,它在多模態(tài)理解方面的新興能力,以及如何輕松擴(kuò)展到包含最新、最強(qiáng)的LLM和潛在的數(shù)百萬種工具中。

當(dāng)然,最后也是一些高階主題討論,包括如何改進(jìn)/評估多多模態(tài)agent,由它建成的各種應(yīng)用程序等。

0f55cde6-5c36-11ee-939d-92fbcf53809c.png

作者介紹

本報告一共7位作者。

發(fā)起人和整體負(fù)責(zé)人為Chunyuan Li。

他是微軟雷德蒙德首席研究員,博士畢業(yè)于杜克大學(xué),最近研究興趣為CV和NLP中的大規(guī)模預(yù)訓(xùn)練。

他負(fù)責(zé)了開頭介紹和結(jié)尾總結(jié)以及“利用LLM訓(xùn)練的多模態(tài)大模型”這章的撰寫。

核心作者一共4位:

Zhe Gan

目前已進(jìn)入Apple AI/ML工作,負(fù)責(zé)大規(guī)模視覺和多模態(tài)基礎(chǔ)模型研究。此前是Microsoft Azure AI的首席研究員,北大本碩畢業(yè),杜克大學(xué)博士畢業(yè)。

Zhengyuan Yang

微軟高級研究員,羅切斯特大學(xué)博士畢業(yè),獲得了ACM SIGMM杰出博士獎等榮譽(yù),本科就讀于中科大。

Jianwei Yang

微軟雷德蒙德研究院深度學(xué)習(xí)小組首席研究員。佐治亞理工學(xué)院博士畢業(yè)。

Linjie Li(女)

Microsoft Cloud & AI計算機(jī)視覺組研究員,普渡大學(xué)碩士畢業(yè)。

他們分別負(fù)責(zé)了剩下四個主題章節(jié)的撰寫。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1094

    瀏覽量

    41156
  • AIGC
    +關(guān)注

    關(guān)注

    1

    文章

    385

    瀏覽量

    2384
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3101

    瀏覽量

    3994

原文標(biāo)題:綜述 | 多模態(tài)大模型最全綜述來了!

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    愛芯通元NPU適配Qwen2.5-VL-3B視覺模態(tài)模型

    熟悉愛芯通元NPU的網(wǎng)友很清楚,從去年開始我們在端側(cè)模態(tài)模型適配上一直處于主動緊跟的節(jié)奏。先后適配了國內(nèi)最早開源的模態(tài)大模MiniCP
    的頭像 發(fā)表于 04-21 10:56 ?1343次閱讀
    愛芯通元NPU適配Qwen2.5-VL-3B視覺<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    蛋白質(zhì)能量模型模態(tài)優(yōu)化算法綜述

    算法的基礎(chǔ),提出了一種基于二面角相似度的蛋白質(zhì)構(gòu)象模態(tài)優(yōu)化方法。首先,執(zhí)行模態(tài)探測,將 Rosetta粗粒度能量模型作為篩選高質(zhì)量新個體的標(biāo)準(zhǔn),進(jìn)行種群更新,増加種群構(gòu)象的多樣性;然
    發(fā)表于 05-18 15:33 ?1次下載

    模態(tài)圖像合成與編輯方法

    本篇綜述通過對現(xiàn)有的模態(tài)圖像合成與編輯方法的歸納總結(jié),對該領(lǐng)域目前的挑戰(zhàn)和未來方向進(jìn)行了探討和分析。
    的頭像 發(fā)表于 08-23 09:12 ?1551次閱讀

    VisCPM:邁向多語言模態(tài)模型時代

    隨著 GPT-4 和 Stable Diffusion 等模型模態(tài)能力的突飛猛進(jìn),模態(tài)模型
    的頭像 發(fā)表于 07-10 10:05 ?966次閱讀
    VisCPM:邁向多語言<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>時代

    更強(qiáng)更通用:智源「悟道3.0」Emu模態(tài)模型開源,在模態(tài)序列中「補(bǔ)全一切」

    當(dāng)前學(xué)界和工業(yè)界都對模態(tài)模型研究熱情高漲。去年,谷歌的 Deepmind 發(fā)布了模態(tài)視覺語言模型
    的頭像 發(fā)表于 07-16 20:45 ?1000次閱讀
    更強(qiáng)更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>開源,在<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>序列中「補(bǔ)全一切」

    北大&amp;華為提出:模態(tài)基礎(chǔ)大模型的高效微調(diào)

    深度學(xué)習(xí)的大模型時代已經(jīng)來臨,越來越多的大規(guī)模預(yù)訓(xùn)練模型在文本、視覺和模態(tài)領(lǐng)域展示出杰出的生成和推理能力。然而大模型巨大的參數(shù)量有兩個明顯
    的頭像 發(fā)表于 11-08 16:20 ?1632次閱讀
    北大&amp;華為提出:<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>基礎(chǔ)大<b class='flag-5'>模型</b>的高效微調(diào)

    探究編輯模態(tài)大語言模型的可行性

    不同于單模態(tài)模型編輯,模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點依然從單
    發(fā)表于 11-09 14:53 ?749次閱讀
    探究編輯<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語言<b class='flag-5'>模型</b>的可行性

    模型+模態(tài)的3種實現(xiàn)方法

    我們知道,預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就, 然而其明顯的劣勢是不支持其他模態(tài)(包括圖像、語音、視頻模態(tài))的輸入和輸出,那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨模態(tài)的信息,讓其變得更強(qiáng)大、更通用呢?本節(jié)將介紹“大
    的頭像 發(fā)表于 12-13 13:55 ?2487次閱讀
    大<b class='flag-5'>模型</b>+<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的3種實現(xiàn)方法

    從Google模態(tài)模型看后續(xù)大模型應(yīng)該具備哪些能力

    前段時間Google推出Gemini模態(tài)模型,展示了不凡的對話能力和模態(tài)能力,其表現(xiàn)究竟如何呢?
    的頭像 發(fā)表于 12-28 11:19 ?1757次閱讀
    從Google<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>看后續(xù)大<b class='flag-5'>模型</b>應(yīng)該具備哪些能力

    機(jī)器人基于開源的模態(tài)語言視覺大模型

    ByteDance Research 基于開源的模態(tài)語言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機(jī)器人操作模型,只用單機(jī)就可以訓(xùn)練。
    發(fā)表于 01-19 11:43 ?641次閱讀
    機(jī)器人基于開源的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>語言視覺大<b class='flag-5'>模型</b>

    螞蟻推出20億參數(shù)模態(tài)遙感模型SkySense

    據(jù)了解,負(fù)責(zé)開發(fā)的百靈團(tuán)隊利用自身擁有的19億遙感影像數(shù)據(jù)集進(jìn)行了預(yù)訓(xùn)練,從而生成了具有20.6億參數(shù)的SkySense大模型。官方稱其為全球范圍內(nèi)參數(shù)規(guī)模最大、任務(wù)覆蓋最全且識別精度最高的
    的頭像 發(fā)表于 02-28 15:53 ?1006次閱讀

    螞蟻集團(tuán)推出20億參數(shù)模態(tài)遙感基礎(chǔ)模型SkySense

    近日,螞蟻集團(tuán)聯(lián)合武漢大學(xué)宣布成功研發(fā)出20億參數(shù)模態(tài)遙感基礎(chǔ)模型SkySense。這一創(chuàng)新模型由螞蟻集團(tuán)的AI創(chuàng)新研發(fā)部門NextEvo與武漢大學(xué)共同完成,是迄今為止國際上參數(shù)規(guī)模
    的頭像 發(fā)表于 03-04 11:22 ?1165次閱讀

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實現(xiàn)更加智能化的信息處理。簡單來說,
    的頭像 發(fā)表于 10-18 09:39 ?1191次閱讀

    商湯日日新模態(tài)模型權(quán)威評測第一

    剛剛,商湯科技日日新SenseNova模態(tài)模型,在權(quán)威綜合評測權(quán)威平臺OpenCompass的模態(tài)評測中取得榜單第一。
    的頭像 發(fā)表于 12-20 10:39 ?971次閱讀

    ??低暟l(fā)布模態(tài)模型文搜存儲系列產(chǎn)品

    模態(tài)模型為安防行業(yè)帶來重大技術(shù)革新,基于觀瀾大模型技術(shù)體系,??低晫⒋髤?shù)量、大樣本量的圖文模態(tài)
    的頭像 發(fā)表于 02-18 10:33 ?630次閱讀