99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DALL-E和Flamingo能相互理解嗎?

CVer ? 來(lái)源:機(jī)器之心 ? 2023-01-09 15:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文提出了一個(gè)統(tǒng)一的框架,其中包括文本到圖像生成模型和圖像到文本生成模型,該研究不僅為改進(jìn)圖像和文本理解提供了見(jiàn)解,而且為多模態(tài)模型的融合提供了一個(gè)有前途的方向。

多模態(tài)研究的一個(gè)重要目標(biāo)就是提高機(jī)器對(duì)于圖像和文本的理解能力。特別是針對(duì)如何在兩種模型之間實(shí)現(xiàn)有意義的交流,研究者們付出了巨大努力。舉例來(lái)說(shuō),圖像描述(image captioning)生成應(yīng)當(dāng)能將圖像的語(yǔ)義內(nèi)容轉(zhuǎn)換輸出為可被人們理解的連貫文本。相反,文本 - 圖像生成模型也可利用文本描述的語(yǔ)義來(lái)創(chuàng)建逼真的圖像。

這就會(huì)帶來(lái)一些同語(yǔ)義相關(guān)的有趣問(wèn)題:對(duì)于給定的圖像,哪種文本描述最準(zhǔn)確地描述了圖像?同樣地,對(duì)于給定的文本,最有意義的圖像實(shí)現(xiàn)方式又是哪種?針對(duì)第一個(gè)問(wèn)題,一些研究宣稱(chēng)最佳的圖像描述應(yīng)該是既自然且還能還原視覺(jué)內(nèi)容的信息。而對(duì)于第二個(gè)問(wèn)題,有意義的圖像應(yīng)該是高質(zhì)量的、多樣性的且忠于文本內(nèi)容的。

不論怎樣,在人類(lèi)交流的推動(dòng)下,包含文本 - 圖像生成模型及圖像 - 文本生成模型的交互任務(wù)可以幫助我們選擇最準(zhǔn)確的圖像文本對(duì)。

如圖 1 所示,在第一個(gè)任務(wù)中,圖像 - 文本模型是信息發(fā)送者,文本 - 圖像模型是信息接收者。發(fā)送者的目標(biāo)是使用自然語(yǔ)言將圖像的內(nèi)容傳達(dá)給接收者,以便其理解該語(yǔ)言并重建真實(shí)的視覺(jué)表征。一旦接收者可以高保真地重建原始圖像信息,則表明信息已傳遞成功。研究者認(rèn)為這樣生成的文本描述即為最優(yōu)的,通過(guò)其產(chǎn)生的圖像也最近似于原始圖像。

54695ade-8fdf-11ed-bfe3-dac502259ad0.png

這一規(guī)律受到人們使用語(yǔ)言進(jìn)行交流的啟發(fā)。試想如下情形:在一個(gè)緊急呼救的場(chǎng)景中,警察通過(guò)電話獲知車(chē)禍的情況和受傷人員的狀況。這本質(zhì)上涉及現(xiàn)場(chǎng)目擊者的圖像描述過(guò)程。警方需要根據(jù)語(yǔ)言描述在腦海中重建環(huán)境場(chǎng)景,以組織恰當(dāng)?shù)木仍袆?dòng)。顯然,最好的文本描述應(yīng)該是該場(chǎng)景重建的最佳指南。

第二個(gè)任務(wù)涉及文本重建:文本 - 圖像模型成為信息發(fā)送者,圖像 - 文本模型則成為信息接收者。一旦兩個(gè)模型就文本層面上信息內(nèi)容達(dá)成一致,那么用于傳達(dá)信息的圖像媒介即為重現(xiàn)源文本的最優(yōu)圖像。

本文中,來(lái)自慕尼黑大學(xué)、西門(mén)子公司等機(jī)構(gòu)的研究者提出的方法,同智能體間通信緊密相關(guān)。語(yǔ)言是智能體之間交換信息的主要方法。可我們?nèi)绾未_定第一個(gè)智能體與第二個(gè)智能體對(duì)什么是貓或什么是狗這樣的問(wèn)題有相同的理解呢?

549ea716-8fdf-11ed-bfe3-dac502259ad0.png

論文地址:https://arxiv.org/abs/2212.12249

本文所想要探求的想法是讓第一個(gè)智能體分析圖像并生成描述該圖像的文本,而后第二個(gè)智能體獲取該文本并據(jù)此來(lái)模擬圖像。其中,后一個(gè)過(guò)程可以被認(rèn)為是一個(gè)具象化體現(xiàn)的過(guò)程。該研究認(rèn)為,如果第二個(gè)智能體模擬的圖像與第一個(gè)智能體接收到的輸入圖像相似(見(jiàn)圖 1),則通信成功。

在實(shí)驗(yàn)中,該研究使用現(xiàn)成的模型,特別是近期開(kāi)發(fā)的大規(guī)模預(yù)訓(xùn)練模型。例如,F(xiàn)lamingo 和 BLIP 是圖像描述模型,可以基于圖像自動(dòng)生成文本描述。同樣地,基于圖像 - 文本對(duì)所訓(xùn)練的圖像生成模型可以理解文本的深層語(yǔ)義并合成高質(zhì)量的圖像,例如 DALL-E 模型和潛在擴(kuò)散模型 (SD) 即為這種模型。

此外,該研究還利用 CLIP 模型來(lái)比較圖像或文本。CLIP 是一種視覺(jué)語(yǔ)言模型,可將圖像和文本對(duì)應(yīng)起來(lái)表現(xiàn)在共享的嵌入空間(embedding space)中。該研究使用手動(dòng)創(chuàng)建的圖像文本數(shù)據(jù)集,例如 COCO 和 NoCaps 來(lái)評(píng)估生成的文本的質(zhì)量。圖像和文本生成模型具有允許從分布中采樣的隨機(jī)分量,因而可以從一系列候選的文本和圖像中選擇最佳的。不同的采樣方法,包括核采樣,均可以被用于圖像描述模型,而本文采用核采樣作為基礎(chǔ)模型,以此來(lái)顯示本文所使用方法的優(yōu)越性。

方法概覽

本文框架由三個(gè)預(yù)訓(xùn)練的 SOTA 神經(jīng)網(wǎng)絡(luò)組成。第一,圖像 - 文本生成模型;第二,文本 - 圖像生成模型;第三,由圖像編碼器和文本編碼器組成的多模態(tài)表示模型,它可以將圖像或文本分別映射到其語(yǔ)義嵌入中。

54aabfce-8fdf-11ed-bfe3-dac502259ad0.png

通過(guò)文本描述的圖像重建

如圖 2 左半部分所示,圖像重建任務(wù)是使用語(yǔ)言作為指令重建源圖像,此過(guò)程的效果實(shí)現(xiàn)將促使描述源場(chǎng)景的最佳文本生成。首先,源圖像 x 被輸送到 BLIP 模型以生成多個(gè)候選文本 y_k。例如,一只小熊貓?jiān)跇?shù)林中吃樹(shù)葉。生成的文本候選集合用 C 表示,然后文本 y_k 被發(fā)送到 SD 模型以生成圖像 x’_k。這里 x’_k 是指基于小熊貓生成的圖像。隨后,使用 CLIP 圖像編碼器從源圖像和生成的圖像中提取語(yǔ)義特征:54eae806-8fdf-11ed-bfe3-dac502259ad0.png550395a4-8fdf-11ed-bfe3-dac502259ad0.png。

然后計(jì)算這兩個(gè)嵌入向量之間的余弦相似度,目的是找到候選的文本描述 y_s, 即

5514f268-8fdf-11ed-bfe3-dac502259ad0.png

其中 s 為最接近源圖像的圖像索引。

該研究使用 CIDEr(圖像描述度量指標(biāo))并參照人類(lèi)注解來(lái)評(píng)估最佳文本。由于對(duì)生成的文本質(zhì)量感興趣,該研究將 BLIP 模型設(shè)定為輸出長(zhǎng)度大致相同的文本。這樣就能保證進(jìn)行相對(duì)公平的比較,因?yàn)槲淖值拈L(zhǎng)度與可傳遞圖像中信息量的多少呈正相關(guān)。在這項(xiàng)工作中,所有模型都會(huì)被凍結(jié),不會(huì)進(jìn)行任何微調(diào)。

通過(guò)圖像實(shí)現(xiàn)文本重建

圖 2 中右側(cè)部分顯示了與上一節(jié)描述過(guò)程的相反過(guò)程。BLIP 模型需要在 SD 的引導(dǎo)下猜測(cè)源文本,SD 可以訪問(wèn)文本但只能以圖像的格式呈現(xiàn)其內(nèi)容。該過(guò)程始于使用 SD 為文本 y 生成候選圖像 x_k ,生成的候選圖像集用 K 來(lái)表示。使用 SD 生成圖像會(huì)涉及隨機(jī)采樣過(guò)程,其中每一次生成過(guò)程都可能會(huì)以在巨大的像素空間中得到不同的有效圖像樣本為終點(diǎn)。這種采樣多樣性會(huì)提供一個(gè)候選池來(lái)為篩選出最佳圖像。隨后,BLIP 模型為每個(gè)采樣圖像 x_k 生成一個(gè)文本描述 y’_k。這里 y’_k 指的是初始文本一只小熊貓?jiān)谏掷锱佬小H缓笤撗芯渴褂?CLIP 文本編碼器提取源文本和生成文本的特征,分別用552ad77c-8fdf-11ed-bfe3-dac502259ad0.png553954a0-8fdf-11ed-bfe3-dac502259ad0.png表示。此任務(wù)的目的是尋找匹配文本 y 語(yǔ)義的最佳候選圖像 x_s。為此,該研究需要比較生成文本和輸入文本之間的距離,然后選擇出配對(duì)文本距離最小的圖像,即

555003bc-8fdf-11ed-bfe3-dac502259ad0.png 該研究認(rèn)為圖像 x_s 可以最好地描繪出文本描述 y,因?yàn)樗梢砸宰钚〉男畔p失將內(nèi)容傳遞給接收者。此外,該研究將與文本 y 相對(duì)應(yīng)的圖像55665e32-8fdf-11ed-bfe3-dac502259ad0.png視為 y 的參考表示(reference presentation),并將最佳圖像量化為它與參考圖像的接近程度。實(shí)驗(yàn)結(jié)果圖 3 中的左側(cè)圖表顯示了兩個(gè)數(shù)據(jù)集上圖像重建質(zhì)量和描述文本質(zhì)量之間的相關(guān)性。對(duì)于每個(gè)給定圖像,重建圖像質(zhì)量(在 x 軸中顯示)越好,文本描述質(zhì)量(在 y 軸中顯示的)也越好。 圖 3 的右側(cè)圖表揭示了恢復(fù)的文本質(zhì)量和生成的圖像質(zhì)量之間的關(guān)系:對(duì)于每個(gè)給定的文本,重建的文本描述(顯示在 x 軸上)越好,圖像質(zhì)量(顯示在 y 軸上)就越好。

5575dda8-8fdf-11ed-bfe3-dac502259ad0.png

圖 4(a)和(b)顯示了圖像重建質(zhì)量和基于源圖像的平均文本質(zhì)量之間的關(guān)系。圖 4(c)和(d)顯示了文本距離(text distance)與重建圖像質(zhì)量之間的相關(guān)性。

5593723c-8fdf-11ed-bfe3-dac502259ad0.png

表 1 顯示出該研究的采樣方法在每個(gè)度量標(biāo)準(zhǔn)下都優(yōu)于核采樣,模型的相對(duì)增益可以高達(dá) 7.7%。

5662a50c-8fdf-11ed-bfe3-dac502259ad0.png

圖 5 顯示了兩個(gè)重建任務(wù)的定性示例。

56b81780-8fdf-11ed-bfe3-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4814

    瀏覽量

    103646
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1094

    瀏覽量

    41272
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3521

    瀏覽量

    50433

原文標(biāo)題:DALL-E和Flamingo能相互理解嗎?三個(gè)預(yù)訓(xùn)練SOTA神經(jīng)網(wǎng)絡(luò)統(tǒng)一圖像和文本

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何獲取 OpenAI API Key?API 獲取與代碼調(diào)用示例 (詳解教程)

    OpenAI API Key 獲取與使用詳解:從入門(mén)到精通 OpenAI 正以其 GPT 和 DALL-E 等先進(jìn)模型引領(lǐng)全球人工智能創(chuàng)新。其 API 為開(kāi)發(fā)者和企業(yè)提供了強(qiáng)大的 AI 能力集成途徑
    的頭像 發(fā)表于 05-04 11:42 ?2175次閱讀
    如何獲取 OpenAI API Key?API 獲取與代碼調(diào)用示例 (詳解教程)

    樹(shù)莓派 也搞 AI 藝術(shù)?樹(shù)莓派遇上DALL-E,開(kāi)啟你的 AI 藝術(shù)創(chuàng)作之旅!

    本教程將向你展示如何使用DALL-EAPI從你的RaspberryPi上生成隨機(jī)的AI藝術(shù)。近年來(lái),人工智能(AI)是一個(gè)取得了巨大飛躍的領(lǐng)域,這在很大程度上要?dú)w功于OpenAI等團(tuán)隊(duì)的努力。這些
    的頭像 發(fā)表于 03-25 09:29 ?276次閱讀
    樹(shù)莓派 也<b class='flag-5'>能</b>搞 AI 藝術(shù)?樹(shù)莓派遇上<b class='flag-5'>DALL-E</b>,開(kāi)啟你的 AI 藝術(shù)創(chuàng)作之旅!

    淺談?dòng)脩?hù)側(cè)儲(chǔ)能量管理解決方案研究

    隨著能源結(jié)構(gòu)的轉(zhuǎn)型和新能源的快速發(fā)展,儲(chǔ)技術(shù)在我國(guó)能源體系中的應(yīng)用日益廣泛。用戶(hù)側(cè)儲(chǔ)作為儲(chǔ)技術(shù)的一種,具有削峰填谷、需求響應(yīng)、提高新能源消納能力等功能,對(duì)于促進(jìn)能源消費(fèi)方式的變革和提升能源利用效率具有重要意義。本文針對(duì)用戶(hù)
    的頭像 發(fā)表于 03-18 14:00 ?464次閱讀
    淺談?dòng)脩?hù)側(cè)儲(chǔ)<b class='flag-5'>能</b>能量管<b class='flag-5'>理解</b>決方案研究

    中央空調(diào)系統(tǒng)效管理解決方案

    中央空調(diào)系統(tǒng)效管理解決方案
    的頭像 發(fā)表于 02-14 08:03 ?368次閱讀
    中央空調(diào)系統(tǒng)<b class='flag-5'>能</b>效管<b class='flag-5'>理解</b>決方案

    一文說(shuō)清楚什么是AI大模型

    DALL-E)、科學(xué)計(jì)算模型(如 AlphaFold)以及多模態(tài)模型。這些模型通過(guò)海量數(shù)據(jù)訓(xùn)練,展現(xiàn)出高度的泛用性。 比較有代表性的大語(yǔ)言模型(LLM)如: ? 模型 開(kāi)發(fā)方 特點(diǎn) GPT-4 OpenAI
    的頭像 發(fā)表于 01-02 09:53 ?1729次閱讀
    一文說(shuō)清楚什么是AI大模型

    離子束與材料的相互作用

    聚焦離子束(FIB)技術(shù)憑借其在微納米尺度加工和分析上的高精度和精細(xì)控制,已成為材料科學(xué)、納米技術(shù)和半導(dǎo)體工業(yè)等領(lǐng)域的關(guān)鍵技術(shù)。該技術(shù)通過(guò)精確操控具有特定能量的離子束與材料相互作用,引發(fā)一系列復(fù)雜
    的頭像 發(fā)表于 12-19 12:40 ?862次閱讀
    離子束與材料的<b class='flag-5'>相互</b>作用

    OpenAI推出AI視頻生成模型Sora

    近日,備受期待的OpenAI再次推出了其創(chuàng)新之作——AI視頻生成模型Sora。這一新品的發(fā)布,無(wú)疑為AI技術(shù)注入了新的活力。 據(jù)悉,Sora與OpenAI旗下的AI工具DALL-E有著異曲同工之妙
    的頭像 發(fā)表于 12-12 09:40 ?719次閱讀

    DAC8565和dac8555的管腳是pin對(duì)pin的,兩者直接相互替換嗎?

    你好,DAC8565和dac8555的管腳是pin對(duì)pin的,兩者直接相互替換嗎?如果不能,哪里需要注意呢?程序是否需要更改?
    發(fā)表于 11-22 07:20

    TAS6422E-Q1: 規(guī)格書(shū)中I2C地址時(shí)間問(wèn)題怎么理解

    TAS6422E-Q1 規(guī)格書(shū)中關(guān)于這個(gè)I2C地址的時(shí)間怎么理解?時(shí)間延遲300us,是在啥時(shí)候開(kāi)始延遲?
    發(fā)表于 10-09 08:27

    電源濾波器防止電子設(shè)備之間相互產(chǎn)生的干擾嗎?

    電源濾波器通過(guò)其獨(dú)特的濾波電路和工作原理,有效防止了電子設(shè)備之間的相互干擾。在醫(yī)療設(shè)備、通信設(shè)備、精密儀器等需要穩(wěn)定電源環(huán)境的電子設(shè)備中,電源濾波器不僅保證了設(shè)備的正常工作,還提高了設(shè)備的可靠性和穩(wěn)定性。
    的頭像 發(fā)表于 10-07 15:12 ?549次閱讀

    家用儲(chǔ)工商業(yè)儲(chǔ)能源智慧化管理解決方案

    戶(hù)用及工商業(yè)儲(chǔ)監(jiān)控是指對(duì)家庭用戶(hù)或工商業(yè)用戶(hù)中的儲(chǔ)系統(tǒng)進(jìn)行實(shí)時(shí)監(jiān)測(cè)、控制和管理的過(guò)程。儲(chǔ)系統(tǒng)通常由電池組、電池管理系統(tǒng)(BMS)、儲(chǔ)能變流器(PCS)、能量管理系統(tǒng)(EMS)以及消防系統(tǒng)等組成
    的頭像 發(fā)表于 09-24 14:30 ?930次閱讀
    家用儲(chǔ)<b class='flag-5'>能</b>工商業(yè)儲(chǔ)<b class='flag-5'>能</b>能源智慧化管<b class='flag-5'>理解</b>決方案

    膨體聚四氟乙烯e-PTFE透氣膜的IP防護(hù)等級(jí)要考濾哪些因素?

    領(lǐng)域的佼佼者。談及e-PTFE透氣膜的IP(IngressProtection)防護(hù)等級(jí),我們首先需要理解這兩個(gè)概念的基本含義及其相互關(guān)系。e-PTFE透氣膜的特
    的頭像 發(fā)表于 08-30 12:08 ?658次閱讀
    膨體聚四氟乙烯<b class='flag-5'>e</b>-PTFE透氣膜的IP防護(hù)等級(jí)要考濾哪些因素?

    數(shù)字量與模擬量的相互聯(lián)系與用途

    數(shù)字量與模擬量在電子、自動(dòng)化、通信等多個(gè)領(lǐng)域中都扮演著重要角色,它們之間既存在相互聯(lián)系,又各有其獨(dú)特的用途。以下是對(duì)兩者相互聯(lián)系與用途的介紹: 一、相互聯(lián)系 轉(zhuǎn)換關(guān)系 : 數(shù)字量與模擬量之間可以通過(guò)
    的頭像 發(fā)表于 08-30 09:20 ?1448次閱讀

    影響電感儲(chǔ)特性的因素

    電感的儲(chǔ)特性是電子學(xué)領(lǐng)域中一個(gè)極其重要的概念,它涉及到電流與磁場(chǎng)之間的相互作用,以及這種相互作用如何被用來(lái)儲(chǔ)存和釋放能量。以下將詳細(xì)介紹電感的儲(chǔ)特性,包括其基本原理、影響因素、應(yīng)用
    的頭像 發(fā)表于 08-28 14:37 ?2020次閱讀

    高效數(shù)據(jù)傳輸Modbus RTU轉(zhuǎn)Modbus TCP網(wǎng)關(guān)

    與Modbus網(wǎng)關(guān)的通信過(guò)程,我們得先了解什么是Modbus通信協(xié)議和InTouch系統(tǒng)到底是什么。 Modbus是一種串行通信協(xié)議,廣泛用于工業(yè)自動(dòng)化領(lǐng)域中的設(shè)備間通信,它可以通過(guò)定義請(qǐng)求和響應(yīng)信息的格式,以及通信流程,使得不同設(shè)備能夠相互理解和交互,支持多種物理層傳輸媒介,如串
    的頭像 發(fā)表于 08-02 14:24 ?919次閱讀
    高效數(shù)據(jù)傳輸Modbus RTU轉(zhuǎn)Modbus TCP網(wǎng)關(guān)