99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

不會PS還想做圖?微軟、京東出黑科技:說一句話就能生成圖片!

DPVg_AI_era ? 來源:YXQ ? 2019-06-24 14:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

微軟和京東最近出了一個黑科技:說一句話就能生成圖片!在這項研究中,研究人員提出了一種新的機器學習框架——ObjGAN,可以通過關注文本描述中最相關的單詞和預先生成的語義布局(semantic layout)來合成顯著對象。

不會PS還想做圖?可以的!

近期,由紐約州立大學奧爾巴尼分校、微軟研究院和京東AI研究院合作的一篇文章就可以實現這個需求:只需要輸入一句話,就可以生成圖片!

輸入:

輸出:

在這項研究中,研究人員提出了一種新的機器學習框架——ObjGAN,可以通過關注文本描述中最相關的單詞和預先生成的語義布局(semantic layout)來合成顯著對象。

此外,他們還提出了一種新的基于Fast R-CNN的關于對象(object-wise)鑒別器,用來提供關于合成對象是否與文本描述和預先生成的布局匹配的對象識別信號。

論文地址:

https://www.microsoft.com/en-us/research/uploads/prod/2019/06/1902.10740.pdf

這項工作已經發(fā)表在計算機視覺和模式識別領域頂會CVPR 2019。

這篇論文的合著作者表示,與之前最先進的技術相比,他們的方法大大提高了圖像質量:

我們的生成器能夠利用細粒度的單詞和對象級(object-level)信息逐步細化合成圖像。

大量的實驗證明了ObjGAN在復雜場景的文本到圖像生成方面的有效性和泛化能力。

一句話秒生成圖片!

根據文本的描述來生成圖像,可以說是機器學習中一項非常重要的任務。

這項任務需要處理自然語言描述中模糊和不完整的信息,并且還需要跨視覺和語言模式來進行學習。

自從GAN提出后,這項任務在結果上取得了較好的成績,但是目前這些基于GAN的方法有一個缺點:

大多數圖像合成方法都是基于全局句子向量來合成圖像,而全局句子向量可能會丟失單詞級別(word-level)的重要細粒度信息,從而阻礙高質量圖像的生成。

大多數方法都沒有在圖像中明確地建模對象及其關系,因此難以生成復雜的場景。

圖1 頂部:AttnGAN及其網格注意力可視化;中部:修改前人工作的結果;底部:ObjGAN及其對象驅動的注意力可視化

舉個例子,如果要根據“幾個人穿滑雪服的人在雪地里”這句話生成一張圖片,那么需要對不同的對象(人、滑雪服)及其交互(穿滑雪服的人)進行建模,還需要填充缺失的信息(例如背景中的巖石)。

圖1的第一行是由AttnGAN生成的圖像,雖然圖像中包含了人和雪的紋理,但是人的形狀是扭曲的,圖像布局在語義上是沒有意義的。

為了解決這個問題,首先從文本構造語義布局,然后通過反卷積圖像生成器合成圖像。

從圖1的中間一行可知,雖然細粒度的word/objectlevel信息仍然沒有很好的用于生成。因此,合成的圖像沒有包含足夠的細節(jié)讓它們看起來更加真實。

本研究的目標就是生成具有語義意義(semantically meaningful)的布局和現實對象的高質量復雜圖像。

為此,研究人員提出了一種新穎的對象驅動的注意力生成對抗網絡(Object-driven Attentive Generative Adversarial Networks,Obj-GAN),該網絡能夠有效地捕獲和利用細粒度的word/objectlevel信息進行文本到圖像的合成。

ObjGAN由一對兒對象驅動的注意力圖像生成器和object-wise判別器組成,并采用了一種新的對象驅動注意機制。

圖2 對象驅動的注意力圖像生成器

圖3 Object-wise判別器

該圖像生成器以文本描述和預先生成的語義布局為輸入,通過多階段由粗到精的過程合成高分辨率圖像。

在每個階段,生成器通過關注與該邊界框中的對象最相關的單詞來合成邊界框內的圖像區(qū)域,如圖1的底部行所示。

更具體地說,它使用一個新的對象驅動的注意層,使用類標簽查詢句子中的單詞,形成一個單詞上下文向量,如圖4所示,然后根據類標簽和單詞上下文向量條件合成圖像區(qū)域。

圖4 對象驅動的注意力

Object-wise判別器會對每個邊界框進行檢查,確保生成的對象確實與預先生成的語義布局是匹配的。

同時,為了有效地計算所有邊界框的識別損失,object-wise判別器基于一個Fast-RNN,并且每個邊界框都有一個二院交叉熵損失。

實驗結果

研究人員在實驗過程中采用的數據集是COCO數據集。它包含80個對象類,其中每個圖像與對象注釋(即,邊界框和形狀)和5個文本描述相關聯(lián)。

在評價指標方面,研究人員采用 Inception score(IS)和Frechet Inception distance(FID) score作為定量評價指標。結果如下表所示:

表1

接下來,是采用不同方法生成圖像的結果與實際圖像的對比結果:

圖5 整體定性比較。所有圖像都是在不使用任何ground-truth的情況下生成的。

圖6 與P-AttnGAN w/ Lyt進行定性比較

圖7 與P-AttnGAN的定性比較。 每個方法的注意力圖顯示在生成的圖像旁邊。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關注

    關注

    4

    文章

    6686

    瀏覽量

    105771
  • 京東方
    +關注

    關注

    25

    文章

    1542

    瀏覽量

    61065

原文標題:CVPR 2019:微軟最新提出ObjGAN,輸入一句話秒生成圖片

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    一句話PPT“的榮耀YOYO,AI生產力有多強?

    釋放AI生產力,榮耀讓智能體告別發(fā)布會炫技
    的頭像 發(fā)表于 07-14 14:15 ?1005次閱讀
    “<b class='flag-5'>一句話</b>秒<b class='flag-5'>出</b>PPT“的榮耀YOYO,AI生產力有多強?

    CYW55513是否支持linux4.4?

    開始支持55513的驅動版本是Infineon Linux Wi-Fi驅動程序(FMAC)(v2024_1115) 但在發(fā)行說明中有一句話 從內核版本 4.14 到內核版本 6.1.97 的反向移植支持 說明backport是不支持4.4的,我想確認下是否有驅動能支持l
    發(fā)表于 06-05 07:26

    使用FX3 SDK發(fā)布源代碼是否違反許可?

    使用 FX3 SDK 發(fā)布源代碼是否違反許可? CYPRESS?EZ-USB? FX3 SDK1.3licenselicense.txt ”4. 專有權利; 到“您同意對源代碼保密?!?那里寫著一句話,所以我想問下以確定。
    發(fā)表于 05-08 06:54

    樹莓派遇上ChatGPT,魔法熱線就此誕生!

    派上,拿起聽筒、撥號,就能享受由AI驅動的對話,仿佛回到了傳統(tǒng)的電話時代。樹莓派負責語音識別、文本生成和語音播放,ChatGPT會記住通話中的每一句話。這意味著你
    的頭像 發(fā)表于 04-13 09:04 ?1651次閱讀
    樹莓派遇上ChatGPT,魔法熱線就此誕生!

    想讀ADS1248寄存器寫入的值,是否必須改變SPI工作模式?

    我在ADS1248手冊的53頁看到這樣的一句話,It is not possible to use the full-duplex nature of the SPI interface when
    發(fā)表于 01-09 07:45

    使用ADS1220設計款電路用來采集個電阻橋式傳感器,使用內部的2.048V基準作為基準電壓?

    請教個問題。我使用ADS1220設計款電路用來采集個電阻橋式傳感器。設計的時候我想使用內部的2.048V基準作為基準電壓,以下為電路。 但是我在看技術手冊的時候,有這么
    發(fā)表于 01-06 06:00

    福田汽車2025合作伙伴大會有哪些看點

    2024行將收官,各商用車企業(yè)的年會也將召開,日前商用汽車新聞傳媒收到福田汽車2025全球合作伙伴大會的邀請函,著實震驚,只因開頭第一句話:把不可能變成可能!
    的頭像 發(fā)表于 12-02 14:39 ?682次閱讀

    晶科能源N型TOPCon技術為什么能領跑行業(yè)

    晶科能源在N型TOPCon的領導者地位,用一句話形容就是:領先行業(yè)6個月!
    的頭像 發(fā)表于 11-21 11:08 ?798次閱讀
    晶科能源N型TOPCon技術為什么能領跑行業(yè)

    開關電源布線 一句話:要運行最穩(wěn)定、波形最漂亮、電磁兼容性最好

    開關電源在布線上最大的特點是拓撲引起的高頻(高壓)強電流與控制級的弱電信號交織在起,首先要保證強電流的存在不干擾電源內部的控制信號,其次要盡量減少對外部的干擾(EMC)。一句話:要運行最穩(wěn)定、波形
    的頭像 發(fā)表于 10-28 14:06 ?1848次閱讀
    開關電源布線 <b class='flag-5'>一句話</b>:要運行最穩(wěn)定、波形最漂亮、電磁兼容性最好

    求助,關于TLE2141的供電問題求解

    在TLE2141的DATASHEET中,在供電方面有一句話,Single or Split Supply . . . 4 V to 44 V,此句話不甚明確,雖然DATASHEET中有例子,可證明 此運放可5V單電源供電,我本人仍有疑問,40V單電源供電可否,請各位大拿
    發(fā)表于 09-09 06:46

    想把差分信號轉為單端信號,不是音頻信號,OPA365是否還可以使用呢?

    我想請教下,想把差分信號轉為單端信號(頻段在100-600KHz),不是音頻信號,這款芯片是否還可以使用呢?另:用TINA想仿真OPA365對于所需頻段差分信號得的放大效果是否滿足實用性,但是搭建不通??赡軇偵鲜?,玩不轉這款軟件。所以想取捷徑,問問諸位,我的第一句話可否回答
    發(fā)表于 08-27 06:33

    知網狀告AI搜索:搜到我家論文題目和摘要,你侵權了!

    創(chuàng)業(yè)團隊秘塔AI搜索,被知網給告了!足足28頁的侵權告知函,總結一句話就是:貴司的AI搜索,能搜到我家的學術文獻題錄及摘要數據,且沒經我司許可,嚴重侵權。
    的頭像 發(fā)表于 08-16 17:47 ?632次閱讀
    知網狀告AI搜索:搜到我家論文題目和摘要,你侵權了!

    如何設計RC去耦的R和C的值?

    如何設計RC去耦的R和C的值,最后一句話的意思是負載電流的變化決定R和C的值,能舉個例子怎么計算這個值嗎?
    發(fā)表于 08-14 07:47

    深入淺系列之代碼可讀性

    ”,這是對我最大的鼓勵。 、老生常談,到底啥是可讀性 一句話:見名知其義。有人好的代碼必然有清晰完整的注釋,我不否認;也有人代碼即注釋,是代碼簡潔之道的最高境界,我也不否認。但我
    的頭像 發(fā)表于 08-09 16:00 ?527次閱讀

    Elasticsearch Mapping類型修改

    ”,這是對我最大的鼓勵。 、老生常談,到底啥是可讀性 一句話:見名知其義。有人好的代碼必然有清晰完整的注釋,我不否認;也有人代碼即注釋,是代碼簡潔之道的最高境界,我也不否認。但我
    的頭像 發(fā)表于 08-09 16:00 ?273次閱讀