人人操人人青青草91,在线观看不卡a视频v网站

微軟和京東最近出了一個黑科技：說一句話就能生成圖片！在這項研究中，研究人員提出了一種新的機器學習框架——ObjGAN，可以通過關注文本描述中最相關的單詞和預先生成的語義布局（semantic layout）來合成顯著對象。

不會PS還想做圖？可以的！

近期，由紐約州立大學奧爾巴尼分校、微軟研究院和京東AI研究院合作的一篇文章就可以實現這個需求：只需要輸入一句話，就可以生成圖片！

輸入：

輸出：

在這項研究中，研究人員提出了一種新的機器學習框架——ObjGAN，可以通過關注文本描述中最相關的單詞和預先生成的語義布局（semantic layout）來合成顯著對象。

此外，他們還提出了一種新的基于Fast R-CNN的關于對象（object-wise）鑒別器，用來提供關于合成對象是否與文本描述和預先生成的布局匹配的對象識別信號。

論文地址：

https://www.microsoft.com/en-us/research/uploads/prod/2019/06/1902.10740.pdf

這項工作已經發(fā)表在計算機視覺和模式識別領域頂會CVPR 2019。

這篇論文的合著作者表示，與之前最先進的技術相比，他們的方法大大提高了圖像質量：

我們的生成器能夠利用細粒度的單詞和對象級（object-level）信息逐步細化合成圖像。

大量的實驗證明了ObjGAN在復雜場景的文本到圖像生成方面的有效性和泛化能力。

一句話秒生成圖片！

根據文本的描述來生成圖像，可以說是機器學習中一項非常重要的任務。

這項任務需要處理自然語言描述中模糊和不完整的信息，并且還需要跨視覺和語言模式來進行學習。

自從GAN提出后，這項任務在結果上取得了較好的成績，但是目前這些基于GAN的方法有一個缺點：

大多數圖像合成方法都是基于全局句子向量來合成圖像，而全局句子向量可能會丟失單詞級別（word-level）的重要細粒度信息，從而阻礙高質量圖像的生成。

大多數方法都沒有在圖像中明確地建模對象及其關系，因此難以生成復雜的場景。

圖1 頂部：AttnGAN及其網格注意力可視化；中部：修改前人工作的結果；底部：ObjGAN及其對象驅動的注意力可視化

舉個例子，如果要根據“幾個人穿滑雪服的人在雪地里”這句話生成一張圖片，那么需要對不同的對象（人、滑雪服）及其交互（穿滑雪服的人）進行建模，還需要填充缺失的信息（例如背景中的巖石）。

圖1的第一行是由AttnGAN生成的圖像，雖然圖像中包含了人和雪的紋理，但是人的形狀是扭曲的，圖像布局在語義上是沒有意義的。

為了解決這個問題，首先從文本構造語義布局，然后通過反卷積圖像生成器合成圖像。

從圖1的中間一行可知，雖然細粒度的word/objectlevel信息仍然沒有很好的用于生成。因此，合成的圖像沒有包含足夠的細節(jié)讓它們看起來更加真實。

本研究的目標就是生成具有語義意義（semantically meaningful）的布局和現實對象的高質量復雜圖像。

為此，研究人員提出了一種新穎的對象驅動的注意力生成對抗網絡（Object-driven Attentive Generative Adversarial Networks，Obj-GAN），該網絡能夠有效地捕獲和利用細粒度的word/objectlevel信息進行文本到圖像的合成。

ObjGAN由一對兒對象驅動的注意力圖像生成器和object-wise判別器組成，并采用了一種新的對象驅動注意機制。

圖2 對象驅動的注意力圖像生成器

圖3 Object-wise判別器

該圖像生成器以文本描述和預先生成的語義布局為輸入，通過多階段由粗到精的過程合成高分辨率圖像。

在每個階段，生成器通過關注與該邊界框中的對象最相關的單詞來合成邊界框內的圖像區(qū)域，如圖1的底部行所示。

更具體地說，它使用一個新的對象驅動的注意層，使用類標簽查詢句子中的單詞，形成一個單詞上下文向量，如圖4所示，然后根據類標簽和單詞上下文向量條件合成圖像區(qū)域。

圖4 對象驅動的注意力

Object-wise判別器會對每個邊界框進行檢查，確保生成的對象確實與預先生成的語義布局是匹配的。

同時，為了有效地計算所有邊界框的識別損失，object-wise判別器基于一個Fast-RNN，并且每個邊界框都有一個二院交叉熵損失。

實驗結果

研究人員在實驗過程中采用的數據集是COCO數據集。它包含80個對象類，其中每個圖像與對象注釋（即，邊界框和形狀）和5個文本描述相關聯(lián)。

在評價指標方面，研究人員采用 Inception score（IS）和Frechet Inception distance（FID） score作為定量評價指標。結果如下表所示：

表1

接下來，是采用不同方法生成圖像的結果與實際圖像的對比結果：

圖5 整體定性比較。所有圖像都是在不使用任何ground-truth的情況下生成的。

圖6 與P-AttnGAN w/ Lyt進行定性比較

圖7 與P-AttnGAN的定性比較。每個方法的注意力圖顯示在生成的圖像旁邊。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

微軟

微軟

+關注

關注
4

文章
6686

瀏覽量
105771
京東方

京東方

+關注

關注
25

文章
1542

瀏覽量
61065

原文標題：CVPR 2019：微軟最新提出ObjGAN，輸入一句話秒生成圖片

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉載請注明出處。

99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

搜索歷史

不會PS還想做圖?微軟、京東出黑科技:說一句話就能生成圖片!

評論