欧美久久呦自慰网站,caoprncom

人工智能合成的3D物體模型不夠逼真？谷歌團(tuán)隊(duì)最近開發(fā)了一個(gè)AI系統(tǒng)——視覺(jué)對(duì)象網(wǎng)絡(luò)（VON），不僅生成的圖像比當(dāng)前最先進(jìn)的方法還要逼真，而且還可以做一系列3D操作。

合成現(xiàn)實(shí)3D物體模型的人工智能，看上去并沒(méi)有那么遙不可及。

在2018年蒙特利爾NeurIPS大會(huì)上，麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室（MIT CSAIL）和谷歌的研究人員發(fā)表了一篇論文，描述了一個(gè)能夠生成具有逼真紋理的人工智能系統(tǒng)。

論文名稱：

Visual Object Networks: Image Generation with Disentangled 3D Representation

論文地址：

https://papers.nips.cc/paper/7297-visual-object-networks-image-generation-with-disentangled-3d-representations.pdf

人工智能系統(tǒng)VON，生成最逼真3D圖像

該人工智能系統(tǒng)——視覺(jué)對(duì)象網(wǎng)絡(luò)（Visual Object Networks，VON），不僅生成的圖像比當(dāng)前最先進(jìn)的方法還要逼真，還可以進(jìn)行形狀和紋理編輯、視角轉(zhuǎn)換以及其它3D調(diào)整。

研究人員寫到：“現(xiàn)代深層生成模型學(xué)會(huì)了合成較為逼真的圖像。大多數(shù)計(jì)算模型只專注于生成2D圖像，忽略了世界是3D的本質(zhì)。這種2D視角不可避免地限制了它們?cè)谠S多領(lǐng)域的實(shí)際應(yīng)用，比如合成數(shù)據(jù)生成、機(jī)器人學(xué)習(xí)、視覺(jué)現(xiàn)實(shí)和游戲行業(yè)。”

VON通過(guò)聯(lián)合合成三維形狀和二維圖像來(lái)解決這個(gè)問(wèn)題，研究人員將其稱為“disentangled object representation”。圖像生成模型被分解為形狀、視點(diǎn)和紋理三個(gè)要素，在計(jì)算“2.5D”草圖和添加紋理之前，首先學(xué)習(xí)三維形狀的合成。

重要的是，因?yàn)檫@三個(gè)要素是條件獨(dú)立的，模型不需要在二維和三維形狀之間配對(duì)數(shù)據(jù)。這使得該團(tuán)隊(duì)能夠?qū)ΧS圖像和三維形狀的大規(guī)模集合進(jìn)行訓(xùn)練，比如Pix3D、谷歌圖像搜索和ShapeNet，后者包含了55個(gè)對(duì)象類別的數(shù)千個(gè)CAD模型。

為了讓VON學(xué)習(xí)如何生成自己的形狀，該團(tuán)隊(duì)訓(xùn)練了一個(gè)生成對(duì)抗網(wǎng)絡(luò)（GAN），試圖在上述三維形狀數(shù)據(jù)集上區(qū)分生成樣本和真實(shí)樣本。紋理生成被“降級(jí)”到另一個(gè)基于GAN的神經(jīng)網(wǎng)絡(luò)。

經(jīng)過(guò)大約兩到三天的訓(xùn)練，人工智能系統(tǒng)產(chǎn)生了逼真的128×128×128模型，具有真實(shí)的反射率、環(huán)境照度和反照率。

為了評(píng)估圖像生成模型，團(tuán)隊(duì)計(jì)算了用于生成三維模型的Fréchet初始距離。此外，他們還向亞馬遜的Mechanical Turk上展示了200對(duì)由VON和最先進(jìn)的模型生成的圖像，被試者的任務(wù)是在每對(duì)圖像中選擇更加真實(shí)的結(jié)果。

VON的性能表現(xiàn)非常突出。與其它AI模型相比，它的Fréchet初始距離最低。Mechanical Turk被試者更喜歡VON生成的圖像，比例高達(dá)74%至85%。

研究人員將專注于更加精細(xì)化的建模，以更高的分辨率生成形狀和圖像，將紋理分解為光照和外觀，并合成自然場(chǎng)景。

研究團(tuán)隊(duì)寫道：“我們的關(guān)鍵思想是將圖像生成過(guò)程分解為三個(gè)要素：形狀、視角和紋理，這種分離的3D表示方式使我們能夠在對(duì)抗學(xué)習(xí)框架下從3D和2D視覺(jué)數(shù)據(jù)收集中學(xué)習(xí)模型。與現(xiàn)有的2D生成模型相比，我們的模型合成的圖像更加逼真；它還允許3D操作，這用以前的2D方法是無(wú)法實(shí)現(xiàn)的?！?/p>

突飛猛進(jìn)的GAN

近年來(lái)，對(duì)GAN的研究突飛猛進(jìn)，尤其是在機(jī)器視覺(jué)領(lǐng)域：

Google旗下的DeepMind去年10月推出了一個(gè)基于GAN的系統(tǒng)，可以創(chuàng)建非常逼真的食物、風(fēng)景、動(dòng)物等照片；

今年9月，英偉達(dá)的研究人員開發(fā)了一種AI模型，可以對(duì)腦癌進(jìn)行合成掃描；

今年8月，卡內(nèi)基梅隆大學(xué)（Carnegie Mellon）的一個(gè)研究小組展示了如何利用人工智能將一個(gè)人錄制下來(lái)的動(dòng)作和面部表情在轉(zhuǎn)移到另一張照片或視頻中的目標(biāo)對(duì)象；

最近，愛(ài)丁堡大學(xué)感知研究所和天文學(xué)研究所的科學(xué)家設(shè)計(jì)了一種可以產(chǎn)生高分辨率的星系圖像。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴