近日,和任天堂關(guān)系密切的日本網(wǎng)絡(luò)服務(wù)公司DeNA發(fā)布了一篇頗為有趣的文章:Full-body High-resolution Anime Generation with Progressive Structure-conditional Generative Adversarial Networks,即用PSGAN生成高分辨率的全身動畫。據(jù)了解,DeNA的業(yè)務(wù)涵蓋社交游戲、電子商務(wù)等領(lǐng)域,此前公司推出的手游《忍者天下》也在中國市場取得了驕人的成績。昔日忍者化身換裝暖暖,DeNA想用GAN做些什么呢?
以下是論智對文章的編譯。
摘要
本文提出了一種漸進結(jié)構(gòu)—條件生成對抗網(wǎng)絡(luò)(PSGAN),它是一個能基于姿態(tài)信息生成全身的高分辨率圖像的新框架。
近年來,許多人都研究過用深度生成模型自動生成圖像和視頻,這項技術(shù)對媒體創(chuàng)建工具來說很有幫助,它可以被用來進行圖片編輯、動畫制作甚至是電影制作。
就動漫產(chǎn)業(yè)角度看,一個能自動生成動畫角色的神經(jīng)網(wǎng)絡(luò)不僅能為創(chuàng)作者帶來諸多靈感,它還能為整個產(chǎn)業(yè)節(jié)省作畫上巨額開支?,F(xiàn)在我們已經(jīng)有了能生成人物臉部圖像的GAN,但還沒有能生成角色全身圖的工具。而且就這些生成臉部圖像的神經(jīng)網(wǎng)絡(luò)來說,它們的圖像質(zhì)量還達不到工業(yè)級作畫標準。
因此,開發(fā)一個既能生成全身圖像,又能生成高質(zhì)量姿態(tài)的GAN將對制作新角色、繪制新動漫大有裨益。但達成這個目標還有兩大難點:(1)生成高分辨率圖像;(2)用特定的姿態(tài)序列生成圖像。
為了解決上述問題,我們引入PSGAN,它能根據(jù)結(jié)構(gòu)信息,在訓(xùn)練過程中逐步提高生成圖像的分辨率,以此細化圖像在結(jié)構(gòu)上的細節(jié)特征,如生成對象的全身圖。同時,我們也在網(wǎng)絡(luò)上添加了任意的潛在變量和結(jié)構(gòu)條件,讓它能基于目標姿勢序列生成多樣化和可控制的動作視頻。
在這篇文章中,我們用實驗證明了PSGAN的有效性,如下文這個512x512的視頻所示,視頻中的動畫角色展示了PSGAN生成的人物服裝細節(jié)、身體姿態(tài)的整體調(diào)整。
生成結(jié)果預(yù)覽
視頻展示了由PSGAN生成的各種動漫角色和動畫。首先,我們用隨機潛在變量生成大量動畫角色;其次,我們再對具體的動漫角色進行潛在插值,以生成新的動畫角色;最后,我們用連續(xù)的姿勢序列制作出流暢的動畫。
換裝PLAY
PSGAN生成全新全身圖的主要方式是插入不同的服飾,這是利用改變潛在變量實現(xiàn)的。需要注意的一點是,換裝時人物的姿態(tài)是固定的。
舞動人“身”
下圖展示了指定動畫角色生成目標姿態(tài)的具體過程:
和生成服飾相反,這里我們固定潛在變量,并給PSGAN提供連續(xù)的姿勢序列。更具體地說,就是將指定動畫角色的表示映射到潛在變量內(nèi)——它處于潛在空間誒,是PSGAN的輸入向量——然后用這個新的潛在變量做PSGAN的輸入,以此做到在不改變外觀的前提下改變姿態(tài)。
漸進結(jié)構(gòu)的條件GAN
我們的主要想法是逐步學(xué)習(xí)具有結(jié)構(gòu)條件的圖像表示。我們參考了Karras等人提出的GAN的結(jié)構(gòu),并在生成器和判別器上都添加上結(jié)構(gòu)條件,這樣做之后,無論圖像分辨率是什么,它們都帶有相應(yīng)縮放比例的姿態(tài)信息。
PSGAN的生成器和判別器
如上圖所示,N×N的白色框表示的是NxN空間分辨率下正在工作的可學(xué)習(xí)卷積層,灰色框表示的則是結(jié)構(gòu)條件的不可學(xué)習(xí)的下采樣層。
訓(xùn)練數(shù)據(jù)
本文用到的數(shù)據(jù)集有Unity合成的原始頭像動漫角色數(shù)據(jù)集,以及由Openpose檢測到的關(guān)鍵點的DeepFashion數(shù)據(jù)集。PSGAN的訓(xùn)練要求是有成對的圖像和成對的關(guān)鍵點坐標。
Avatar Anime-Character數(shù)據(jù)集
我們按照以下3個要求為PSGAN重新構(gòu)建了新數(shù)據(jù)集:
姿態(tài)多樣性。為了生成平滑、自然地圖像,我們需要各式各樣的姿態(tài)。
訓(xùn)練圖像的數(shù)量。通過用Unity生成3D頭像,我們無需任何手動注釋就可以獲得大量帶注釋的合成圖像。
背景消除。我們把背景統(tǒng)一設(shè)置成白色,以避免不必要的信息對圖像產(chǎn)生負面干擾。
我們把單個角色的幾個連續(xù)動作分解成600個姿勢,并不捉每個姿勢的關(guān)鍵點。通過對79種服飾進行同樣的處理,我們最終獲得了47,400張圖像。此外,我們還根據(jù)3D模型的骨骼結(jié)構(gòu)獲得了20個關(guān)鍵點。
下圖是幾個訓(xùn)練樣本(上:動漫角色;下:姿態(tài)圖):
對于這個數(shù)據(jù)集,我們用Adam收斂網(wǎng)絡(luò),其中β1= 0,β2= 0.99。當生成器中的圖像分辨率為4x4—64x64時,學(xué)習(xí)率為0.001。隨著尺寸逐漸變?yōu)?28x128、256x256、512x512,學(xué)習(xí)率也逐漸降低為0.0008、0.0006和0.0002。
DeepFashion數(shù)據(jù)集
PSGAN利用姿態(tài)信息在圖像生成網(wǎng)絡(luò)上施加結(jié)構(gòu)條件。我們使用Openpose從沒有關(guān)鍵點注釋的圖像中提取關(guān)鍵點坐標。
同樣的,這里我們還是使用Adam,β1= 0,β2= 0.99,學(xué)習(xí)率α始終是0.0008。
不同GAN的比較
我們先來看看PSGAN在多樣性上的表現(xiàn)。如下圖所示,PSGAN為每個姿勢條件生成各種各樣的圖像。
接下來,我們再來看看PSGAN在生成姿態(tài)上的表現(xiàn)。在對照組中,PG2和DPG2需要同時輸入源圖像和相應(yīng)的目標姿態(tài)才能生成目標圖像,但PSGAN只需調(diào)整潛在變量就能使圖像具備目標結(jié)構(gòu),它所受到限制更少。
下圖對比了PG2、DPG2和PSGAN生成的姿態(tài)圖,其中前兩者所需的參考姿態(tài)圖沒有顯示出來。通過對比我們可以發(fā)現(xiàn),PSGAN生成的圖像和PG2、DPG2一樣自然合理,但又一定的瑕疵。由于這是通過調(diào)整潛在變量實現(xiàn)的,所以從理論上來說,如果變量調(diào)試得完美,PSGAN同樣能生成具有相同的質(zhì)量的姿態(tài)圖。
最后,我們還評估了PSGAN與Progressive GAN在結(jié)構(gòu)一致性上的表現(xiàn)。實驗結(jié)果顯示,無論是細節(jié)還是全局,PSGAN生成的圖像都更自然,而且它在結(jié)構(gòu)細節(jié)上的處理也更合理。
小結(jié)
本文展示了PSGAN在生成平滑、高分辨率動畫上的水平,也通過實驗證實它能基于512x512的目標姿勢序列生成動畫角色全身圖和相應(yīng)動畫。由于實驗條件有限,神經(jīng)網(wǎng)絡(luò)在一些方面還發(fā)揮欠佳,所以未來我們還會在更多條件下進行試驗和評估。
此外,經(jīng)處理的Avatar Anime-Character數(shù)據(jù)集即將開放。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103696 -
GaN
+關(guān)注
關(guān)注
19文章
2209瀏覽量
76849
原文標題:旋轉(zhuǎn)吧!換裝少女:一種可生成高分辨率全身動畫的GAN
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
高分辨率合成孔徑雷達圖像的直線特征多尺度提取方法
增強高分辨率圖像捕獲的選擇
如何設(shè)計高速高分辨率ADC電路?
超高分辨率圖像實時顯示系統(tǒng)設(shè)計
基于FPGA+PowerPC的高分辨率圖像實時壓縮系統(tǒng)的設(shè)計
高分辨率遙感圖像飛機目標檢測

YOLOv8版本升級支持小目標檢測與高分辨率圖像輸入

評論