背景
坊間傳聞,當(dāng)您在房間里走動時,蒙娜麗莎的眼睛會一直盯著您。
這就是所謂的“蒙娜麗莎效應(yīng)”。興趣使然,我最近就編寫了一個可互動的數(shù)字肖像,通過瀏覽器和攝像頭將這一傳說變成現(xiàn)實。
這個項目的核心是利用 TensorFlow.js、深度學(xué)習(xí)和一些圖像處理技術(shù)??傮w思路如下:首先,我們必須為蒙娜麗莎的頭部以及從左向右注視的眼睛生成一系列圖像。從這個動作池中,我們根據(jù)觀看者的實時位置連續(xù)選擇并顯示單個幀。
TensorFlow.js
https://tensorflow.google.cn/js
接下來,我將從技術(shù)層面詳細(xì)介紹該項目的設(shè)計和實現(xiàn)過程:
通過深度學(xué)習(xí)為蒙娜麗莎添加動畫效果
圖像動畫是一種調(diào)整靜止圖像的技術(shù)。使用基于深度學(xué)習(xí)的方式,我可以生成極其生動的蒙娜麗莎注視動畫。
具體來說,我使用了 Aliaksandr Siarohin 等人在 2019 年發(fā)布的一階運(yùn)動模型 (First Order Motion Model, FOMM)。直觀地講,此方法由兩個模塊構(gòu)成:一個模塊用于提取運(yùn)動,另一個模塊用于生成圖像。運(yùn)動模塊從攝像頭記錄的視頻中檢測關(guān)鍵點(diǎn)并進(jìn)行局部仿射變換 (Affine Transformation)。然后,將在相鄰幀之間這些關(guān)鍵點(diǎn)的值的差值作為預(yù)測密集運(yùn)動場的網(wǎng)絡(luò)的輸入,并且用作遮擋掩模 (Occlusion Mask),遮擋掩??梢灾付ɑ蚋鶕?jù)上下文推斷需要修改的圖像區(qū)域。之后,圖像生成網(wǎng)絡(luò)會檢測面部特征,并生成最終輸出,即根據(jù)運(yùn)動模塊結(jié)果重繪源圖像。
一階運(yùn)動模型
http://papers.nips.cc/paper/8935-first-order-motion-model-for-image-animation.pdf
我之所以選擇 FOMM 是因為它易于使用。此領(lǐng)域以前使用的模型都“針對特定目標(biāo)”:需要提供詳細(xì)的特定目標(biāo)數(shù)據(jù)才能添加動畫效果,而 FOMM 則不需要知道這些數(shù)據(jù)。更為重要的是,這些作者發(fā)布了開箱即用的開源實現(xiàn),其中包含預(yù)先訓(xùn)練的面部動畫權(quán)重。因此,將該模型應(yīng)用到蒙娜麗莎的圖像上就變得十分簡單:我只需將倉庫克隆到 Colab Notebook,生成一段我眼睛四處觀看的簡短視頻,并將其與蒙娜麗莎頭部的屏幕截圖一起傳進(jìn)模型。得到的影片超級棒。我最終僅使用了 33 張圖片就完成了最終的動畫的制作。
源視頻和 FOMM 生成的圖像動畫預(yù)測示例
使用 FOMM 生成的幀示例
圖像融合
雖然我可以根據(jù)自己的目的重新訓(xùn)練該模型,但我決定保留 Siarohin 得到的權(quán)重,以免浪費(fèi)時間和計算資源。但是,這意味著得到的幀的分辨率較低,且輸出僅有主體的頭部。介于我希望最終圖像包含整個蒙娜麗莎,即包括手部、軀干和背景,我選擇將生成的頭部動畫疊加到油畫圖像上。
頭部幀疊加到基礎(chǔ)圖像上的示例:為了說明問題,此處顯示的版本來自項目的早期迭代,其中頭部幀存在嚴(yán)重的分辨率損失
然而,這帶來了一系列難題。查看上述示例時,您會發(fā)現(xiàn),模型輸出的分辨率較低(由于經(jīng)過了 FOMM 的扭曲程序,背景附帶有一些細(xì)微的更改),從而導(dǎo)致頭部幀在視覺上有突出的效果。換句話說,很明顯這是一張照片疊加在另一張照片上面。為了解決這個問題,我使用 Python 對圖像進(jìn)行了一些處理,將頭部圖像“融合”到基礎(chǔ)圖像中。
首先,我將頭部幀重新 resize 到其原始分辨率。然后,我構(gòu)造一個新的幀,該幀的每個像素值由原圖像素和模型輸出的像素求均值后加權(quán) (alpha) 求得,離頭部中心越遠(yuǎn)的像素權(quán)值越低。
用于確定 alpha 的函數(shù)改編自二維 sigmoid,其表達(dá)式為:
其中,j 確定邏輯函數(shù)的斜率,k 為拐點(diǎn),m 為輸入值的中點(diǎn)。以下是函數(shù)的圖形表示:
我將上述過程應(yīng)用到動畫集中的所有 33 個幀之后,得到的每個合成幀都會讓人深信不疑這就是一個圖像:
通過 BlazeFace 跟蹤觀看者的頭部
此時,剩下的工作就是確定如何通過攝像頭來跟蹤用戶并顯示相應(yīng)的幀。
當(dāng)然,我選擇了 TensorFlow.js 來完成此工作。這個庫提供了一組十分可靠的模型,用于檢測人體,經(jīng)過一番研究和思考后,我選擇了 BlazeFace。
BlazeFace
https://github.com/tensorflow/tfjs-models/tree/master/blazeface
BlazeFace 是基于深度學(xué)習(xí)的目標(biāo)識別模型,可以檢測人臉和面部特征。它經(jīng)過專門訓(xùn)練,可以使用移動相機(jī)輸入。它特別適合我的這個項目,因為我預(yù)計大部分觀看者都會以類似方式(即頭部位于框內(nèi)、正面拍攝以及非常貼近相機(jī))使用攝像頭,無論是使用移動設(shè)備還是筆記本電腦。
但是,在選擇此模型時,我最先考慮到的是它異常快的檢測速度。為了讓這一項目有意義,我必須能夠?qū)崟r運(yùn)行整個動畫,包括面部識別步驟。BlazeFace 采用 Single-Shot 檢測 (SSD) 模型,這是一種基于深度學(xué)習(xí)的目標(biāo)檢測算法,在網(wǎng)絡(luò)的一次正向傳遞中可以同時移動邊界框并檢測目標(biāo)。BlazeFace 的輕量檢測器能夠以每秒 200 幀的速度識別面部特征。
BlazeFace 在給定輸入圖像時的捕獲內(nèi)容演示:包圍人體頭部以及面部特征的邊界框
選定模型后,我持續(xù)將用戶的攝像頭數(shù)據(jù)輸入 BlazeFace 中。每次運(yùn)行后,模型都會輸出一個含有面部特征及其相應(yīng)二維坐標(biāo)位置的數(shù)組。借助此數(shù)組,我計算兩只眼睛之間的中點(diǎn),從而粗略估算出面部中心的 X 坐標(biāo)。
最后,我將此結(jié)果映射到介于 0 與 32 之間的某個整數(shù)。您可能還記得,其中的每一個值分別表示動畫序列中的一個幀,0 表示蒙娜麗莎的眼睛看向左側(cè),32 表示她的眼睛看向右側(cè)。之后,就是在屏幕上顯示結(jié)果了。
責(zé)任編輯:lq
-
模塊
+關(guān)注
關(guān)注
7文章
2788瀏覽量
50412 -
圖像處理
+關(guān)注
關(guān)注
27文章
1329瀏覽量
58069 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5561瀏覽量
122800
原文標(biāo)題:“來自蒙娜麗莎的凝視”— 結(jié)合 TensorFlow.js 和深度學(xué)習(xí)實現(xiàn)
文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
通過易于使用的相機(jī)模組快速為應(yīng)用添加機(jī)器視覺

如何通過SFL為設(shè)備添加Flash編程支持

深度學(xué)習(xí)賦能:正面吊車載箱號識別系統(tǒng)的核心技術(shù)
軍事應(yīng)用中深度學(xué)習(xí)的挑戰(zhàn)與機(jī)遇
BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系
NPU在深度學(xué)習(xí)中的應(yīng)用
pcie在深度學(xué)習(xí)中的應(yīng)用
GPU深度學(xué)習(xí)應(yīng)用案例
激光雷達(dá)技術(shù)的基于深度學(xué)習(xí)的進(jìn)步
FPGA加速深度學(xué)習(xí)模型的案例
AI大模型與深度學(xué)習(xí)的關(guān)系
AI深度噪音抑制技術(shù)

評論