說到神經(jīng)網(wǎng)絡(luò),你第一個(gè)想到的什么,有不少人第一個(gè)想到的應(yīng)該是前段時(shí)間大火的換臉 APP“ZAO”,神經(jīng)網(wǎng)絡(luò)在圖片領(lǐng)域堪稱“魔法”的應(yīng)用第一次展現(xiàn)在每一個(gè)普通用戶面前。
不少用戶在使用過ZAO后,對(duì)神經(jīng)網(wǎng)絡(luò)產(chǎn)生了“技術(shù)恐懼”,擔(dān)心ZAO會(huì)對(duì)自己的肖像權(quán)產(chǎn)生侵害,ZAO也因?yàn)榉N種原因迅速下架,成為技術(shù)應(yīng)用的“負(fù)面典型”。
但神經(jīng)網(wǎng)絡(luò)還有另一種用法,那就是對(duì)圖像進(jìn)行增強(qiáng)。
神經(jīng)網(wǎng)絡(luò)翻新老電影
最近,國外一個(gè)YouTuber發(fā)布了通過神經(jīng)網(wǎng)絡(luò)增強(qiáng)的1895年拍攝的紀(jì)錄片《火車進(jìn)站》,整部電影只有45秒長度,由路易·盧米埃和奧古斯特·盧米埃拍攝于法國一沿海城市。
傳說放映到火車駛向鏡頭的時(shí)候,大量觀眾驚恐的從劇院跑出,展現(xiàn)了當(dāng)時(shí)人們對(duì)新技術(shù)的好奇和恐懼。當(dāng)然,這些往事都已經(jīng)成為了都市傳說。
不過由“新技術(shù)”的神經(jīng)網(wǎng)絡(luò)對(duì)這部電影進(jìn)行翻新,也有著深遠(yuǎn)的意義。
1895年拍攝的《火車進(jìn)站》采用35mm格式膠片制作,由于當(dāng)時(shí)的放映機(jī)由手搖進(jìn)行驅(qū)動(dòng),我們可以粗略的認(rèn)為其原始幀率在16幀到24幀之間。
由于當(dāng)時(shí)的膠片技術(shù)尚未成熟,我們可以看到畫面景物都是比較模糊的,火車在駛來的同時(shí)還帶有明顯的拖影。
但經(jīng)過了神經(jīng)網(wǎng)絡(luò)的畫面分辨率增強(qiáng)和插幀之后,這部老電影獲得了4K ~ 60fps的畫質(zhì)。如果不是電影黑白的畫面和膠片電影獨(dú)有的畫面抖動(dòng),畫面流暢度和清晰度幾乎可以與現(xiàn)在的智能手機(jī)相媲美。
是什么讓神經(jīng)網(wǎng)絡(luò)在圖像增強(qiáng)和插幀上有著這樣的效果呢?
我們知道,數(shù)字視頻的清晰度一般由分辨率和幀率決定(暫且不考慮影響圖像壓縮質(zhì)量的碼率)。神經(jīng)網(wǎng)絡(luò)對(duì)視頻的增強(qiáng),也主要集中在這兩種參數(shù)上。
分辨率增強(qiáng)
首先我們來談?wù)劮直媛试鰪?qiáng),想要將一張低分辨率的圖片變成高分辨率的圖片,我們就需要猜測(cè)放大產(chǎn)生的未知像素。通常情況下,我們會(huì)采用某種插值算法進(jìn)行計(jì)算,在圖像邊緣的模糊和鋸齒間獲得平衡,這種計(jì)算通常無法增加圖像細(xì)節(jié),即使放大了圖像,依舊顯得很模糊。
神經(jīng)網(wǎng)絡(luò)在增強(qiáng)分辨率上就有著獨(dú)到的優(yōu)勢(shì),或許你之前曾經(jīng)聽說過一個(gè)軟件waifu2x ,動(dòng)漫愛好者們經(jīng)常用它來放大動(dòng)漫插圖。當(dāng)然,它同樣可以用作照片放大。
waifu2x的核心方法就是通過機(jī)器學(xué)習(xí),訓(xùn)練一個(gè)端到端的網(wǎng)絡(luò),使用低分辨率的圖像作為輸入得到對(duì)應(yīng)的高分辨率結(jié)果圖像,最后得到的結(jié)果在圖像的鋸齒與模糊程度有較好表現(xiàn),其訓(xùn)練的原理類似于FCN模型。
在效果上,waifu2x的SRCNN(超分辨率卷積神經(jīng)網(wǎng)絡(luò))要好于傳統(tǒng)的雙三次插值算法。
當(dāng)然,waifu2x的算法僅能在靜態(tài)圖片上使用。不過方法都是相同的,madvr 中放大視頻分辨率的ngu算法也是類似的原理。
視頻插幀
對(duì)于視頻插幀來說,神經(jīng)網(wǎng)絡(luò)也有自己的用武之地,之前英偉達(dá)發(fā)布了一個(gè)叫做Super SloMo的神經(jīng)網(wǎng)絡(luò),能通過聯(lián)合建模的運(yùn)動(dòng)解釋和遮擋推理配合光流算法生成中間幀。
這種技術(shù)能將原本30幀的視頻放慢到240幀,并在其中添加畫面的運(yùn)動(dòng)細(xì)節(jié)。
華為Mate 30 Pro的7680幀慢動(dòng)作,也是通過神經(jīng)網(wǎng)絡(luò)對(duì)1080P/960fps 的視頻插幀生成的??梢婎愃频纳窠?jīng)網(wǎng)絡(luò)插幀算法確實(shí)有很高的使用價(jià)值。
寫在最后:技術(shù)是一把雙刃劍
可以看到,神經(jīng)網(wǎng)絡(luò)對(duì)圖像的處理(也就是常說的AI圖像)并不是一個(gè)很可怕技術(shù),它是一把雙刃劍,如果你用它來給視頻換臉,侵犯他人肖像權(quán),它就是不好的技術(shù)。
但如果我們能將其用在老電影翻新、手機(jī)超級(jí)慢動(dòng)作、和實(shí)時(shí)視頻增強(qiáng),那它就是好技術(shù)。
或許那位翻新《火車進(jìn)站》的YouTuber,也正是想用這部電影的傳奇故事告訴我們,“不要恐懼新技術(shù)的到來?!?/p>
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103622 -
圖像
+關(guān)注
關(guān)注
2文章
1094瀏覽量
41263
發(fā)布評(píng)論請(qǐng)先 登錄
BP神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的比較
BP神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點(diǎn)分析
什么是BP神經(jīng)網(wǎng)絡(luò)的反向傳播算法
BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系
BP神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別中的應(yīng)用
一文詳解物理信息神經(jīng)網(wǎng)絡(luò)

使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像分類的步驟
卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的比較
深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)模型
卷積神經(jīng)網(wǎng)絡(luò)的基本原理與算法
RNN模型與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的區(qū)別
LSTM神經(jīng)網(wǎng)絡(luò)在圖像處理中的應(yīng)用
LSTM神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)與工作機(jī)制
基于差分卷積神經(jīng)網(wǎng)絡(luò)的低照度車牌圖像增強(qiáng)網(wǎng)絡(luò)

評(píng)論