99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用一張圖像合成動圖,讓蒙娜麗莎開口說話

電子工程師 ? 來源:YXQ ? 2019-05-27 13:58 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

蒙娜麗莎開口說話你見過嗎?這位神秘的畫中人也能做出各種 gif 表情?來自三星莫斯科 AI 中心和 Skolkovo 科學技術(shù)研究所的研究人員創(chuàng)建了一個模型,利用這個模型可以從一張圖像中生成人物頭像的動圖,而且是開口說話的動圖。而且,這一模型沒有采用 3D 建模等傳統(tǒng)方法。

開口說話的蒙娜麗莎好像看著沒那么高冷。

除了蒙娜麗莎,研究人員還生成了風情萬種的瑪麗蓮·夢露。

他們生成的名人頭部動畫包括瑪麗蓮·夢露、愛因斯坦、蒙娜麗莎以及 Wu Tang Clan 的 RZA 等。

近年來出現(xiàn)了很多利用 AI 模擬人臉的研究。2018 年,華盛頓大學的研究人員分享了他們創(chuàng)建的 ObamaNet,它是一種基于 Pix2Pix 的唇語口型模型,以美國前總統(tǒng)奧巴馬的視頻進行訓練。去年秋天,加州大學伯克利分校的研究人員開發(fā)出一個模型,使用 YouTube 視頻來訓練 AI 數(shù)據(jù)集,生成的人物可以做跳舞或后空翻等雜技動作。

為了創(chuàng)建個性化模型,上面這些研究需要在大量個人數(shù)據(jù)上進行訓練。但是,在許多實際場景中,我們需要從個人的少量甚至是一張圖像中學習。因此在這項研究中,三星和 Skolkovo 研究所的研究人員只用少量甚至一張圖像或畫作就合成了人物開口說話狀態(tài)的頭部動畫。

研究人員利用了 Few-shot learning 等技術(shù),主要合成頭部圖像和面部 landmark,可應(yīng)用于電子游戲、視頻會議或者三星 Galaxy S10 上現(xiàn)在可用的數(shù)字替身(digital avatar)。這種虛擬現(xiàn)實項目的數(shù)字替身技術(shù)可用于創(chuàng)建 deepfake 圖像和視頻。

Few-shot 學習意味著該模型在僅使用幾幅甚至一幅圖像的情況下模擬人臉。研究人員使用 VoxCeleb2 視頻數(shù)據(jù)集進行元訓練(meta trainning)。在元學習過程中,系統(tǒng)創(chuàng)建了三種神經(jīng)網(wǎng)絡(luò):將幀映射到向量的嵌入器網(wǎng)絡(luò)、在合成視頻中映射面部特征點的生成器網(wǎng)絡(luò)以及評估生成圖像真實性和姿態(tài)的判別器網(wǎng)絡(luò)。

聯(lián)合三種網(wǎng)絡(luò),該系統(tǒng)能在大型視頻數(shù)據(jù)集上執(zhí)行長時間的元學習過程。待元學習收斂后,就能構(gòu)建 few-shot 或 one-shot 的神經(jīng)頭像特寫模型。該模型將未見過的目標任務(wù)視為對抗學習問題,這樣就能利用已學習的高質(zhì)量生成器與判別器。

論文作者表示:「至關(guān)重要的一點是,盡管需要調(diào)整數(shù)千萬參數(shù),該系統(tǒng)能夠因人而異地初始化生成器和判別器參數(shù),因此訓練可以在僅借助幾幅圖像的情況下快速完成。這種方法能夠快速學習新面孔甚至是人物肖像畫和個性化的頭像特寫模型?!?/p>

該論文已被 2019 CVPR 會議接收,本屆會議將于六月份在加利福尼亞州的長灘舉行。

新穎的對抗學習架構(gòu)

在這項研究中,研究者提出了一種新系統(tǒng),可以只使用少量圖像(即Few shot learning)和有限的訓練時間,構(gòu)建「頭像特寫」模型。實際上,研究者的模型可以基于單張圖像(one-shot learning)生成合理的結(jié)果,而且在添加少量新樣本后,模型能生成保真度更高的個性化圖像。

與很多同類工作相同,研究者的模型使用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建頭像特性,它通過一個序列的卷積運算直接合成視頻幀,而不是通過變形(warping)。研究者模型創(chuàng)建的頭像特寫可以實現(xiàn)大量不同的姿態(tài),其性能顯著高于基于變形(warping-based)的系統(tǒng)。

通過在頭像特寫語料庫上的大量預(yù)訓練(meta-learning),模型能獲得 few-shot 學習的能力。當然這需要語料庫足夠大,且頭部特寫視頻對應(yīng)不同的說話者與面孔。在元學習過程中,研究者的系統(tǒng)模擬了 few-shot 學習任務(wù),并學習將面部 landmark 位置轉(zhuǎn)換到逼真的個性化照片。在 few-shot 學習中,他們只需要提供轉(zhuǎn)換目標的少量訓練圖像就可以。

隨后,轉(zhuǎn)換目標的少量圖像可視為一個新的對抗學習問題,其高復雜度的生成器與判別器都通過元學習完成了預(yù)訓練。新的對抗問題最終會完成收斂,即在少量訓練迭代后能生成真實和個性化的圖像。

元學習架構(gòu)

下圖 2 展示了研究者方法中的元學習階段,簡單而言它需要訓練三個子網(wǎng)絡(luò)。注意,若我們有 M 個視頻序列,那么 x_i(t) 表示第 i 個視頻的第 t 幀。

第一個子網(wǎng)絡(luò) embedder E:它會輸入視頻幀 x_i(s) 以及對應(yīng)的 landmark 圖像 y_i(s),該網(wǎng)絡(luò)會將輸入映射到 N 維向量 e hat_i(s) 中。

第二個子網(wǎng)絡(luò) generator G:它會輸入新的 landmark 圖像 y_i(t),且 embedder 看不到其對應(yīng)的視頻幀;該網(wǎng)絡(luò)還會輸入 embedder 輸出的 e hat_i,并希望能輸出合成的新視頻幀 x hat_i(t)。

第三個子網(wǎng)絡(luò) discriminator D:它會輸入視頻幀 x_i(t)、對應(yīng)的 landmark 圖像 y_i(t),以及訓練序列的索引 i。該網(wǎng)絡(luò)希望判斷視頻幀 x_i(t) 到底是不是第 i 個視頻中的內(nèi)容,以及它到底匹不匹配對應(yīng)的 landmark 圖像 y_i(t)。

圖 2:元學習架構(gòu)的整體結(jié)構(gòu),主要包含嵌入器(embedder)、生成器和判別器三大模塊。

嵌入器網(wǎng)絡(luò)希望將頭像特寫圖像與對應(yīng)的人臉 landmark 映射到嵌入向量,該向量包含獨立于人臉姿態(tài)的信息。生成器網(wǎng)絡(luò)通過一系列卷積層將輸入的人臉 landmark 映射到輸出幀中,其生成結(jié)果會通過嵌入向量以及自適應(yīng)實例歸一化進行調(diào)整。在元學習中,研究者將相同視頻一組視頻幀傳遞到嵌入器,并對嵌入向量求均值以便預(yù)測生成器的自適應(yīng)參數(shù)。

隨后,研究者將不同幀的 landmark 輸入到生成器中,并對比標注圖像和生成圖像之間的差別。模型的整體優(yōu)化目標包括感知和對抗兩種損失函數(shù),后者通過條件映射判別器實現(xiàn)。

此外,元學習的三大子網(wǎng)絡(luò)在原論文中都有具體的表達式,讀者可具體查閱原論文 3.2 章。

Few-shot 學習過程

一旦元學習完成收斂,那么系統(tǒng)就能學習到如何合成新目標的頭像特寫序列,即使元學習中不曾見過這個人。當然,除了要提供新目標的一些圖像樣本,我們還需要提供新目標的 landmark,合成過程是以這些目標 landmark 為條件的。

很自然地,我們可以使用元學習收斂后的嵌入器(embedder),用來估計新頭像特寫序列的嵌入向量:

一種比較直觀的想法是使用上面的嵌入向量,以及預(yù)訓練的生成器生成新的視頻幀與對應(yīng) landmark 圖像。理論上這樣也能生成真實的圖像,但真實性并不是太強。為此,研究者還需要一個精調(diào)過程以生成更完美的圖像,即 few-shot 學習過程。

精調(diào)過程可視為前面元學習過程的簡化版,它只在單個視頻序列和較少的幀上完成訓練。精調(diào)過程主要包含判別器與生成器兩個模塊,這里嵌入器是不需要調(diào)整的。

其中生成器還是根據(jù) landmark 合成視頻幀,只不過對應(yīng)具體人物的生成器參數(shù) ψ'會和原來一般人物參數(shù)ψ共同優(yōu)化,以學習生成目標人物的某些特征。判別器和元學習階段也差不多,只不過會增加一個新參數(shù)以學習更好地預(yù)測真實度分數(shù)。

實驗

研究者在定性和定量評估實驗中用到了兩個數(shù)據(jù)集:VoxCeleb1 和 VoxCeleb2。后者的視頻數(shù)量大約是前者的 10 倍。VoxCeleb1 用于與基線和控制變量研究作對比,VoxCeleb2 用于展示本文中所提方法的全部潛力。實驗結(jié)果如下表所示:

如表 1 所示,基線模型在兩個相似度度量標準上始終優(yōu)于三星的方法。三星研究人員認為,這是方法本身所固有的:X2Face 在優(yōu)化期間使用 L_2 損失函數(shù),因此 SSIM 得分較高。另一方面,Pix2pixHD 只最大化了感知度量,沒有 identity preservation 損失,導致 FID 最小化,但從 CSIM 一欄中可以看出,Pix2pixHD 的 identity 不匹配更大。

此外,這些度量標準和人類的感知并沒有特別緊密的關(guān)聯(lián),因為這些方法都會產(chǎn)生恐怖谷偽影(uncanny valley artifact),這從圖 3 和用戶研究結(jié)果中可以看出。另一方面,余弦相似度與視覺質(zhì)量有更好的相關(guān)性,但仍然傾向于模糊、不太真實的圖像,這也可以通過表 1 與圖 3 中的結(jié)果對比來看出。

圖 3:在 VoxCeleb1 數(shù)據(jù)集上的結(jié)果。對于每一種對比方法,研究者在一個元訓練或預(yù)訓練期間未見過的人物視頻上執(zhí)行 one-shot 和 few-shot 學習。他們將訓練的幀數(shù)設(shè)為 T(最左邊的數(shù)字)。Source 列顯示了訓練幀之一。

接下來,研究者擴展了可用的數(shù)據(jù),開始在視頻數(shù)目更多的 VoxCeleb2 上訓練模型。他們訓練了兩種模型:FF(前饋)和 FT。前者訓練 150 個 epoch,沒有嵌入匹配損失 LMCH,因此用的時候不進行微調(diào)。后者訓練 75 個 epoch,但有 LMCH,支持微調(diào)。

他們對這兩種模型都進行了評估,因為它們可以在 few-shot 學習速度和結(jié)果質(zhì)量之間進行權(quán)衡。與在 VoxCeleb1 上訓練的小型模型相比,二者都得到了很高的分數(shù)。值得注意的是,F(xiàn)T 模型在 T=32 的設(shè)定下達到了用戶研究準確率的下界,即 0.33,這是一個完美的分數(shù)。兩種模型的結(jié)果如圖 4 所示:

圖 4:三星最好的模型在 VoxCeleb2 數(shù)據(jù)集上的結(jié)果。

最后,研究者展示了模型在照片或畫像上的結(jié)果。為此,研究者評估了在 one-shot 設(shè)定下訓練的模型,任務(wù)姿態(tài)來自 VoxCeleb2 數(shù)據(jù)集的測試視頻。他們使用 CSIM 度量給這些視頻排序,并在原始圖像和生成圖像之間進行計算。這使得研究者可以發(fā)現(xiàn)擁有相似標志幾何特征的人臉,并將它們由靜態(tài)變?yōu)閯討B(tài)。結(jié)果見圖 5 和圖 1.

圖 5:使靜止的照片栩栩如生。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 三星電子
    +關(guān)注

    關(guān)注

    34

    文章

    15888

    瀏覽量

    182346
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    49012

    瀏覽量

    249386

原文標題:[機器人頻道|大V說]蒙娜麗莎開口說話了:三星新研究用一張圖像合成動圖,無需3D建模

文章出處:【微信號:robovideo,微信公眾號:機器人頻道】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    物聯(lián)網(wǎng)設(shè)備也能‘開口說話’?Aircall實時通話功能讓智能交互觸手可及

    “Aircall的最新技術(shù)成果——實時通話功能,為物聯(lián)網(wǎng)設(shè)備賦予了‘語音生命’。無論是智能音箱、車載終端還是工業(yè)傳感器,都能通過實時語音交互接收指令、反饋信息。這變革設(shè)備不再局限于數(shù)據(jù)傳遞,而是
    的頭像 發(fā)表于 07-07 09:26 ?152次閱讀
    物聯(lián)網(wǎng)設(shè)備也能‘<b class='flag-5'>開口說話</b>’?Aircall實時通話功能讓智能交互觸手可及

    WT2801:顆藍牙語音芯片的血糖守護之旅

    地辨認測量結(jié)果。這個時候有些同學就要舉手了:為什么不能讓血糖儀"開口說話"呢?在中國,糖尿病患者已經(jīng)超過1.4億人,位居全球首位,其中60歲以上人群的患病率高達20.
    的頭像 發(fā)表于 06-06 16:37 ?247次閱讀
    WT2801:<b class='flag-5'>一</b>顆藍牙語音芯片的血糖守護之旅

    橋梁結(jié)構(gòu)健康安全如何做到“未病先治”智能監(jiān)測系統(tǒng)給出答案

    在現(xiàn)代城市中,橋梁如同人體的血管,承載著經(jīng)濟與社會的生命線。然而,隨著時間的推移,風雨侵蝕、重載交通、材料老化等問題不斷威脅著這些龐然大物的安全。如何提前發(fā)現(xiàn)隱患,避免災(zāi)難發(fā)生?橋梁結(jié)構(gòu)健康監(jiān)測正是答案所在——它如同給橋梁裝上“智慧之眼”,沉默的鋼鐵混凝土“開口說話”,
    的頭像 發(fā)表于 05-26 15:56 ?101次閱讀
    橋梁結(jié)構(gòu)健康安全如何做到“未病先治”智能監(jiān)測系統(tǒng)給出答案

    大模型“開口說話”,啟英泰倫重塑AI玩具交互新體驗!

    2025年,AI玩具已成為全球消費科技領(lǐng)域最炙手可熱的賽道之。DeepSeek的崛起,顯著降低了大模型的部署成本和門檻,成功點燃了整個行業(yè)以及資本市場對端側(cè)AI落地的熱情,進步推動了AI玩具
    的頭像 發(fā)表于 04-11 18:31 ?457次閱讀
    <b class='flag-5'>讓</b>大模型“<b class='flag-5'>開口說話</b>”,啟英泰倫重塑AI玩具交互新體驗!

    工業(yè)數(shù)據(jù)采集網(wǎng)關(guān):工廠 &quot;開口說話&quot; 的超級翻譯官

    、工業(yè)界的 "超級間諜":為什么它比老板更懂工廠? 在智能制造的江湖里, 工業(yè)數(shù)據(jù)采集網(wǎng)關(guān) 堪稱 "最會偷聽的掃地僧"。它潛伏在車間角落,默默收集機器的 "心跳"、流水線的 "呼吸",甚至能
    的頭像 發(fā)表于 04-07 09:35 ?237次閱讀
    工業(yè)數(shù)據(jù)采集網(wǎng)關(guān):<b class='flag-5'>讓</b>工廠 &quot;<b class='flag-5'>開口說話</b>&quot; 的超級翻譯官

    數(shù)傳終端:數(shù)據(jù)飛起來的 “空中快遞員”

    就像位隱形的 “空中快遞員”,在看不見的電波中穿梭,把海量數(shù)據(jù)安全、快速地送到目的地。 它的核心使命 :將傳感器、設(shè)備、系統(tǒng)產(chǎn)生的數(shù)據(jù),通過無線或有線網(wǎng)絡(luò)傳輸?shù)皆贫嘶蚩刂浦行?。簡單來說,就是 “啞巴” 設(shè)備開口說話,
    的頭像 發(fā)表于 04-02 23:59 ?361次閱讀
    數(shù)傳終端:<b class='flag-5'>讓</b>數(shù)據(jù)飛起來的 “空中快遞員”

    光伏電站智能分析管理系統(tǒng)電站管理更簡單

    光伏電站智能分析管理系統(tǒng)電站管理更簡單 光伏電站建好后,管理才是真正的考研。過去靠人工巡檢,設(shè)備壞了要等好幾天才能發(fā)現(xiàn),發(fā)電損失人心疼?,F(xiàn)在,光伏電站智能分析管理系統(tǒng)就能讓電站自己開口說話,所有
    的頭像 發(fā)表于 03-14 15:20 ?380次閱讀
    光伏電站智能分析管理系統(tǒng)<b class='flag-5'>讓</b>電站管理更簡單

    電飯煲“開口說話”了!NV128H語音芯片煮飯玩出科技感

    電飯煲,又叫電飯鍋,是種設(shè)計用來煮米飯或蒸米飯的自動化廚房用具。它由個熱源、個烹飪碗和個恒溫器組成。恒溫器測量烹飪碗的溫度并控制熱量。復雜的高科技電飯鍋可能有更多的傳感器和其他
    的頭像 發(fā)表于 03-12 15:07 ?403次閱讀
    電飯煲“<b class='flag-5'>開口說話</b>”了!NV128H語音芯片<b class='flag-5'>讓</b>煮飯玩出科技感

    DMD啟動后反射的圖像左下角的那個像是怎么形成的?

    一張是在DMD未啟動時,激光照射DMD芯片時反射的圖像 第二是DMD啟動后,
    發(fā)表于 03-03 06:13

    DLP3010+DLPC3478開機是一張splah圖片,是否可以通過更改固件讓開機就進入internal pattern mode進行投呢?

    DLP3010+DLPC3478目前開機是一張splah圖片,是否可以通過更改固件讓開機就進入internal pattern mode 進行投呢,同時trigger也默認配置。 因為DLP4500通過更改ini文件是可以做到這樣的,我想實現(xiàn)和4500
    發(fā)表于 02-26 07:49

    DLPLCR4500EVMGUI加載大量圖片并按1bit圖像播放如何設(shè)置?

    ,而非每一張都需要點擊鼠標好幾次。 4 說明文檔當中提到vidio模式,也是按1bit的圖像進行播放的,是否可以理解為,如果把24bit圖像按照順序做成vidio,最后播放出來,對
    發(fā)表于 02-25 07:30

    DLP4500燒錄98bit位深度的相移,3合成一張24bit,結(jié)果每一張24bit都重復投射三次,這是為什么?

    你好,吳工,DLP4500燒錄98bit位深度的相移,3合成一張24bit,結(jié)果每
    發(fā)表于 02-24 08:00

    DLP4710一張張加載圖片顯示這個速度是否能夠更改?

    工程師您好,DMD一張張加載圖片顯示這個速度是否能夠更改?在DMD上加載圖片顯示目前只能6幀/s。如果需要提高速度應(yīng)該從哪里去考慮?謝謝回答。
    發(fā)表于 02-21 12:12

    請查收!一張來自南京會“發(fā)光”的城市名片 智慧路燈 物聯(lián)網(wǎng)太陽能路燈

    請查收!一張來自南京會“發(fā)光”的城市名片 智慧路燈 物聯(lián)網(wǎng)太陽能路燈
    的頭像 發(fā)表于 10-28 14:48 ?892次閱讀
    請查收!<b class='flag-5'>一張</b>來自南京會“發(fā)光”的城市名片 智慧路燈 物聯(lián)網(wǎng)太陽能路燈

    2024年芯片行業(yè)有多難?數(shù)據(jù)說話

    2024年芯片行業(yè)有多難?數(shù)據(jù)說話
    的頭像 發(fā)表于 08-10 18:20 ?5856次閱讀