欧美五月丁香在线播放,艾迪一区二区三区在线视频

Speech2Video 是一種從語音音頻輸入合成人體全身運動（包括頭、口、臂等）視頻的任務(wù)，其產(chǎn)生的視頻應(yīng)該在視覺上是自然的，并且與給定的語音一致。傳統(tǒng)的 Speech2Video 方法一般會使用專用設(shè)備和專業(yè)操作員進行性能捕獲，且大多數(shù)語音和渲染任務(wù)是由動畫師完成的，定制使用的成本通常比較昂貴。

近年來，隨著深度神經(jīng)網(wǎng)絡(luò)的成功應(yīng)用，數(shù)據(jù)驅(qū)動的方法已經(jīng)成為現(xiàn)實。例如，SythesisObama 或 MouthEditing 通過使用 RNN 通過語音驅(qū)動嘴部運動來合成說話的嘴部。泰勒提出使用音頻來驅(qū)動高保真圖形模型，該模型不僅可以將嘴部動畫化，而且還可以對面部的其他部分進行動畫處理以獲得更豐富的語音表達。

然而，嘴部運動的合成大部分是確定性的：給定發(fā)音，在不同的人和環(huán)境中嘴部的運動或形狀是相似的。但現(xiàn)實生活中，相同情況下的全身手勢運動具有更高的生成力和更多的變異性，這些手勢高度依賴于當(dāng)前的上下文和正在執(zhí)行語音的人類。傳遞重要信息時，個性化的手勢會在特定時刻出現(xiàn)。因此，有用的信息僅稀疏地存在于視頻中，這為簡單的端到端學(xué)習(xí)算法有限的錄制視頻中捕獲這種多樣性帶來了困難。

近日，百度提出了一種新的方法，將給定文字或音頻轉(zhuǎn)換為具有同步、逼真、富表現(xiàn)力的肢體語言的實感視頻。該方法首先使用遞歸神經(jīng)網(wǎng)絡(luò)（recursive neural network，RNN）從音頻序列生成 3D 骨骼運動，然后通過條件生成對抗網(wǎng)絡(luò)（GAN）合成輸出視頻。

為了使骨骼運動逼真并富有表現(xiàn)力，研究者將關(guān)節(jié) 3D 人體骨骼的知識和學(xué)習(xí)過的個性化語音手勢字典嵌入到學(xué)習(xí)和測試過程中。前者可以防止產(chǎn)生不合理的身體變形，而后者通過一些有意義的身體運動視頻幫助模型快速學(xué)習(xí)。為了制作富有運動細節(jié)的逼真高分辨率視頻，研究者提出一種有條件的 GAN，其中每個細節(jié)部分，例如頭和手，是自動放大過的以擁有自己的判別器。該方法與以前處理類似任務(wù)的 SOTA 方法相比效果更好。

方法

圖 1：Speech2Video 系統(tǒng) pipeline

如圖 1 所示，根據(jù)用于訓(xùn)練 LSTM 網(wǎng)絡(luò)的內(nèi)容，系統(tǒng)的輸入是音頻或文本。考慮到文本到語音（TTS）和語音到文本（STT）技術(shù)都已經(jīng)成熟并且可商用，此處假定音頻和 text 是可互換的。即使從最先進的 STT 引擎中得到一些錯誤識別的單詞 / 字符，系統(tǒng)也可以容忍這些錯誤，LSTM 網(wǎng)絡(luò)的主要目的是將文本 / 音頻映射到身體形狀。錯誤的 STT 輸出通常是與真實發(fā)音相似的單詞，這意味著它們的拼寫也很可能是相似的。因此，它們最終將映射的身體形狀或多或少相似。

LSTM 的輸出是由 SMPL-X 參數(shù)化的一系列人體姿勢。SMPL-X 是一個人體、面部和手部的 3D 聯(lián)合模型，這一動態(tài)關(guān)節(jié) 3D 模型是由一個 2D 彩色骨架圖像序列可視化的。這些 2D 圖像被進一步輸入到 vid2vid 生成網(wǎng)絡(luò)中，以生成最終的現(xiàn)實人物圖像。

在成功同步語音和動作的同時，LSTM 大部分時間只能學(xué)習(xí)重復(fù)的人類動作，這會使視頻看起來很無聊。為了使人體動作更具表現(xiàn)力和變化性，研究者在一些關(guān)鍵詞出現(xiàn)時將特定姿勢加入 LSTM 的輸出動作中，例如，巨大、微小、高、低等。研究者建立了一個字典，將這些關(guān)鍵詞映射到它們相應(yīng)的姿勢。

模特站在相機和屏幕的前面，當(dāng)他 / 她在屏幕上閱讀腳本時，研究者會捕獲這些視頻。最后再要求模特擺一些關(guān)鍵詞的動作，例如巨大、微小、向上、向下、我、你等等。

人體模型擬合

研究者首先將這些 2D 關(guān)鍵點作為人體模型的表示，并訓(xùn)練了 LSTM 網(wǎng)絡(luò)，但結(jié)果不能令人滿意。

最后采用了 SMPL-X，這是一種關(guān)節(jié)式 3D 人體模型。SMPL-X 使用運動學(xué)骨架模型對人體動力學(xué)進行建模，具有 54 個關(guān)節(jié)，包括脖子、手指、手臂、腿和腳。

詞典構(gòu)建和關(guān)鍵姿勢插入

研究者從錄制的視頻中手動選擇關(guān)鍵姿勢，并建立一個單詞 - 姿勢查詢字典。同樣，該姿勢表示為 106 個 SMPL-X 參數(shù)。關(guān)鍵姿勢可以是靜止的單幀姿勢或多幀運動，可以通過相同的方法將兩者插入到現(xiàn)有的人體骨骼視頻中。

訓(xùn)練視頻生成網(wǎng)絡(luò)

研究者采用 vid2vid 提出的生成網(wǎng)絡(luò)，將骨架圖像轉(zhuǎn)換為真實的人像。

用于訓(xùn)練 vid2vid 的示例圖像對。雙手均帶有特殊的色環(huán)標(biāo)記。

運行時間和硬件方面，系統(tǒng)中最耗時和最耗內(nèi)存的階段是訓(xùn)練 vid2vid 網(wǎng)絡(luò)。在 8 個 NVIDIA Tesla M40 24G GPU 集群上完成 20 個時期的訓(xùn)練大約需要一周；測試階段要快得多，在單個 GPU 上生成一幀僅需約 0.5 秒。

結(jié)果

評估與分析

研究者將使用用戶研究的結(jié)果與 4 種 SOTA 方法進行比較，結(jié)果顯示，本文方法獲得了最佳的總體質(zhì)量得分。

此外，研究者使用 Inception 分數(shù)評估圖像生成結(jié)果，包括兩個方面：圖像質(zhì)量和圖像多樣性。

為了評估最終輸出的視頻，研究者在 Amazon Mechanical Turk（AMT）上進行了人類主觀測試，共有 112 名參與者。研究者向參與者展示了總共五個視頻，其中四個是合成視頻，兩個由真實人的音頻生成，兩個由 TTS 音頻生成；剩下的是一個真實人物的短片。參與者以李克特量表（從 1（強烈不同意）到 5（強烈同意））對這些視頻的質(zhì)量進行評分。其中包括：1）人體的完整性（沒有遺漏的身體部位或手指）；2）視頻中人臉清晰；3）視頻中的人體動作（手臂，手，身體手勢）看起來自然流暢。4）身體的動作和手勢與聲音同步；5）視頻的整體視覺質(zhì)量。

總結(jié)

Speech2Video 是一種新穎的框架，可以使用 3D 驅(qū)動的方法生成逼真的語音視頻，同時避免構(gòu)建 3D 網(wǎng)格模型。作者在框架內(nèi)建立了個性化關(guān)鍵手勢表，以處理數(shù)據(jù)稀疏性和多樣性的問題。更重要的是，作者利用 3D 骨骼約束來生成身體動力學(xué)，從而保證其姿勢在物理上是合理的。
責(zé)任編輯:pj

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

3D

3D

+關(guān)注

關(guān)注
9

文章
2959

瀏覽量
110739
神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4814

瀏覽量
103593
數(shù)據(jù)驅(qū)動

數(shù)據(jù)驅(qū)動

+關(guān)注

關(guān)注
0

文章
141

瀏覽量
12580

99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

搜索歷史

關(guān)于語音驅(qū)動3D虛擬人性能介紹

評論