在一場(chǎng)演示盛宴中,NVIDIA 研究人員為數(shù)字化身技術(shù)作品注入了四個(gè) AI 模型,在 SIGGRAPH 2021 大會(huì)的實(shí)時(shí)直播展示中展出,榮獲“最佳展示”獎(jiǎng)。
該展示是今年以虛擬形式舉行的世界大型計(jì)算機(jī)圖形大會(huì)上最令人期待的活動(dòng)之一,慶祝各種跨越游戲技術(shù)、增強(qiáng)現(xiàn)實(shí)和科學(xué)可視化的前沿實(shí)時(shí)項(xiàng)目。該展示包括一系列由評(píng)委會(huì)評(píng)審的交互式項(xiàng)目,演講者來(lái)自 Unity Technologies、倫斯勒理工學(xué)院、紐約大學(xué)未來(lái)現(xiàn)實(shí)實(shí)驗(yàn)室等等。
NVIDIA 研究團(tuán)隊(duì)從硅谷總部現(xiàn)場(chǎng)直播,展示了一系列能夠創(chuàng)建栩栩如生的虛擬角色的 AI 模型,適用于帶寬高效視頻會(huì)議和故事講述等項(xiàng)目。
該演示包括各種工具,可從單張照片生成數(shù)字化身,制作具有自然3D面部動(dòng)作的化身動(dòng)畫(huà),以及將文本轉(zhuǎn)換為語(yǔ)音。
NVIDIA 應(yīng)用深度學(xué)習(xí)研究副總裁 Bryan Catanzaro 在演講中表示:“制作數(shù)字化身是一個(gè)非常困難、繁瑣而且昂貴的過(guò)程。”但是借助 AI 工具,“我們可以輕松創(chuàng)建真實(shí)人物以及卡通角色的數(shù)字化身。它可用于視頻會(huì)議、故事講述、虛擬助理和許多其他應(yīng)用領(lǐng)域?!?/p>
AI 在面試中表現(xiàn)出色
在演示中,兩位 NVIDIA 研究科學(xué)家分別扮演面試官和應(yīng)聘者的角色,通過(guò)視頻會(huì)議進(jìn)行交談。在通話過(guò)程中,面試者展示了 AI 驅(qū)動(dòng)的數(shù)字化身技術(shù)如何能夠與面試官進(jìn)行溝通。
扮演應(yīng)聘者的研究人員在整個(gè)過(guò)程中使用一臺(tái) NVIDIA RTX 筆記本電腦,而另一名研究人員使用的是由 RTX A6000 GPU 提供支持的臺(tái)式工作站。整個(gè)流程還可以在云中的 GPU 上運(yùn)行。
應(yīng)聘者坐在校園的咖啡廳里,戴著棒球帽和口罩,使用 Vid2Vid Cameo 模型在視頻通話中呈現(xiàn)出穿著有領(lǐng)子的襯衣、胡子刮得干干凈凈的形象(見(jiàn)上圖)。AI 模型依據(jù)對(duì)象的單張照片創(chuàng)建逼真的數(shù)字化身,無(wú)需 3D 掃描或?qū)iT(mén)訓(xùn)練的圖像。
他展示了自己的另外兩張照片,并且表示:“數(shù)字化身的創(chuàng)建在一瞬間就能完成,所以我能夠使用不同的照片迅速創(chuàng)建不同的化身?!?/p>
該研究人員的系統(tǒng)并不傳輸視頻流,而是只發(fā)送了他的聲音,然后將聲音輸送到NVIDIA Omniverse Audio2Face 應(yīng)用程序。Audio2Face 可生成頭部、眼睛和唇部的自然動(dòng)作,以便在 3D 頭部模型上實(shí)時(shí)匹配音頻輸入。這種面部動(dòng)畫(huà)進(jìn)入 Vid2Vid Cameo,與演講者的數(shù)字化身合成為表現(xiàn)自然的動(dòng)作。
除了逼真的數(shù)字化身之外,該研究人員還通過(guò) Audio2Face 和 Vid2Vid Cameo 輸送了他的演講,為動(dòng)畫(huà)角色配音。他表示,使用 NVIDIA StyleGAN,開(kāi)發(fā)者能夠以卡通角色或者繪畫(huà)為模型,創(chuàng)建出無(wú)限的數(shù)字化身。
這些模型經(jīng)過(guò)優(yōu)化,在 NVIDIA RTX GPU 上運(yùn)行,能夠以每秒 30 幀的速度輕松傳輸視頻。此外,它還具有很高的帶寬效率,因?yàn)檠葜v者只通過(guò)網(wǎng)絡(luò)發(fā)送音頻數(shù)據(jù),而不是傳輸高分辨率視頻源。
更進(jìn)一步,該研究人員展示,當(dāng)咖啡廳環(huán)境變得過(guò)于嘈雜,RAD-TTS 模型能夠?qū)⑤斎氲南⑥D(zhuǎn)換為他的聲音,取代輸送到 Audio2Face 中的聲音?;谏疃葘W(xué)習(xí)的突破性文本轉(zhuǎn)語(yǔ)音工具可以在幾毫秒內(nèi)通過(guò)任意文本輸入來(lái)合成栩栩如生的語(yǔ)音。
研究團(tuán)隊(duì)在演示的最后展示,RAD-TTS 能夠合成各種聲音,從而幫助開(kāi)發(fā)者生動(dòng)地呈現(xiàn)書(shū)中的角色,甚至說(shuō)唱 Eminem 的《The Real Slim Shady》。
SIGGRAPH 大會(huì)將持續(xù)到 8 月 13 日。查看 NVIDIA 在大會(huì)上的完整活動(dòng)安排,觀看我們的《在元宇宙中建立聯(lián)系:GTC 主題演講的制作》紀(jì)錄片首映。
編輯:jq
-
3D
+關(guān)注
關(guān)注
9文章
2959瀏覽量
110709 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5304瀏覽量
106325 -
gpu
+關(guān)注
關(guān)注
28文章
4938瀏覽量
131193 -
AI
+關(guān)注
關(guān)注
88文章
35065瀏覽量
279343
發(fā)布評(píng)論請(qǐng)先 登錄
華為與bKash榮獲GSMA GLOMO“最佳金融科技創(chuàng)新獎(jiǎng)”
天馬微電子榮獲GARMIN“最佳合作伙伴獎(jiǎng)”
軟通動(dòng)力榮膺2024年度CIO信賴的數(shù)字化伙伴獎(jiǎng)
維信諾榮獲vivo“最佳交付獎(jiǎng)”與“優(yōu)秀質(zhì)量獎(jiǎng)”
天馬榮獲vivo 2024年度“優(yōu)秀質(zhì)量獎(jiǎng)”和“最佳交付獎(jiǎng)”
Bourns榮獲2024亞洲金選獎(jiǎng)最佳分立器件獎(jiǎng)
睿創(chuàng)微納榮獲第六屆“金輯獎(jiǎng)”最佳技術(shù)實(shí)踐應(yīng)用獎(jiǎng)
基本半導(dǎo)體榮獲禾望電氣“最佳合作獎(jiǎng)”
安路科技榮獲“年度卓越董秘獎(jiǎng)”和“卓越品宣團(tuán)隊(duì)獎(jiǎng)”
華銳捷榮獲第六屆金輯獎(jiǎng)“最佳技術(shù)實(shí)踐應(yīng)用獎(jiǎng)”
安富利榮獲第六屆金輯獎(jiǎng)“最佳技術(shù)實(shí)踐應(yīng)用獎(jiǎng)”
賽卓電子榮獲2024金輯獎(jiǎng)——最佳技術(shù)實(shí)踐應(yīng)用獎(jiǎng)

評(píng)論