3 月 19 日,Google 在其官方博客上發(fā)布了關(guān)于 VLOGGER AI 模型的相關(guān)信息。這是一款利用用戶提供的肖像照片和音頻內(nèi)容,使人物生動(dòng)地呈現(xiàn)音頻內(nèi)容并具備豐富面部表情的人工智能程序。
具體來(lái)說(shuō),VLOGGER AI 采用一種適應(yīng)虛擬肖像的多模態(tài) Diffusion 模型,通過(guò) MENTOR 數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練,涵蓋了超80萬(wàn)個(gè)人物肖像及超過(guò)2200小時(shí)的視頻數(shù)據(jù)。得益于此,VLOGGER 可以生成各種族、各年齡段、穿著多樣、姿態(tài)各異的肖像視頻。
研發(fā)團(tuán)隊(duì)指出,相較于之前的同類產(chǎn)品,VLOGGER 的獨(dú)特之處在于無(wú)需針對(duì)每個(gè)使用者進(jìn)行單獨(dú)培訓(xùn),且不受限于人臉檢測(cè)和裁剪,能產(chǎn)出完整的圖像,且能夠處理更多元化的情境如可見(jiàn)的身軀或者其他身份特征,這對(duì)于真實(shí)再現(xiàn)人物交流過(guò)程至關(guān)重要。
谷歌將 VLOGGER 視為通往“通用聊天機(jī)器人”未來(lái)的關(guān)鍵一步,使人工智能能以自然的語(yǔ)音、手勢(shì)和眼神等方式與人類交互。除此之外,VLOGGER 還可用作報(bào)告、教育領(lǐng)域以及旁白等方面的輔助工具,并能對(duì)已有的電影進(jìn)行剪輯和表情調(diào)整。
-
Google
+關(guān)注
關(guān)注
5文章
1789瀏覽量
59047 -
模型
+關(guān)注
關(guān)注
1文章
3521瀏覽量
50427 -
VLogger
+關(guān)注
關(guān)注
0文章
5瀏覽量
8422
發(fā)布評(píng)論請(qǐng)先 登錄
英語(yǔ)單詞學(xué)習(xí)頁(yè)面+單詞朗讀實(shí)現(xiàn) -- 【2】單詞朗讀實(shí)現(xiàn) ##HarmonyOS SDK AI##
英語(yǔ)單詞學(xué)習(xí)頁(yè)面+單詞朗讀實(shí)現(xiàn) -- 【1】頁(yè)面實(shí)現(xiàn) ##HarmonyOS SDK AI##
首創(chuàng)開(kāi)源架構(gòu),天璣AI開(kāi)發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手
谷歌新一代 TPU 芯片 Ironwood:助力大規(guī)模思考與推理的 AI 模型新引擎?
谷歌“減法”新動(dòng)作:砍掉耳機(jī)按鍵喚醒朗讀功能

評(píng)論