99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

羅永浩數(shù)字人刷屏背后,文心大模型成為直播行業(yè)的“劇本總導(dǎo)演”

腦極體 ? 來源:腦極體 ? 作者:腦極體 ? 2025-06-19 09:42 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

wKgZPGhSsWeAF1IDAAhs5qhiAA0137.jpg

《日常生活中的自我呈現(xiàn)》一書中,歐文?戈夫曼將戲劇表演引入社會學(xué)。他提出,人們在日?;永?,會依照預(yù)設(shè)的“劇本”(即社會規(guī)范),借助行為管理進(jìn)行表演,在他人心中留下良好印象。

按照這個理論,數(shù)字人直播總被吐槽,原因就是數(shù)字人的演技太差,無法呈現(xiàn)出真人主播一樣的觀感,表情僵硬、手勢不自然,無法給大眾留下好印象。

就在最近,數(shù)字人主播界突然出現(xiàn)了一位演技實(shí)力派——羅永浩。羅永浩數(shù)字人在百度電商的首場直播,以長達(dá)連續(xù)近7小時的高強(qiáng)度直播,實(shí)時解答彈幕問題,動輒輸出“羅式段子”,還與助播朱蕭木互相拋梗接梗,刷新了大眾心中數(shù)字人的觀感。

甚至有人問老羅,“是不是你在扮演數(shù)字人”,簡直倒反天罡。

wKgZO2hSsWiAEmaOAAkuJaKrGvA805.jpg

難辨真假、技驚四座的羅永浩數(shù)字人,到底是怎么實(shí)現(xiàn)的?6月17日的百度AI開放日慧播星專場現(xiàn)場,百度集團(tuán)副總裁吳甜,揭秘了羅永浩數(shù)字人背后的技術(shù)秘密。最關(guān)鍵的就是,基于文心大模型4.5T的“劇本”生成與多模協(xié)同。

618硝煙正燃,而一場以AI大模型為核心驅(qū)動的電商效率革命,正拉開序幕。

wKgZPGhSsWiABtxPAAGrEKxLdYQ699.jpg

大家有沒有這樣的經(jīng)歷:

評論區(qū)的彈幕太多,留言總是得不到主播的回復(fù);

想看直播,但真人主播已經(jīng)下班了,錯過了專屬紅包和優(yōu)惠;

自己直播帶貨,但一面對鏡頭就緊張,直播效果不盡如人意;

等頭部主播來助農(nóng)直播,還得看對方的差旅安排和時間調(diào)配……

數(shù)字人被視為解決人力局限、實(shí)現(xiàn)全天候直播的理想方案。然而,以往的數(shù)字人一直無法惟妙惟肖地飾演真人主播,槽點(diǎn)主要集中在幾個方面:

演得不像。數(shù)字人的表情、手勢與肢體細(xì)節(jié)與文案對不上,產(chǎn)生“恐怖谷”效應(yīng),讓觀眾感到詭異。

缺少互動。傳統(tǒng)數(shù)字人面對超出預(yù)設(shè)范圍的問題,無法像真人主播那樣靈活應(yīng)對,只能唱“獨(dú)角戲”,讓觀眾喪失了參與直播的積極性與體驗(yàn)感。

時長不夠。很多數(shù)字人只能將短視頻循環(huán)播放,難以支撐長時間且一致的內(nèi)容生成與交互需求,低質(zhì)量內(nèi)容不僅影響用戶體驗(yàn),還可能被平臺限流甚至處罰。

行為不可控。數(shù)字人一旦出現(xiàn)失誤,不僅會損害品牌形象,還可能引發(fā)輿論危機(jī),這也是許多頭部主播和品牌對數(shù)字人直播持謹(jǐn)慎態(tài)度的重要原因。

數(shù)字人扮演真人主播,需要跨越重重技術(shù)挑戰(zhàn)。那百度電商直播間的羅永浩,又憑啥成為直播“實(shí)力派”?

wKgZPGhSsWmAaI0kAAGvfT9I6Tk725.jpg

6月15日羅永浩數(shù)字人在百度電商,完成了數(shù)字人主播的極限挑戰(zhàn),做到了不少業(yè)內(nèi)首個。

業(yè)內(nèi)首個超級頭部主播數(shù)字人直播。羅永浩的粉絲特別多,對真人主播的風(fēng)格十分熟悉,需要數(shù)字人有極高的還原度。數(shù)字人羅永浩在直播間妙語連珠,與觀眾高頻互動,舉手投足間散發(fā)著熟悉的羅氏魅力。

wKgZO2hSsWmAYVv1AAE05tVkdn0229.jpg

業(yè)內(nèi)首個超六小時超頭部主播數(shù)字人直播,突破了AI視頻生成極限時間,生成的產(chǎn)品講解內(nèi)容就多達(dá)9.7萬字。

業(yè)內(nèi)首個多數(shù)字人直播,雙人配合,告別了一個數(shù)字人尬聊的局面。羅永浩和朱蕭木的搭檔,高度還原了真實(shí)主播與助播的直播狀態(tài)。兩個數(shù)字人主播能做出喝奶茶、拎可樂等細(xì)節(jié)動作,還實(shí)現(xiàn)了與直播間用戶彈幕的實(shí)時互動。

這一系列操作下來,刷新了不少人對數(shù)字人的固有印象。而羅永浩數(shù)字人的誕生,只用了幾個月的時間,究竟是如何習(xí)得媲美真人的“直播神技”?我們扒開了數(shù)字人背后的一整個大模型“導(dǎo)師團(tuán)”。

wKgZPGhSsWqAZyg1AAHEk5b1aKw408.jpg

一場精彩的數(shù)字人直播,絕非單一技能的炫技。想象一下,如果數(shù)字人語言表達(dá)生動流暢,卻搭配著僵硬機(jī)械的表情和動作,或是語音語調(diào)平淡乏味,如同 “讀稿機(jī)器”。這正是傳統(tǒng)數(shù)字人技術(shù)的痛點(diǎn):語言依賴臺詞模型,語音靠TTS 合成,表情肢體等視覺表現(xiàn)由視頻合成,各模態(tài)模型“各自為政”。數(shù)字人的臺詞、表情、動作完全不在一個節(jié)奏上,觀眾瞬間就會“出戲”。

作為業(yè)內(nèi)首個多模高度融合數(shù)字人,羅永浩數(shù)字人的出色表現(xiàn),正是得益于百度多模協(xié)同的數(shù)字人技術(shù)。

wKgZO2hSsWqAFb8ZAAErDCQZKqg741.jpg

按照歐文?戈夫曼的理論,“劇本”是戲劇表演的核心,演員需依劇本塑造符合期待的形象。數(shù)字人領(lǐng)域,“劇本”同樣是關(guān)鍵所在。

擁有一個高質(zhì)量的劇本,就如同數(shù)字人有了總指揮,讓語言、語音、視覺等不同模態(tài)圍繞劇本,彼此協(xié)同配合,才能讓數(shù)字人在直播中展現(xiàn)出渾然天成的表現(xiàn)力。

以數(shù)字人羅永浩為例,背后就有一個文心大模型的“導(dǎo)師團(tuán)”進(jìn)行助力:

首先,是基于大語言模型的劇本生成。

生成劇本的文心大模型,相當(dāng)于總導(dǎo)演兼總編劇,通過臺詞,為數(shù)字人賦予生動鮮活的“靈魂”。拿羅永浩數(shù)字人來說,文心大模型4.5T需要攻克以下關(guān)鍵難題。其一,風(fēng)格定制。羅永浩犀利幽默、朱蕭木風(fēng)趣灑脫,每位主播都有獨(dú)特的語言風(fēng)格,文心大模型通過風(fēng)格建模,深度學(xué)習(xí)主播們的語言習(xí)慣、表達(dá)方式,從遣詞造句到語氣節(jié)奏,全方位貼合主播個人風(fēng)格進(jìn)行定制,在模型生成的臺詞中精準(zhǔn)復(fù)現(xiàn),讓數(shù)字人開口自帶主播“味道”。

wKgZPGhSsWuANcCGAD39gqDbBCg529.jpg

除了語言風(fēng)格,人設(shè)一致也是數(shù)字人獲得觀眾認(rèn)可的關(guān)鍵。特別是在多角色配合時,羅永浩作為主咖,朱蕭木作為助播,文心大模型在生成劇本時,精準(zhǔn)把握二人特點(diǎn)與分工,使臺詞在語言上自然附和、緊密配合。比如在產(chǎn)品推薦環(huán)節(jié),主播重點(diǎn)介紹核心賣點(diǎn),助播適時補(bǔ)充細(xì)節(jié)、引導(dǎo)互動,一問一答、一唱一和,展現(xiàn)出符合人設(shè)的行為與語言邏輯。

在文心大模型 4.5T的精心雕琢下,生成了既有真人溫度,高度還原主播個人特色,又有網(wǎng)感,能將商品賣點(diǎn)生動展現(xiàn)的直播劇本。

接下來,就是“劇本圍讀”,讓多模態(tài)系統(tǒng)基于劇本,進(jìn)行信息對齊。

語音大模型作為口語導(dǎo)師,視覺大模型作為動作導(dǎo)師,先根據(jù)大語言模型生成的語音標(biāo)簽和視覺標(biāo)簽,然后生成協(xié)調(diào)一致的語音和表情動作,賦予數(shù)字人影帝、影后般的表現(xiàn)力。

這個過程的難點(diǎn),是多個模型的對齊。想象一下,如果語音模型理解的臺詞情感激昂,而視覺模型呈現(xiàn)的卻是平淡表情,數(shù)字人就會“表里不一”,讓觀眾倍感違和。百度AI數(shù)字人,以大模型生成的劇本為統(tǒng)一標(biāo)尺,確保從臺詞到語音、從表情到動作,各環(huán)節(jié)的理解與執(zhí)行步調(diào)一致。

wKgZO2hSsWyAPFlZAHyQopZ6204371.jpg

比如羅永浩與助播數(shù)字人之間,會出現(xiàn)頻繁的打斷說、同時說,需要語音合成系統(tǒng)精準(zhǔn)捕捉對話節(jié)奏。百度通過加入對話上下文解碼器,整合歷史對話與當(dāng)前信息,讓數(shù)字人在互動時的語音銜接自然流暢,重現(xiàn)真人搭檔的默契感。

同時還建立了反向?qū)R的反饋機(jī)制,也就是語音模型合成后,會基于自身對文本的細(xì)粒度判斷進(jìn)行優(yōu)化,再將這些信息反饋給視覺模型,實(shí)現(xiàn)音畫間的精準(zhǔn)匹配,形成一個閉環(huán)的協(xié)同體系。

通過多模系統(tǒng)的“劇本圍讀”,可以在劇本指引下,完成聲臺行表的默契配合,讓數(shù)字人在直播鏡頭前展現(xiàn)出媲美真人的表現(xiàn)力,為觀眾帶來沉浸式的觀看體驗(yàn)。

六七個小時的直播,數(shù)字人只能對著劇本“照本宣科”嗎?為什么數(shù)字人羅永浩還能在直播間跟用戶實(shí)時互動呢?這就要提到第三個關(guān)鍵能力:臨場發(fā)揮的靈活性與可控性。

據(jù)吳甜介紹,數(shù)字人直播就像拍電影,演員的表演并不是照本宣科,要有對劇本的理解和臨場發(fā)揮。

其中,劇本作為核心,確保數(shù)字人行為邏輯的一致性,而文心大模型則賦予其應(yīng)對復(fù)雜場景的“應(yīng)變力”和長時間的可控性。

在時長如馬拉松式的直播中,現(xiàn)實(shí)場景的復(fù)雜性遠(yuǎn)超想象。用戶突如其來的刁鉆提問,直播間場景內(nèi)人物、商品、環(huán)境的自由交互,都暗藏著不可控因素。讓數(shù)字人在復(fù)雜交互場景中也能游刃有余,文心大模型是這場技術(shù)突圍的“智慧中樞”。

wKgZPGhSsW6AZE-vAABPGQXzM1o223.jpg

一方面,依托大模型的語言理解與生成能力,結(jié)合直播場景的高頻需求進(jìn)行針對性訓(xùn)練,賦予數(shù)字人實(shí)時理解用戶意圖的“洞察力”。在羅永浩數(shù)字人直播中,AI知識庫1.3萬次的調(diào)用,9.7萬字的內(nèi)容生成,正是文心大模型強(qiáng)大創(chuàng)造能力的直觀體現(xiàn)。

另一方面,依托文心大模型4.5T的深度思考能力,在劇本生成時先進(jìn)行規(guī)劃和思考,搜索最優(yōu)路徑,再通過評價和評估,提升最終的可控性。

當(dāng)數(shù)字人在直播間自如切換講解模式、巧妙化解突發(fā)提問,與用戶深度互動,背后正是多文心大模型在持續(xù)穩(wěn)定地發(fā)揮作用,為數(shù)字人直播行業(yè)開辟出長時、靈活、可控、優(yōu)質(zhì)的全新賽道。

總結(jié)一下,羅永浩數(shù)字人直播的成功,離不開百度大模型技術(shù)體系的托舉,也是百度大模型技術(shù)實(shí)力的具象化呈現(xiàn)。

wKgZO2hSsW-AK04MAAHYdYMYv0o735.jpg

歐文?戈夫曼的“擬劇理論”成為社會學(xué)經(jīng)典,在于其揭露了社會協(xié)作的基礎(chǔ)——每個人依據(jù)劇本扮演良好形象,教師扮演好傳道授業(yè)的角色,醫(yī)生恪守救死扶傷的職責(zé),整個社會才能有序運(yùn)轉(zhuǎn)。

當(dāng)直播行業(yè)走過野蠻生長的黃金期,流量紅利消退,主播需要扮演什么樣的角色呢?或許是專業(yè)導(dǎo)購,能夠?qū)Ξa(chǎn)品細(xì)節(jié)和專業(yè)知識娓娓道來;是貼心客服,及時響應(yīng)用戶的每一個疑問;是知心朋友,在用戶需要的時候提供全天候陪伴……這樣才能與觀眾建立信任紐帶,走向高質(zhì)量發(fā)展。

專業(yè)且敬業(yè)的真人主播,培養(yǎng)不易,開播成本也是中小商家所無力負(fù)擔(dān)的。這時候,AI數(shù)字人的技術(shù)革命,成為打破直播效率困局的關(guān)鍵。

在大廠紛紛布局?jǐn)?shù)字人,競爭白熱化的背景下,百度依然憑借AI技術(shù)優(yōu)勢,構(gòu)建起數(shù)字人的差異化能力:

wKgZPGhSsW-ATvqwAAJDKjWhIT4783.jpg

一是先進(jìn)。百度數(shù)字人直播的技術(shù)能力如劇本生成、多模驅(qū)動、一致性和高擬真性等,是業(yè)界天花板。對數(shù)字人技術(shù)要求苛刻的超級頭部主播來說,選擇百度數(shù)字人放大IP價值,用自身的專業(yè)能力24小時服務(wù)用戶。

二是專精。當(dāng)部分企業(yè)投入海量資源研發(fā)通用型視頻生成技術(shù)時,百度深耕數(shù)字人直播場景,推出的慧播星數(shù)字人系統(tǒng)已服務(wù)超10萬商家,覆蓋32個垂直行業(yè)。對中小商家來說,通過百度數(shù)字人可以輕松開播,品嘗到AI技術(shù)帶來的增長紅利。

三是性價比。借助百度AI技術(shù),品牌商家可獲得“人貨場”的全面助力,除了數(shù)字人,還可以利用AI技術(shù)對商品進(jìn)行深度分析和理解,實(shí)現(xiàn)商品的智能管理和精準(zhǔn)營銷。提升收益的同時,百度數(shù)字人的綜合成本比真人主播要低,而且隨著開播的場次越多,它的邊際收益越高,未來數(shù)字人的生產(chǎn)制作成本還會進(jìn)一步的下降。

這場從流量爭奪到技術(shù)深耕的變革,正在重新定義直播行業(yè)的未來。當(dāng)數(shù)字人頂流登上直播舞臺,百度AI驅(qū)動的直播下半場,也是智能電商的新篇章。

wKgZO2hSsXCAJEuQAAG_4nQnQHc107.jpg

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    279963
  • 數(shù)字人
    +關(guān)注

    關(guān)注

    0

    文章

    153

    瀏覽量

    2294
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3146

    瀏覽量

    4071
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    寧暢與與百度模型展開深度技術(shù)合作

    近日,百度正式開源模型4.5系列模型。作為開源合作伙伴,寧暢在
    的頭像 發(fā)表于 07-07 16:26 ?212次閱讀

    黑芝麻智能與模型技術(shù)合作升級

    近日,模型正式開源,黑芝麻智能即日起快速啟動與模型技術(shù)合作。
    的頭像 發(fā)表于 07-04 17:24 ?397次閱讀
    黑芝麻智能與<b class='flag-5'>文</b><b class='flag-5'>心</b>大<b class='flag-5'>模型</b>技術(shù)合作升級

    百度模型X1 Turbo獲得信通院當(dāng)前大模型最高評級證書

    ,16項(xiàng)達(dá)5分,綜合評級獲當(dāng)前最高級“4+級”, 成為國內(nèi)首款通過該測評的大模型X1 Turbo邏輯推理、代碼推理、推理效果優(yōu)化等技術(shù)能力及工具支持度、安全可靠度等應(yīng)用能力均獲
    的頭像 發(fā)表于 05-21 18:19 ?677次閱讀
    百度<b class='flag-5'>文</b><b class='flag-5'>心</b>大<b class='flag-5'>模型</b>X1 Turbo獲得信通院當(dāng)前大<b class='flag-5'>模型</b>最高評級證書

    百度發(fā)布4.5 Turbo、X1 Turbo和多款A(yù)I應(yīng)用

    近日,Create2025百度AI開發(fā)者大會在武漢舉辦。百度創(chuàng)始李彥宏發(fā)布了模型4.5 Turbo及深度思考模型X1 Turbo兩大
    的頭像 發(fā)表于 04-30 10:16 ?543次閱讀

    商湯科技助力如影數(shù)字超級直播間全新升級

    作為數(shù)字行業(yè)首創(chuàng),如影數(shù)字超級直播間可實(shí)現(xiàn)多模態(tài)智能運(yùn)營,依托“商湯日日新SenseNov
    的頭像 發(fā)表于 04-23 16:31 ?429次閱讀

    百度發(fā)布模型4.5和文模型X1

    模型4.5是百度自主研發(fā)的新一代原生多模態(tài)基礎(chǔ)大模型,通過多個模態(tài)聯(lián)合建模實(shí)現(xiàn)協(xié)同優(yōu)化,多模態(tài)理解能力優(yōu)秀;具備更精進(jìn)的語言能力,理解、生成、邏輯、記憶能力全面提升,去幻覺、邏輯
    的頭像 發(fā)表于 03-18 16:29 ?477次閱讀

    百度下一代模型正式開源

    隨著模型的迭代升級和成本不斷下降,一言將于4月1日0時起全面免費(fèi),所有PC端和APP端用戶均可體驗(yàn)
    的頭像 發(fā)表于 02-17 13:44 ?517次閱讀

    百度搜索與心智能體平臺接入DeepSeek及模型深度搜索

    近日,百度搜索與心智能體平臺聯(lián)合宣布了一項(xiàng)重要更新:將全面接入DeepSeek及模型最新的深度搜索功能。這一更新將為用戶和開發(fā)者帶來更加智能、高效的搜索和智能體創(chuàng)建體驗(yàn)。 據(jù)悉
    的頭像 發(fā)表于 02-17 09:14 ?639次閱讀

    百度模型將升級并開源

    百度近日宣布,其文模型系列將迎來新版本升級,計劃在未來數(shù)月內(nèi)逐步推出文模型4.5系列。這一消息無疑為AI領(lǐng)域注入了新的活力。 據(jù)悉,百度
    的頭像 發(fā)表于 02-14 14:25 ?449次閱讀

    百度模型4月1日起全面免費(fèi)開放

    近日,百度公司正式對外宣布,其備受關(guān)注的模型在經(jīng)過一系列迭代與優(yōu)化后,將于4月1日零時全面免費(fèi)開放給所有用戶。此次免費(fèi)開放的覆蓋范圍廣泛,包括所有PC端及App端用戶,讓用戶能夠盡情體驗(yàn)
    的頭像 發(fā)表于 02-14 09:19 ?469次閱讀

    百度宣布一言將全面免費(fèi)

    隨著模型的迭代升級和成本不斷下降,一言將于4月1日零時起,全面免費(fèi),所有PC端和APP端用戶均可體驗(yàn)
    的頭像 發(fā)表于 02-13 10:46 ?397次閱讀

    凌智電子受邀參加模型生態(tài)大會

    12月26日在上?!埥茖W(xué)會堂,由深度學(xué)習(xí)技術(shù)及應(yīng)用國家工程研究中心主辦,百度飛槳及模型承辦,以“模力無限星河共創(chuàng)”為主題的
    的頭像 發(fā)表于 01-03 16:35 ?629次閱讀
    凌智電子受邀參加<b class='flag-5'>文</b><b class='flag-5'>心</b>大<b class='flag-5'>模型</b>生態(tài)大會

    模力無限,星河共創(chuàng):啟明云端與您共赴模型生態(tài)大會

    在人工智能的浪潮中,我們即將迎來一場科技界的盛會——模型生態(tài)大會。這場將于12月26日在上?!埥茖W(xué)會堂舉行的大會,由深度學(xué)習(xí)技術(shù)及應(yīng)用國家工程研究中心主辦,百度飛槳及
    的頭像 發(fā)表于 12-24 18:01 ?1306次閱讀
    模力無限,星河共創(chuàng):啟明云端與您共赴<b class='flag-5'>文</b><b class='flag-5'>心</b>大<b class='flag-5'>模型</b>生態(tài)大會

    百度模型日均調(diào)用量超15億

    近日,百度在上海世博中心舉辦了主題為“應(yīng)用來了”的百度世界2024大會。會上,百度董事長李彥宏分享了關(guān)于大模型行業(yè)的最新動態(tài)和百度模型
    的頭像 發(fā)表于 11-12 15:28 ?707次閱讀

    李彥宏宣布:百度模型日調(diào)用量超15億

    在百度世界2024大會上,百度公司創(chuàng)始李彥宏宣布了一項(xiàng)令人矚目的數(shù)據(jù):百度模型的日調(diào)用量已經(jīng)超過15億次。這一數(shù)據(jù)不僅彰顯了百度在人工智能領(lǐng)域的領(lǐng)先地位,也預(yù)示著人工智能技術(shù)的
    的頭像 發(fā)表于 11-12 10:40 ?583次閱讀