99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

文生圖大型實(shí)踐:揭秘百度搜索AIGC繪畫(huà)工具的背后故事!

jf_WZTOguxH ? 來(lái)源:AI前線(xiàn) ? 2023-11-21 16:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

自從進(jìn)入 2023 年以來(lái),AIGC 技術(shù)已催生了新一輪人工智能浪潮。AI 繪畫(huà)作為大模型最引人矚目的應(yīng)用領(lǐng)域之一,近年來(lái)也取得了重大突破。AI 繪畫(huà)系統(tǒng)可以根據(jù)用戶(hù)的輸入或提示生成各種風(fēng)格的圖像,這為藝術(shù)家、設(shè)計(jì)師和創(chuàng)作者提供了強(qiáng)大的工具,也為數(shù)字創(chuàng)意領(lǐng)域帶來(lái)了新的可能性。在本期“極客有約”對(duì)話(huà)節(jié)目中,魚(yú)哲和百度搜索主任架構(gòu)師 TianBao 就圖像生成技術(shù)進(jìn)行了深入探討,包括百度搜索的應(yīng)用場(chǎng)景、相關(guān)技術(shù)的思考,以及在搜索業(yè)務(wù)場(chǎng)景的應(yīng)用落地經(jīng)驗(yàn)。

亮點(diǎn):

這是一個(gè)巨大的變革,從過(guò)去用戶(hù)在全網(wǎng)尋找圖像,轉(zhuǎn)變?yōu)榻Y(jié)合了查找圖像和生成圖像兩種方式,以滿(mǎn)足用戶(hù)更具體的需求,這也在一定程度上鼓勵(lì)用戶(hù)更主動(dòng)地表達(dá)他們真正的需求。

要使一個(gè)模型更好地理解中文,準(zhǔn)備和清理與中文語(yǔ)義相關(guān)的語(yǔ)料非常重要。

對(duì)于去除低質(zhì)量樣本和構(gòu)建高價(jià)值樣本,這些都是圖文對(duì)齊所必需的能力。

百度搜索需要滿(mǎn)足用戶(hù)在內(nèi)容和風(fēng)格方面多樣化的需求,因此在百度搜索目前支持上千種不同的畫(huà)面風(fēng)格定義。

遵循美學(xué)標(biāo)準(zhǔn),構(gòu)建自己的美學(xué)認(rèn)知,無(wú)論是在整體模型構(gòu)建方面還是在算法優(yōu)化方面,都需要按照這些先進(jìn)標(biāo)準(zhǔn)來(lái)進(jìn)行相關(guān)的指導(dǎo)和評(píng)估。

文生圖的技術(shù)發(fā)展過(guò)程

魚(yú)哲:AIGC 從去年 9 月到現(xiàn)在,我們能看到各種各樣的模型和公司不斷涌現(xiàn)。從最初大家使用 Stable Diffusion 來(lái)生成簡(jiǎn)單的圖像,到后來(lái)用一些其它方法進(jìn)行生成式圖像編輯,后來(lái)甚至 Adobe Photoshop 支持使用自然語(yǔ)言方式修改圖片。我覺(jué)得從之前看到的 AIGC 在生成文本方面取得的成就之外,還有更多有趣的應(yīng)用領(lǐng)域。除了生成圖片,還能夠生成視頻音頻。最近,我也看到了一些令人驚艷的生成視頻產(chǎn)品。今天想請(qǐng) TianBao 老師跟大家展開(kāi)介紹一下文生圖技術(shù)目前的整體發(fā)展趨勢(shì)是什么樣的。

TianBao:2022 年可以算是文生圖的元年,整體上分為以 Stable Diffusion 為代表的開(kāi)源的流派,以及 Midjourney 、Adobe 的 Firefly、Dall-E 3 為代表的閉源模型。而之所以說(shuō)這一年是元年,是源于 Disco Diffusion。Disco Diffusion 的目標(biāo)主要是 landscape 等風(fēng)景類(lèi)創(chuàng)作,風(fēng)景類(lèi)場(chǎng)景是一個(gè)容錯(cuò)率比較高的場(chǎng)景,并結(jié)合了富有視覺(jué)沖擊的色彩,極具藝術(shù)質(zhì)感,這在 2021 年底至 2022 年初,是一個(gè)很大膽、很驚艷的一個(gè)嘗試。

直到 2022 年 2 月,Midjourney 發(fā)布了 v1 版本。v1 的整體效果相當(dāng)令人吃驚,但在生成人像方面還差強(qiáng)人意。直到同年 7 月中旬,Midjourney v3 才能正常地生成一些常規(guī)人像。在 8 月份時(shí),作品《太空歌劇院》就通過(guò) Midjourney v3 進(jìn)行生成,加上 Photoshop 的后期處理,這使得 Midjourney 成功引起了轟動(dòng)。

stable-diffusion 1.5 版本也在同一時(shí)期開(kāi)源,這個(gè)開(kāi)源事件具有里程碑的意義,因?yàn)閺哪菚r(shí)起,像 C 站這樣的更多用戶(hù)開(kāi)始涌向去中心化的模型和優(yōu)化領(lǐng)域。隨著開(kāi)源技術(shù)的發(fā)展,整個(gè)生態(tài)系統(tǒng),包括下游應(yīng)用,都經(jīng)歷了爆發(fā)式增長(zhǎng)和涌現(xiàn)。之后,技術(shù)的進(jìn)步以及下游應(yīng)用的發(fā)展持續(xù)在相互促進(jìn)。

百度文生圖的探索和成果

魚(yú)哲:我大致還記得 Stable Diffusion 剛開(kāi)始的效果并不太好,例如在嘗試生成人像時(shí),出現(xiàn)了很多扭曲的結(jié)果,如一個(gè)人有三條腿或多個(gè)眼睛。隨著時(shí)間推移,這一技術(shù)逐漸變得更加逼真。同時(shí),類(lèi)似 Civitai 的 AI 技術(shù)也興起,允許人們根據(jù)他們的圖像進(jìn)行各種場(chǎng)景的創(chuàng)作,比如受歡迎的原神系列。這種生成圖像技術(shù)的發(fā)展催生了多種應(yīng)用。比如,在抽卡類(lèi)游戲中,原畫(huà)師可以利用這一技術(shù)來(lái)創(chuàng)建游戲組件。在百度搜索等國(guó)民級(jí)應(yīng)用中,文生圖又如何與場(chǎng)景相結(jié)合的?剛開(kāi)始,我理解它可能是在搜索框中,用戶(hù)輸入關(guān)鍵詞后能夠找到相關(guān)的圖像,但我相信你們會(huì)有更多不同的創(chuàng)新。

TianBao:早期,百度也進(jìn)行了一些 AIGC 圖像生成的嘗試。正如剛才和大家討論的,文生圖技術(shù)從最初的結(jié)果不夠可用,逐漸變得可用,并能夠釋放想象力,帶來(lái)了引人注目的視覺(jué)沖擊。對(duì)于搜索,用戶(hù)以前要找一張圖片,通常會(huì)進(jìn)行文本搜索。例如,一個(gè)戴著太陽(yáng)鏡和帽子的貓,做著憤怒的手勢(shì),用戶(hù)在腦海中構(gòu)想的畫(huà)面,他們通常只能在全網(wǎng)中搜索到已經(jīng)被創(chuàng)作好的、可感知的內(nèi)容。但對(duì)于一些更具體的場(chǎng)景,比如貓要做著憤怒的手勢(shì),穿著特殊服飾,如果全網(wǎng)沒(méi)有人創(chuàng)作這種圖片,用戶(hù)需求的滿(mǎn)足就會(huì)受到限制,導(dǎo)致需求退化成尋找一個(gè)憤怒的貓,之后,他們將變成瀏覽型需求,查看全網(wǎng)上是否有類(lèi)似的憤怒的貓來(lái)滿(mǎn)足他們的需求。

93aff642-8842-11ee-939d-92fbcf53809c.jpg

然而,隨著生成式技術(shù)的迅速發(fā)展,我們現(xiàn)在有能力將用戶(hù)腦海中的圖像具體呈現(xiàn)出來(lái),以滿(mǎn)足他們的需求。我們將用戶(hù)的查找需求,轉(zhuǎn)變?yōu)榻Y(jié)合了查找圖像和生成圖像兩種方式,以滿(mǎn)足用戶(hù)更具體的需求,這也在一定程度上鼓勵(lì)用戶(hù)更主動(dòng)地表達(dá)他們真正的需求。在產(chǎn)品方面,用戶(hù)可以通過(guò)百度的 App,搜索"畫(huà)一個(gè)憤怒的貓"或者"畫(huà)一畫(huà)",然后進(jìn)入文生圖的相關(guān)功能頁(yè)面,大家可以親自體驗(yàn)一下。

尋找一張圖片是搜索的第一步。在圖像領(lǐng)域,許多創(chuàng)作者首先需要找到適合他們需求的圖像,然后他們可能需要用這張圖像作為頭像,或者用它作為創(chuàng)作素材,或者在工作中使用它。因此,在生成的過(guò)程中,我們正在加入編輯工作,例如修復(fù)(inpainting)、擴(kuò)展(outpainting)。舉個(gè)例子,如果畫(huà)面中有一只戴著帽子的貓,通過(guò)自然語(yǔ)言交互,我們可以將貓?zhí)鎿Q為一只狗,從而增加了圖像的再利用能力。這背后通常會(huì)涉及一個(gè)基于文生圖的預(yù)訓(xùn)練大模型,用于圖像編輯。整體而言,從最初的尋找圖像,變成了“找圖”加“生圖”的過(guò)程,然后進(jìn)入到第二個(gè)階段,即圖像的用途,以滿(mǎn)足用戶(hù)在圖像領(lǐng)域的需求。

文生圖的實(shí)踐及挑戰(zhàn)

魚(yú)哲:聽(tīng)起來(lái)這是一個(gè)非常有趣的應(yīng)用場(chǎng)景,因?yàn)楹芏鄷r(shí)候,比如我以前制作 PPT 時(shí),需要找到能滿(mǎn)足我的想象場(chǎng)景的圖像,例如客戶(hù)使用產(chǎn)品的場(chǎng)景或某個(gè)行業(yè)的照片。然而,我又不希望侵犯版權(quán),或者避免涉及各種圖像來(lái)源的糾紛。在這種情況下,能夠找到圖像,并在此基礎(chǔ)上進(jìn)行 inpainting 修改、邊框補(bǔ)全,甚至進(jìn)行圖像超分辨率處理,這實(shí)際上是一個(gè)非常實(shí)用的應(yīng)用場(chǎng)景。

外界可能認(rèn)為我們只支持一些基本的圖像生成和編輯功能,如生成、簡(jiǎn)單編輯、邊框展開(kāi)以及高分辨率圖像的補(bǔ)全。但實(shí)際上,根據(jù)我的了解,這項(xiàng)技術(shù)在中文語(yǔ)境下是相當(dāng)具有挑戰(zhàn)性的。特別是針對(duì)中文文化和語(yǔ)義場(chǎng)景,大部分模型通常是在以英語(yǔ)為基礎(chǔ)的語(yǔ)境下進(jìn)行訓(xùn)練的,其原始語(yǔ)料庫(kù)也是英語(yǔ)為主。然而,百度作為中文搜索引擎領(lǐng)域的巨頭,需要處理中文和英文,甚至一些方言的情況,面對(duì)這種挑戰(zhàn)是如何應(yīng)對(duì)的?

TianBao:作為最大的中文搜索引擎,百度在理解中文方面具有更強(qiáng)的優(yōu)勢(shì),包括對(duì)中文特有元素、中文習(xí)慣表達(dá)以及方言的理解。要使一個(gè)模型更好地理解中文,準(zhǔn)備和清理與中文語(yǔ)義相關(guān)的語(yǔ)料顯然是不可或缺的步驟。

我們?cè)谒阉黝I(lǐng)域擁有感知全網(wǎng)最全的中文語(yǔ)料的能力,這是天然優(yōu)勢(shì)。但除此之外,還需要進(jìn)行樣本的清理、更全面的知識(shí)覆蓋、獲取更多多樣性的高質(zhì)量樣本等,以更好地理解整體模型的語(yǔ)義。同時(shí),如果我們希望模型生成的圖像質(zhì)量更高,就需要考慮圖像質(zhì)量、美學(xué)因素,例如圖像中物體的明顯特征和美學(xué)風(fēng)格的準(zhǔn)確呈現(xiàn)。此外,還需要進(jìn)行去重處理,這些都需要有基礎(chǔ)的算子能力支持。

所以對(duì)于清洗來(lái)說(shuō),底層基礎(chǔ)算子的基建也是一個(gè)非常重要的工作。百度在圖片基礎(chǔ)層面的刻畫(huà)體系上有多年的積累,所以我們?cè)谑珍浀臄?shù)據(jù)優(yōu)勢(shì)之上,可以快速根據(jù)模型的不同目標(biāo),進(jìn)行樣本的組織和篩選。例如,我們想要更好的語(yǔ)義樣本,要做到樣本的均衡,要積累不同等級(jí)質(zhì)量和美觀(guān)度的樣本,包括一些人像或者是特殊的 IP 概念等。我們對(duì)這些樣本進(jìn)行快速學(xué)習(xí),而后應(yīng)用在模型里。

魚(yú)哲:對(duì)于生成圖像大模型,一方面,在訓(xùn)練過(guò)程中,我們需要準(zhǔn)備高質(zhì)量的數(shù)據(jù)集,建立一個(gè)良好的基礎(chǔ)。另一方面,用戶(hù)在使用時(shí)可能會(huì)提供各種各樣的復(fù)雜描述,例如描述一個(gè)杯子,用戶(hù)可能會(huì)加入很多形容詞,比如高的、透明的、藍(lán)色的,里面裝了一只蟋蟀等,這些描述詞可能超出了標(biāo)準(zhǔn)模型支持的 Token 長(zhǎng)度。特別是在中文語(yǔ)境中,用戶(hù)的描述可能更長(zhǎng),就像您剛才提到的,一只戴著帽子、站在山峰頂、吹著西北風(fēng)、雪花在背后飄落的貓。在這種情況下,如何處理具有大量描述詞和形容詞的圖像是一個(gè)挑戰(zhàn)嗎?

TianBao:這是一個(gè)非常好的問(wèn)題。圖文配對(duì)的質(zhì)量非常重要。目前,大家主要關(guān)注的是開(kāi)源的 Laion-5b,一個(gè)包含 50 億樣本的英文模型,主要基于英文數(shù)據(jù)集,中文數(shù)據(jù)相對(duì)較少。同時(shí),從這個(gè)數(shù)據(jù)集中,我們也觀(guān)察到許多不相關(guān)的圖文對(duì)的問(wèn)題,這些問(wèn)題可能是由一些雜質(zhì)引起的。因此,我們需要使用相關(guān)性建模算法來(lái)過(guò)濾掉這些不相關(guān)的圖文對(duì)。

對(duì)于使用中文數(shù)據(jù)集,例如 Laion-5b,有一種較快速的方法,即通過(guò)英文翻譯成中文。然而,這種方法可能會(huì)引入很多語(yǔ)言上的歧義,特別是中英文之間表達(dá)上的歧義,以及中文所特有的一些語(yǔ)義。例如,如果我們將"transformer"翻譯成中文,它可能會(huì)變成"變壓器",而如果是指一個(gè)頭像,對(duì)應(yīng)的英文可能會(huì)是"阿凡達(dá)"。這些情況都是由于中文語(yǔ)料建設(shè)不足導(dǎo)致的中文理解能力上的不足。關(guān)于剛才提到的圖文對(duì)的相關(guān)性質(zhì)量問(wèn)題,過(guò)濾低質(zhì)量的圖文對(duì),需要使用類(lèi)似于常規(guī)的 CLIPScore 等方式來(lái)度量圖文的相關(guān)性。

另一個(gè)方向是在優(yōu)質(zhì)數(shù)據(jù)集的構(gòu)建上。畢竟,一張圖片可以被非常詳細(xì)地描述成上百個(gè)字,而當(dāng)前互聯(lián)網(wǎng)上這種詳細(xì)描述的數(shù)據(jù)還相對(duì)較少。當(dāng)前互聯(lián)網(wǎng)上的描述通常較為簡(jiǎn)短,可能只包含幾十個(gè)標(biāo)記,甚至更短。因此,在構(gòu)建優(yōu)質(zhì)數(shù)據(jù)集方面,需要將一些高質(zhì)量的圖像與文本描述的力度和視角相結(jié)合,以進(jìn)行文本描述的補(bǔ)充。通常,人們描述的可能是圖像的主體和意境,但他們可能會(huì)忽略掉圖像中的背景、物體的數(shù)量以及基本實(shí)體的描述。因此,如何實(shí)現(xiàn)圖像和文本的對(duì)齊理解對(duì)于文生圖的構(gòu)建非常重要。

因此,對(duì)于提供高質(zhì)量樣本的問(wèn)題,可能需要更適合于圖像生成任務(wù)的模型,例如 caption 生成模型。百度在這方面積累了一些經(jīng)驗(yàn),所以對(duì)于去除低質(zhì)量樣本和構(gòu)建高價(jià)值樣本,這些都是圖文對(duì)齊所必需的能力。

圖片美感的評(píng)估

魚(yú)哲:確實(shí),與我想象的相比,這個(gè)處理的復(fù)雜度要高得多。您剛才提到的去除低質(zhì)量、保留高質(zhì)量的很重要。您所說(shuō)的低值和高值是指圖像質(zhì)量對(duì)嗎?在生成圖像時(shí),如果要生成一只貓,首先它必須是一只貓,其次重要的是它必須符合美感。它必須符合一只貓的形狀,或者說(shuō)它必須符合一只狗的形狀,而美感是一個(gè)非常主觀(guān)的事情。例如,即使是一只貓,有些人喜歡圓圓的、胖胖的、毛發(fā)豐富的貓,他們認(rèn)為最好是長(zhǎng)得像個(gè)球一樣,但有些人認(rèn)為貓應(yīng)該像貓一樣,應(yīng)該有貓的特征,頭是頭,腿是腿,脖子是脖子。在這種情況下,百度如何處理關(guān)于貓應(yīng)該長(zhǎng)成什么樣子的問(wèn)題呢?

93cc5972-8842-11ee-939d-92fbcf53809c.jpg

TianBao:對(duì)于美學(xué),確實(shí)像剛才提到的,它是一個(gè)偏主觀(guān)的一個(gè)感知,其實(shí)是千人千面的,大家可能對(duì)美的認(rèn)知是不太一樣的,但是這里面我們其實(shí)是期望通過(guò)大部分人的美學(xué)認(rèn)知,提出一些美學(xué)的定義。

例如,美學(xué)的定義通常包括圖像的構(gòu)圖,整個(gè)畫(huà)面的結(jié)構(gòu)是什么樣的,還包括色彩的應(yīng)用,如飽和度、對(duì)比度、整體的配色,以及光感,例如在攝影棚中的光線(xiàn)設(shè)置,如何為不同場(chǎng)景創(chuàng)造更好和更合適的光感。除了視覺(jué)色彩方面的定義,畫(huà)面的內(nèi)容也可以體現(xiàn)美學(xué),例如畫(huà)面內(nèi)容的豐富度或畫(huà)面的敘事性,這些都是由畫(huà)面內(nèi)的內(nèi)容構(gòu)成的。因此,這些維度形成了更具普世性的美學(xué)標(biāo)準(zhǔn)。

我們遵循這些美學(xué)標(biāo)準(zhǔn),然后構(gòu)建自己的美學(xué)認(rèn)知,無(wú)論是在整體模型構(gòu)建方面還是在算法優(yōu)化方面,都按照這些先進(jìn)標(biāo)準(zhǔn)來(lái)進(jìn)行相關(guān)的指導(dǎo)和評(píng)估。除了美學(xué)之外,圖像的清晰度也會(huì)影響整體的質(zhì)感。同時(shí),內(nèi)容的一致性也很重要,如果看到一只貓有三只腿,內(nèi)容實(shí)體的不一致性將會(huì)導(dǎo)致缺陷,從而間接影響圖像的可用性和美感。

魚(yú)哲:您剛剛提到內(nèi)容的一致性,可以展開(kāi)這個(gè)解釋一下這個(gè)概念嗎?

TianBao:內(nèi)容一致性可以大概理解為內(nèi)容的質(zhì)量或可用性。比如,如果畫(huà)一只手,出現(xiàn)了手部的畸形或畸變,這實(shí)際上與我們通常對(duì)手的概念不符。這會(huì)導(dǎo)致手的實(shí)體不一致,因此可以認(rèn)為它存在質(zhì)量問(wèn)題。

文生圖提示工程

魚(yú)哲:不同場(chǎng)景和用途對(duì)美學(xué)要求不同,以戴帽子和太陽(yáng)鏡的貓為例,用戶(hù)可能希望生成不同風(fēng)格的漫畫(huà),如日漫和美漫,它們?cè)谝曈X(jué)體驗(yàn)上有顯著差異。美漫通常色彩豐富、輪廓鮮明,而日漫則以黑白為主,視覺(jué)沖擊力較強(qiáng)。在保障在內(nèi)容一致性的要求下,百度是如何在不同風(fēng)格的情況下,從用戶(hù)的 prompt 中獲取相關(guān)信息,以支持不同畫(huà)風(fēng)的生成?

TianBao:我們來(lái)看一下當(dāng)前文生成圖的應(yīng)用場(chǎng)景。目前,在主流的交互中,通常提供了一些明確定義的特定風(fēng)格選項(xiàng),如漫畫(huà)風(fēng)格或水彩畫(huà)風(fēng)格。但對(duì)于用戶(hù)而言,不應(yīng)該受到過(guò)多的限制,例如,如果用戶(hù)需要生成一個(gè)賽博朋克風(fēng)格的貓,將其繪制成卡通風(fēng)格就無(wú)法滿(mǎn)足用戶(hù)需求。也就是說(shuō),用戶(hù)不僅可以描述生成畫(huà)面中出現(xiàn)的內(nèi)容,如貓,還可以描述他們期望的畫(huà)面風(fēng)格。因此,百度搜索需要滿(mǎn)足用戶(hù)在內(nèi)容和風(fēng)格方面多樣化的需求。

在百度搜索中,我們目前支持上千種不同的畫(huà)面風(fēng)格定義。舉例來(lái)說(shuō),用戶(hù)可以將一只貓呈現(xiàn)為水墨畫(huà)或卡通畫(huà),也可以將它呈現(xiàn)為鋁制品或雕刻品,甚至以不同的材質(zhì)。此外,用戶(hù)還可以選擇不同的視角,如帶有運(yùn)動(dòng)模糊效果、延時(shí)攝影效果,或者魚(yú)眼和廣角視角等。我們覆蓋了多種不同的風(fēng)格和分類(lèi),因此用戶(hù)如果有更具體的風(fēng)格要求,只需在他們的 prompt 中包含相關(guān)風(fēng)格,即可獲得符合他們期望的畫(huà)面并具備相應(yīng)風(fēng)格。

魚(yú)哲:我還有一個(gè)問(wèn)題,就是關(guān)于風(fēng)格的疊加,是否支持這種操作?例如,能否將魚(yú)眼廣角和水墨畫(huà)的風(fēng)格同時(shí)應(yīng)用在圖像上?因?yàn)橐粋€(gè)是關(guān)于畫(huà)風(fēng),另一個(gè)是視角,那如果我們想要將水墨畫(huà)與卡通風(fēng)格結(jié)合,這是否也是支持的呢?

TianBao:在模型方面,支持多風(fēng)格是可行的,這樣可以激發(fā)新的風(fēng)格創(chuàng)意。然而,我們面臨的另一個(gè)問(wèn)題是如何在保持內(nèi)容一致性的前提下,有效地融合和協(xié)調(diào)多種風(fēng)格。因?yàn)椴煌L(fēng)格之間的差異可能很大,可能會(huì)發(fā)生一些相互制約的情況,但這確實(shí)為用戶(hù)提供了更多的實(shí)驗(yàn)和探索機(jī)會(huì),可以通過(guò)嘗試不同風(fēng)格的組合,實(shí)現(xiàn)更廣泛的創(chuàng)意空間。

魚(yú)哲:如果我有多個(gè)風(fēng)格的關(guān)鍵詞去描述最后的主體,最后整張圖出來(lái)的效果和關(guān)鍵詞所在的位置的關(guān)聯(lián)度大嗎?比如說(shuō)水墨、卡通風(fēng)格的貓和卡通、水墨風(fēng)格的貓,這兩個(gè)出來(lái)的效果會(huì)是一樣的嗎?

TianBao:這個(gè)其實(shí)就會(huì)涉及到剛才說(shuō)的一個(gè)可控性。最基本的,就像剛才提到的貓一樣。它關(guān)系到我們?nèi)绾慰刂粕傻膬?nèi)容,尤其是在涉及到風(fēng)格方面。實(shí)際上,可控性與我們整體的 prompt 方式相關(guān),因?yàn)椴煌?prompt 方式可以導(dǎo)致不同的結(jié)果。有些人可能會(huì)提供簡(jiǎn)短的提示,可能前后并列會(huì)輸入兩個(gè)不同的風(fēng)格,而其他人可能更喜歡更詳細(xì)的 prompt 表達(dá)方式,比如他們可能希望描述一個(gè)場(chǎng)景的畫(huà)面,指定特定的風(fēng)格,或者強(qiáng)調(diào)某種風(fēng)格在生成中的比重。這些都是不同的 prompt 方式,可以影響生成內(nèi)容的方式。

然后對(duì)于這種可控來(lái)說(shuō),其實(shí)現(xiàn)在這種順序上會(huì)有一些 Bias。比如 Stable Diffusion 的 prompt 煉丹,也會(huì)提及一些,比如怎么寫(xiě) prompt,是放到前面好還是后面好,其實(shí)本質(zhì)上是一種控制的能力,理想的話(huà)應(yīng)該不會(huì)存在這樣的一些偏差。當(dāng)然最理想的還是我們可以引導(dǎo)用戶(hù)能夠去更精準(zhǔn)的去表達(dá)自己腦海中的畫(huà)面。

魚(yú)哲:剛才提到百度支持上千種風(fēng)格,我想問(wèn),這上千種風(fēng)格是人工梳理的,還是通過(guò)模型聚類(lèi)后自動(dòng)生成的?對(duì)于用戶(hù)來(lái)說(shuō),知道有這么多風(fēng)格可選可能一開(kāi)始會(huì)覺(jué)得有點(diǎn)過(guò)多,有點(diǎn)難以選擇。

TianBao:關(guān)于風(fēng)格,基于我們之前提到的,我們對(duì)全網(wǎng)內(nèi)容的感知非常廣泛,因此我們有能力感知到全網(wǎng)存在的各種風(fēng)格數(shù)據(jù)。第二點(diǎn)是,我們也依賴(lài)于對(duì)圖像相關(guān)的理解,無(wú)論是聚合算法還是風(fēng)格美觀(guān)度的描述,都需要首先有數(shù)據(jù),然后通過(guò)數(shù)據(jù)的篩選和識(shí)別能力,對(duì)這些風(fēng)格進(jìn)行自然而然的呈現(xiàn)。這是對(duì)風(fēng)格定義的方式。

另外剛才提到的,比如說(shuō)我們當(dāng)前支持上千種風(fēng)格,對(duì)于用戶(hù)來(lái)說(shuō),其實(shí)大家可能還是得有一個(gè)認(rèn)知的過(guò)程,因?yàn)槊恳环N風(fēng)格可能對(duì)于藝術(shù)向的用戶(hù)來(lái)說(shuō)還是會(huì)有比較大的一些驚喜的。比如我們看到某種風(fēng)格和我們常規(guī)看到的畫(huà)面有很大的這種區(qū)別,也具備很強(qiáng)的視覺(jué)沖擊感。所以這里面怎么樣能夠把我們已有的這些風(fēng)格能夠更好的傳遞給用戶(hù),讓用戶(hù)理解這種風(fēng)格,并且在后續(xù)的這些需求滿(mǎn)足創(chuàng)作中能夠應(yīng)用上這些風(fēng)格,這其實(shí)是需要整體的產(chǎn)品和技術(shù)來(lái)引導(dǎo)的一個(gè)工作。

魚(yú)哲:正如你剛提到的,有上千種不同的藝術(shù)風(fēng)格。即使對(duì)于非專(zhuān)業(yè)和一些專(zhuān)業(yè)的美術(shù)生來(lái)說(shuō),通常只了解一兩種風(fēng)格,比如素描或水墨畫(huà)。實(shí)際上,很少有人能深入了解這么多不同風(fēng)格并寫(xiě)出好的提示詞。那么,當(dāng)用戶(hù)不太了解如何編寫(xiě) prompt 提示詞時(shí),我們?cè)撛趺刺幚砟兀勘热?,用?hù)第一次使用百度,除非有人告訴他們,他們可能不知道支持上千種風(fēng)格。在這種情況下,我們應(yīng)該如何處理,并引導(dǎo)他們了解更多有關(guān)百度的各種風(fēng)格以及可以編寫(xiě)的其他提示詞呢?

TianBao:對(duì)于藝術(shù)風(fēng)格和創(chuàng)造性而言,大家更常接觸到關(guān)鍵詞"Midjourney",可以將其作為一個(gè)例子,來(lái)講述一個(gè)從零開(kāi)始激發(fā)想象力的過(guò)程。在早期的運(yùn)營(yíng)推廣中,有些資源并未過(guò)多優(yōu)化提示詞。通常,它們提供了一些相對(duì)簡(jiǎn)單的提示詞,比如"dog"(狗)。然而,這是建立在 disco 社區(qū)基礎(chǔ)之上的,允許所有用戶(hù)參與。一些用戶(hù)嘗試將他們的提示詞更改為描述一只毛茸茸的狗,而其他用戶(hù)可能更喜歡科幻題材,例如一只擁有鐳射眼睛的狗是什么樣子。通過(guò)不斷的嘗試,他們會(huì)發(fā)現(xiàn)在不同的提示詞下可以獲得更引人入勝或有趣的效果。這導(dǎo)致了彼此學(xué)習(xí),觀(guān)察其他人如何生成內(nèi)容,如何設(shè)置提示詞,以及這會(huì)產(chǎn)生什么樣的效果。因此,提示詞的優(yōu)化逐漸變得流行起來(lái)。這個(gè)問(wèn)題對(duì)于整個(gè)業(yè)界,包括百度搜索和文生圖,也是類(lèi)似的。

對(duì)于一般用戶(hù)而言,他們可能較少接觸文生圖這個(gè)場(chǎng)景。對(duì)于初次使用的用戶(hù),通常只是嘗試?yán)L制一只貓或一只小狗,這引出了一個(gè)問(wèn)題,即如何在用戶(hù)使用環(huán)境相對(duì)簡(jiǎn)單的情況下,為他們生成更好的效果。

這里就會(huì)涉及到 prompt 的擴(kuò)充或者是改寫(xiě)。這里有兩種思路,一種是去擴(kuò)充畫(huà)面的內(nèi)容,類(lèi)似于內(nèi)容的一個(gè)豐富性或者是故事感。比如剛才說(shuō)的戴著帽子,然后做著憤怒的手勢(shì)的狗,把畫(huà)面更具象,其實(shí)這是 prompt 的優(yōu)化所做的一個(gè)工作。同樣也可以對(duì)風(fēng)格進(jìn)行一些擴(kuò)展,我們可以感知到大部分人對(duì)于這個(gè)內(nèi)容之下更喜歡哪些風(fēng)格,我們就可以通過(guò)這種 prompt 來(lái)做更多風(fēng)格的一些擴(kuò)寫(xiě)。像剛才說(shuō)的內(nèi)容以及在風(fēng)格上的一些擴(kuò)寫(xiě)多樣性之后,就可以極大的去優(yōu)化畫(huà)面的內(nèi)容豐富度、故事性,以及風(fēng)格和美觀(guān)的程度。所以這里面會(huì)涉及到怎么樣把一個(gè)簡(jiǎn)單的表達(dá)的 prompt 的輸入,通過(guò)優(yōu)化的方式變成一個(gè)對(duì)模型來(lái)說(shuō)效果更好的一組 prompt。

魚(yú)哲:有一個(gè)更具體的問(wèn)題需要討論,涉及到 prompt 的改寫(xiě)。例如,當(dāng)我們將一個(gè)提示從描述一只狗轉(zhuǎn)變?yōu)橐恢粠弊拥纳鷼獾氖謩?shì)狗時(shí),用戶(hù)實(shí)際上無(wú)法看到被改寫(xiě)的部分。我們是否能夠確保每次改寫(xiě)都是一樣的,或者每次改寫(xiě)的內(nèi)容可能略有不同?舉例來(lái)說(shuō),第一次可能是一只戴帽子的狗,而第二次可能是一只戴眼鏡躺在沙灘上的狗。這個(gè)過(guò)程是否具有隨機(jī)性,或者每次都是固定的?

TianBao:對(duì)于 prompt 的改寫(xiě)來(lái)說(shuō),其實(shí)我們更期望給到用戶(hù)更多多樣性、更多豐富的結(jié)果。因?yàn)槿绻且粭l狗的話(huà),我們可以想象到的是一個(gè)主體是一條狗,可能會(huì)有不同的一些犬類(lèi)的品種,但是狗可能穿著不同服飾出現(xiàn)在不同場(chǎng)景之下,這個(gè)對(duì)更多人來(lái)說(shuō)會(huì)有更多樣的一些結(jié)果,大家會(huì)有更多的預(yù)期。所以在模型層面,我們期望通過(guò) prompt 這種改寫(xiě)和優(yōu)化,有更多的多樣性的備選,然后基于用戶(hù)實(shí)際的反饋,去來(lái)感知用戶(hù)對(duì)哪些風(fēng)格,對(duì)什么類(lèi)型的內(nèi)容場(chǎng)景的一個(gè)畫(huà)面結(jié)果會(huì)感興趣,后驗(yàn)反饋會(huì)比較高,這對(duì)于整體的 prompt 的改寫(xiě)模型也會(huì)有數(shù)據(jù)促進(jìn)的作用。

反饋和評(píng)估

魚(yú)哲:剛剛提到了改寫(xiě),從用戶(hù)側(cè)收集反饋來(lái)迭代模型,有一個(gè)詞叫做 RLHF(Reinforcement Learning from Human Feedback)。這里我覺(jué)得最難的點(diǎn)是 human feedback 是不穩(wěn)定的,因?yàn)槿伺c人之間的主觀(guān)觀(guān)點(diǎn)會(huì)差很多。如果我們需要依賴(lài)人的反饋來(lái)去迭代模型,其實(shí)是比較困難的。如果再落實(shí)到說(shuō)模型的 evaluation 上來(lái)說(shuō),在這種情況下,百度是如何去 manage balance,在圖像生成的方向上去做評(píng)估。

TianBao:關(guān)于后驗(yàn)反饋,首先需要考慮反饋數(shù)據(jù)是否確實(shí)能夠代表人類(lèi)的后驗(yàn)反饋,這對(duì)于反饋質(zhì)量有更高的要求。因此,可以將這一方面與產(chǎn)品的整體設(shè)計(jì)和用戶(hù)交互相結(jié)合,以收集更多積極的用戶(hù)行為反饋。例如,當(dāng)用戶(hù)對(duì)某個(gè)結(jié)果感興趣時(shí),他們可能會(huì)點(diǎn)擊圖片以進(jìn)行放大查看,然后進(jìn)行下載等后續(xù)行為,這些都是積極的反饋。如果用戶(hù)對(duì)某張圖片點(diǎn)贊或進(jìn)行評(píng)論,也提供了直接的反饋。我們希望在整個(gè)反饋系統(tǒng)中更有效地收集這些反饋,因?yàn)樗鼈儗?shí)際上反映了用戶(hù)的偏好。至于模棱兩可的反饋,只能通過(guò)更大的樣本量來(lái)收集更具代表性的數(shù)據(jù)。

魚(yú)哲:過(guò)去,無(wú)論是傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)還是標(biāo)準(zhǔn)的深度學(xué)習(xí)模型,基本上都是監(jiān)督學(xué)習(xí),需要樣本或監(jiān)督來(lái)計(jì)算 F1 分?jǐn)?shù)、IQZ 和 VCR 等指標(biāo)。然而,對(duì)于生成式模型,如 GPT 系列模型或 DALL-E 這樣的生成式模型,技術(shù)上并沒(méi)有像以前那樣的標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集,大家可以根據(jù)這些基準(zhǔn)數(shù)據(jù)集來(lái)生成和評(píng)估。相比之下,生成式模型需要一種更高效的評(píng)價(jià)方法,而不是依賴(lài)人工逐個(gè)觀(guān)察。在這個(gè)領(lǐng)域,與其讓人們用肉眼逐個(gè)觀(guān)察,是否有方法可以更高效地進(jìn)行評(píng)估呢?

TianBao:更高效的方法實(shí)際上更多地涉及到人機(jī)結(jié)合的手段。就像之前提到的圖像評(píng)價(jià),我們可以通過(guò)一些初步的機(jī)器指標(biāo)來(lái)進(jìn)行觀(guān)察。如果我們關(guān)注整體的相關(guān)性或質(zhì)量美觀(guān)度,那么在某些機(jī)器指標(biāo)上可以進(jìn)行一些刻畫(huà)。但如果需要精確評(píng)估兩張圖片之間的差異,這些機(jī)器指標(biāo)可能并不具備太大的意義,更需要人工進(jìn)行判斷。前面提到的機(jī)器初步評(píng)估可以幫助人們進(jìn)行初步的篩選,從而在人工評(píng)價(jià)方面節(jié)省一些勞動(dòng)力。

未來(lái)展望

魚(yú)哲:好的,接下來(lái)的問(wèn)題稍微展望未來(lái),盡管并不是非常遙遠(yuǎn),因?yàn)樽罱铱吹皆S多初創(chuàng)團(tuán)隊(duì)和相關(guān)公司正在嘗試這個(gè)領(lǐng)域。以動(dòng)畫(huà)為例,動(dòng)畫(huà)實(shí)際上是將多幅圖像的幀疊加在一起呈現(xiàn)的。通常,動(dòng)畫(huà)電影以每秒 24 幀或 16 幀的速度播放。除了靜態(tài)單幅圖像的編輯,我們可以看到在 AIGC 領(lǐng)域,對(duì)于視頻生成或短視頻生成,無(wú)論是三秒還是七八秒的視頻,都在不斷發(fā)展。之前 Runway 團(tuán)隊(duì)曾舉辦了一個(gè)使用文生圖進(jìn)行視頻生成的比賽。您認(rèn)為在未來(lái)多久內(nèi),我們會(huì)看到第一部完全由 AI 生成的電影或電影狀態(tài)?

TianBao:簡(jiǎn)要回顧一下圖像生成,在 2022 年初,圖像生成效果并不是特別理想,但到了 2022 年的七八月份,整體變得更加可行。根據(jù)技術(shù)發(fā)展趨勢(shì),對(duì)于動(dòng)態(tài)圖或視頻的生成,預(yù)計(jì)不會(huì)太久就會(huì)迎來(lái)技術(shù)的飛速發(fā)展。因?yàn)樽罱谝曨l生成領(lǐng)域還有很多探索,無(wú)論是基于可控生成的方法還是像 Runway 這樣生成幾秒小短片的方法。對(duì)于幾秒小短片,大家通常會(huì)將生成的最后一幀作為下一段的第一幀,以實(shí)現(xiàn)更連貫的長(zhǎng)視頻。然而,對(duì)于視頻生成來(lái)說(shuō),面臨更大的挑戰(zhàn),因?yàn)樗粌H要保證空間效果,還需要確保時(shí)間上的一致性,這引入了一個(gè)額外的維度,對(duì)技術(shù)要求更高。隨著最近對(duì)視頻生成的不斷探索,我們可以預(yù)計(jì)未來(lái)一到兩年內(nèi)可能會(huì)出現(xiàn)類(lèi)似于 Stable Diffusion 這樣革命性的時(shí)刻。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 百度
    +關(guān)注

    關(guān)注

    9

    文章

    2335

    瀏覽量

    92276
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3522

    瀏覽量

    50450
  • AIGC
    +關(guān)注

    關(guān)注

    1

    文章

    388

    瀏覽量

    2492

原文標(biāo)題:文生圖大型實(shí)踐:揭秘百度搜索 AIGC 繪畫(huà)工具的背后故事!

文章出處:【微信號(hào):AI前線(xiàn),微信公眾號(hào):AI前線(xiàn)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    百度搜索接入DeepSeek,業(yè)內(nèi)人士開(kāi)始擔(dān)心

    電子發(fā)燒友網(wǎng)報(bào)道(文 / 吳子鵬)2 月 16 日,百度搜索正式宣布,為豐富多元化的搜索體驗(yàn),將全面接入 DeepSeek 和文心大模型的最新深度搜索功能。同一天,騰訊方面向媒體確認(rèn),微信搜一搜也已
    的頭像 發(fā)表于 02-18 00:59 ?3621次閱讀
    <b class='flag-5'>百度搜索</b>接入DeepSeek,業(yè)內(nèi)人士開(kāi)始擔(dān)心

    百度發(fā)布文心4.5 Turbo、X1 Turbo和多款A(yù)I應(yīng)用

    近日,Create2025百度AI開(kāi)發(fā)者大會(huì)在武漢舉辦。百度創(chuàng)始人李彥宏發(fā)布了文心大模型4.5 Turbo及深度思考模型X1 Turbo兩大模型,以及多款A(yù)I應(yīng)用。王海峰現(xiàn)場(chǎng)詳細(xì)解讀了背后的技術(shù)。
    的頭像 發(fā)表于 04-30 10:16 ?557次閱讀

    上汽大眾與百度地圖達(dá)成戰(zhàn)略合作

    近日,上海國(guó)際車(chē)展期間,百度地圖與上汽大眾舉行科技X生態(tài)戰(zhàn)略合作伙伴簽約儀式,雙方將基于百度領(lǐng)先的車(chē)道級(jí)地圖產(chǎn)品,為上汽大眾千萬(wàn)車(chē)主打造更安全、高效的智能化出行體驗(yàn)。上汽大眾總經(jīng)理陶海龍、百度副總裁尚國(guó)斌等出席簽約儀式。
    的頭像 發(fā)表于 04-29 17:28 ?555次閱讀

    百度地圖在汽車(chē)智能化領(lǐng)域的應(yīng)用實(shí)踐

    近日,在中國(guó)電動(dòng)汽車(chē)人會(huì)論壇(2025)的智能汽車(chē)創(chuàng)新技術(shù)與產(chǎn)業(yè)論壇,百度地圖事業(yè)部副總經(jīng)理劉增剛發(fā)表主旨演講,分享了百度地圖在汽車(chē)智能化浪潮中價(jià)值思考和應(yīng)用實(shí)踐。他表示:“25年汽
    的頭像 發(fā)表于 04-03 15:02 ?1630次閱讀

    百度搜索全量接入DeepSeek-R1滿(mǎn)血版

    就在今天,百度APP全量上線(xiàn)「AI搜索」入口,打開(kāi)百度APP→點(diǎn)擊首頁(yè)底部AI入口,即可進(jìn)入搜索頁(yè)面,體驗(yàn)不同的模型解決復(fù)雜問(wèn)題。
    的頭像 發(fā)表于 02-25 10:24 ?764次閱讀

    百度搜索,能否將DeepSeek變成“內(nèi)功”?

    實(shí)測(cè)之后,會(huì)發(fā)現(xiàn)百度搜索和DeepSeek稱(chēng)得上“王炸組合”
    的頭像 發(fā)表于 02-21 10:04 ?2356次閱讀
    <b class='flag-5'>百度搜索</b>,能否將DeepSeek變成“內(nèi)功”?

    百度搜索全量上線(xiàn)DeepSeek滿(mǎn)血版

    近日,百度搜索迎來(lái)了一項(xiàng)重大更新——DeepSeek滿(mǎn)血版已全面上線(xiàn)。這一更新意味著用戶(hù)將能夠享受到更加智能、高效的搜索體驗(yàn)。 現(xiàn)在,用戶(hù)只需在百度App中輸入任意搜索詞,進(jìn)行一輪
    的頭像 發(fā)表于 02-19 13:58 ?947次閱讀

    百度搜索全量上線(xiàn)DeepSeek滿(mǎn)血版,開(kāi)啟AI搜索新體驗(yàn)

    近日,百度搜索迎來(lái)了重大更新,全量上線(xiàn)了DeepSeek滿(mǎn)血版。這一更新意味著用戶(hù)現(xiàn)在可以在百度App中體驗(yàn)到更加智能、高效的搜索服務(wù)。 用戶(hù)只需在百度App中輸入任意
    的頭像 發(fā)表于 02-18 15:15 ?1266次閱讀

    百度搜索與文心智能體平臺(tái)接入DeepSeek及文心大模型深度搜索

    近日,百度搜索與文心智能體平臺(tái)聯(lián)合宣布了一項(xiàng)重要更新:將全面接入DeepSeek及文心大模型最新的深度搜索功能。這一更新將為用戶(hù)和開(kāi)發(fā)者帶來(lái)更加智能、高效的搜索和智能體創(chuàng)建體驗(yàn)。 據(jù)悉,搜索
    的頭像 發(fā)表于 02-17 09:14 ?648次閱讀

    AIGC入門(mén)及鴻蒙入門(mén)

    人工智能和大數(shù)據(jù)技術(shù)的創(chuàng)新內(nèi)容生成工具,正逐漸成為矚目的焦點(diǎn)。它為創(chuàng)意性工作打開(kāi)了全新的大門(mén),尤其在文本和視覺(jué)內(nèi)容創(chuàng)作方面表現(xiàn)卓越。對(duì)于初學(xué)者來(lái)說(shuō),可以通過(guò)學(xué)習(xí)相關(guān)基礎(chǔ)知識(shí)和實(shí)踐操作來(lái)入門(mén)AIGC領(lǐng)域。同時(shí)
    發(fā)表于 01-13 10:32

    百度科啟動(dòng)“繁星計(jì)劃”

    百度搜索的強(qiáng)大流量,為百度科注入新的活力與動(dòng)能。 據(jù)悉,“繁星計(jì)劃”預(yù)計(jì)覆蓋超過(guò)10萬(wàn)名權(quán)威專(zhuān)家,并將涵蓋超過(guò)100萬(wàn)的知識(shí)內(nèi)容,旨在通過(guò)科技的力量,讓知識(shí)的傳播更加廣泛、深入。這一計(jì)劃的實(shí)施,無(wú)疑將極大地豐富
    的頭像 發(fā)表于 12-31 10:26 ?727次閱讀

    百度正式回應(yīng)進(jìn)軍短劇領(lǐng)域

    近日,百度在線(xiàn)網(wǎng)絡(luò)技術(shù)(北京)有限公司在知識(shí)產(chǎn)權(quán)領(lǐng)域有了新的動(dòng)作,據(jù)天眼查信息顯示,該公司已申請(qǐng)注冊(cè)“百度短劇”商標(biāo),涵蓋網(wǎng)站服務(wù)、科學(xué)儀器、教育娛樂(lè)等多個(gè)國(guó)際分類(lèi),目前這些商標(biāo)均處于等待實(shí)質(zhì)審查
    的頭像 發(fā)表于 12-17 14:19 ?591次閱讀

    李彥宏:大模型行業(yè)消除幻覺(jué),iRAG技術(shù)引領(lǐng)文生新紀(jì)元

    在理解和生成內(nèi)容方面邁出了重要一步,使得AI的輸出更加貼近真實(shí)世界,減少了誤導(dǎo)和誤解。 同時(shí),李彥宏還發(fā)布了百度最新的檢索增強(qiáng)文生技術(shù)——iRAG。這項(xiàng)技術(shù)將百度搜索的億級(jí)圖片資源與
    的頭像 發(fā)表于 11-14 11:39 ?652次閱讀

    百度文心一言APP升級(jí)為文小言

    百度宣布其文心一言APP正式升級(jí)為文小言,標(biāo)志著百度在智能搜索領(lǐng)域邁出了重要一步。文小言作為百度旗下的“新搜索”智能助手,不僅集成了富媒體
    的頭像 發(fā)表于 09-04 16:06 ?1007次閱讀

    百度聯(lián)合英偉達(dá)舉辦全球規(guī)模最大智能體大賽

    近日,科技巨頭百度宣布了一項(xiàng)激動(dòng)人心的合作計(jì)劃:將與英偉達(dá)聯(lián)合舉辦“百度搜索·文心智能體創(chuàng)新大賽”。此次大賽聚焦于“智能體應(yīng)用”的創(chuàng)新與發(fā)展,旨在攜手廣大開(kāi)發(fā)者,在文心智能體平臺(tái)上共同打造高質(zhì)量、具備廣泛分發(fā)潛力且能夠?qū)崿F(xiàn)盈利的智能體應(yīng)用。
    的頭像 發(fā)表于 09-02 15:43 ?567次閱讀