亚洲无码中文字幕一区不卡在线,人妻熟女自拍偷拍

自從進(jìn)入 2023 年以來(lái)，AIGC 技術(shù)已催生了新一輪人工智能浪潮。AI 繪畫(huà)作為大模型最引人矚目的應(yīng)用領(lǐng)域之一，近年來(lái)也取得了重大突破。AI 繪畫(huà)系統(tǒng)可以根據(jù)用戶(hù)的輸入或提示生成各種風(fēng)格的圖像，這為藝術(shù)家、設(shè)計(jì)師和創(chuàng)作者提供了強(qiáng)大的工具，也為數(shù)字創(chuàng)意領(lǐng)域帶來(lái)了新的可能性。在本期“極客有約”對(duì)話(huà)節(jié)目中，魚(yú)哲和百度搜索主任架構(gòu)師 TianBao 就圖像生成技術(shù)進(jìn)行了深入探討，包括百度搜索的應(yīng)用場(chǎng)景、相關(guān)技術(shù)的思考，以及在搜索業(yè)務(wù)場(chǎng)景的應(yīng)用落地經(jīng)驗(yàn)。

亮點(diǎn)：

這是一個(gè)巨大的變革，從過(guò)去用戶(hù)在全網(wǎng)尋找圖像，轉(zhuǎn)變?yōu)榻Y(jié)合了查找圖像和生成圖像兩種方式，以滿(mǎn)足用戶(hù)更具體的需求，這也在一定程度上鼓勵(lì)用戶(hù)更主動(dòng)地表達(dá)他們真正的需求。

要使一個(gè)模型更好地理解中文，準(zhǔn)備和清理與中文語(yǔ)義相關(guān)的語(yǔ)料非常重要。

對(duì)于去除低質(zhì)量樣本和構(gòu)建高價(jià)值樣本，這些都是圖文對(duì)齊所必需的能力。

百度搜索需要滿(mǎn)足用戶(hù)在內(nèi)容和風(fēng)格方面多樣化的需求，因此在百度搜索目前支持上千種不同的畫(huà)面風(fēng)格定義。

遵循美學(xué)標(biāo)準(zhǔn)，構(gòu)建自己的美學(xué)認(rèn)知，無(wú)論是在整體模型構(gòu)建方面還是在算法優(yōu)化方面，都需要按照這些先進(jìn)標(biāo)準(zhǔn)來(lái)進(jìn)行相關(guān)的指導(dǎo)和評(píng)估。

文生圖的技術(shù)發(fā)展過(guò)程

魚(yú)哲：AIGC 從去年 9 月到現(xiàn)在，我們能看到各種各樣的模型和公司不斷涌現(xiàn)。從最初大家使用 Stable Diffusion 來(lái)生成簡(jiǎn)單的圖像，到后來(lái)用一些其它方法進(jìn)行生成式圖像編輯，后來(lái)甚至 Adobe Photoshop 支持使用自然語(yǔ)言方式修改圖片。我覺(jué)得從之前看到的 AIGC 在生成文本方面取得的成就之外，還有更多有趣的應(yīng)用領(lǐng)域。除了生成圖片，還能夠生成視頻和音頻。最近，我也看到了一些令人驚艷的生成視頻產(chǎn)品。今天想請(qǐng) TianBao 老師跟大家展開(kāi)介紹一下文生圖技術(shù)目前的整體發(fā)展趨勢(shì)是什么樣的。

TianBao：2022 年可以算是文生圖的元年，整體上分為以 Stable Diffusion 為代表的開(kāi)源的流派，以及 Midjourney 、Adobe 的 Firefly、Dall-E 3 為代表的閉源模型。而之所以說(shuō)這一年是元年，是源于 Disco Diffusion。Disco Diffusion 的目標(biāo)主要是 landscape 等風(fēng)景類(lèi)創(chuàng)作，風(fēng)景類(lèi)場(chǎng)景是一個(gè)容錯(cuò)率比較高的場(chǎng)景，并結(jié)合了富有視覺(jué)沖擊的色彩，極具藝術(shù)質(zhì)感，這在 2021 年底至 2022 年初，是一個(gè)很大膽、很驚艷的一個(gè)嘗試。

直到 2022 年 2 月，Midjourney 發(fā)布了 v1 版本。v1 的整體效果相當(dāng)令人吃驚，但在生成人像方面還差強(qiáng)人意。直到同年 7 月中旬，Midjourney v3 才能正常地生成一些常規(guī)人像。在 8 月份時(shí)，作品《太空歌劇院》就通過(guò) Midjourney v3 進(jìn)行生成，加上 Photoshop 的后期處理，這使得 Midjourney 成功引起了轟動(dòng)。

stable-diffusion 1.5 版本也在同一時(shí)期開(kāi)源，這個(gè)開(kāi)源事件具有里程碑的意義，因?yàn)閺哪菚r(shí)起，像 C 站這樣的更多用戶(hù)開(kāi)始涌向去中心化的模型和優(yōu)化領(lǐng)域。隨著開(kāi)源技術(shù)的發(fā)展，整個(gè)生態(tài)系統(tǒng)，包括下游應(yīng)用，都經(jīng)歷了爆發(fā)式增長(zhǎng)和涌現(xiàn)。之后，技術(shù)的進(jìn)步以及下游應(yīng)用的發(fā)展持續(xù)在相互促進(jìn)。

百度文生圖的探索和成果

魚(yú)哲：我大致還記得 Stable Diffusion 剛開(kāi)始的效果并不太好，例如在嘗試生成人像時(shí)，出現(xiàn)了很多扭曲的結(jié)果，如一個(gè)人有三條腿或多個(gè)眼睛。隨著時(shí)間推移，這一技術(shù)逐漸變得更加逼真。同時(shí)，類(lèi)似 Civitai 的 AI 技術(shù)也興起，允許人們根據(jù)他們的圖像進(jìn)行各種場(chǎng)景的創(chuàng)作，比如受歡迎的原神系列。這種生成圖像技術(shù)的發(fā)展催生了多種應(yīng)用。比如，在抽卡類(lèi)游戲中，原畫(huà)師可以利用這一技術(shù)來(lái)創(chuàng)建游戲組件。在百度搜索等國(guó)民級(jí)應(yīng)用中，文生圖又如何與場(chǎng)景相結(jié)合的？剛開(kāi)始，我理解它可能是在搜索框中，用戶(hù)輸入關(guān)鍵詞后能夠找到相關(guān)的圖像，但我相信你們會(huì)有更多不同的創(chuàng)新。

TianBao：早期，百度也進(jìn)行了一些 AIGC 圖像生成的嘗試。正如剛才和大家討論的，文生圖技術(shù)從最初的結(jié)果不夠可用，逐漸變得可用，并能夠釋放想象力，帶來(lái)了引人注目的視覺(jué)沖擊。對(duì)于搜索，用戶(hù)以前要找一張圖片，通常會(huì)進(jìn)行文本搜索。例如，一個(gè)戴著太陽(yáng)鏡和帽子的貓，做著憤怒的手勢(shì)，用戶(hù)在腦海中構(gòu)想的畫(huà)面，他們通常只能在全網(wǎng)中搜索到已經(jīng)被創(chuàng)作好的、可感知的內(nèi)容。但對(duì)于一些更具體的場(chǎng)景，比如貓要做著憤怒的手勢(shì)，穿著特殊服飾，如果全網(wǎng)沒(méi)有人創(chuàng)作這種圖片，用戶(hù)需求的滿(mǎn)足就會(huì)受到限制，導(dǎo)致需求退化成尋找一個(gè)憤怒的貓，之后，他們將變成瀏覽型需求，查看全網(wǎng)上是否有類(lèi)似的憤怒的貓來(lái)滿(mǎn)足他們的需求。

然而，隨著生成式技術(shù)的迅速發(fā)展，我們現(xiàn)在有能力將用戶(hù)腦海中的圖像具體呈現(xiàn)出來(lái)，以滿(mǎn)足他們的需求。我們將用戶(hù)的查找需求，轉(zhuǎn)變?yōu)榻Y(jié)合了查找圖像和生成圖像兩種方式，以滿(mǎn)足用戶(hù)更具體的需求，這也在一定程度上鼓勵(lì)用戶(hù)更主動(dòng)地表達(dá)他們真正的需求。在產(chǎn)品方面，用戶(hù)可以通過(guò)百度的 App，搜索"畫(huà)一個(gè)憤怒的貓"或者"畫(huà)一畫(huà)"，然后進(jìn)入文生圖的相關(guān)功能頁(yè)面，大家可以親自體驗(yàn)一下。

尋找一張圖片是搜索的第一步。在圖像領(lǐng)域，許多創(chuàng)作者首先需要找到適合他們需求的圖像，然后他們可能需要用這張圖像作為頭像，或者用它作為創(chuàng)作素材，或者在工作中使用它。因此，在生成的過(guò)程中，我們正在加入編輯工作，例如修復(fù)（inpainting）、擴(kuò)展（outpainting）。舉個(gè)例子，如果畫(huà)面中有一只戴著帽子的貓，通過(guò)自然語(yǔ)言交互，我們可以將貓?zhí)鎿Q為一只狗，從而增加了圖像的再利用能力。這背后通常會(huì)涉及一個(gè)基于文生圖的預(yù)訓(xùn)練大模型，用于圖像編輯。整體而言，從最初的尋找圖像，變成了“找圖”加“生圖”的過(guò)程，然后進(jìn)入到第二個(gè)階段，即圖像的用途，以滿(mǎn)足用戶(hù)在圖像領(lǐng)域的需求。

文生圖的實(shí)踐及挑戰(zhàn)

魚(yú)哲：聽(tīng)起來(lái)這是一個(gè)非常有趣的應(yīng)用場(chǎng)景，因?yàn)楹芏鄷r(shí)候，比如我以前制作 PPT 時(shí)，需要找到能滿(mǎn)足我的想象場(chǎng)景的圖像，例如客戶(hù)使用產(chǎn)品的場(chǎng)景或某個(gè)行業(yè)的照片。然而，我又不希望侵犯版權(quán)，或者避免涉及各種圖像來(lái)源的糾紛。在這種情況下，能夠找到圖像，并在此基礎(chǔ)上進(jìn)行 inpainting 修改、邊框補(bǔ)全，甚至進(jìn)行圖像超分辨率處理，這實(shí)際上是一個(gè)非常實(shí)用的應(yīng)用場(chǎng)景。

外界可能認(rèn)為我們只支持一些基本的圖像生成和編輯功能，如生成、簡(jiǎn)單編輯、邊框展開(kāi)以及高分辨率圖像的補(bǔ)全。但實(shí)際上，根據(jù)我的了解，這項(xiàng)技術(shù)在中文語(yǔ)境下是相當(dāng)具有挑戰(zhàn)性的。特別是針對(duì)中文文化和語(yǔ)義場(chǎng)景，大部分模型通常是在以英語(yǔ)為基礎(chǔ)的語(yǔ)境下進(jìn)行訓(xùn)練的，其原始語(yǔ)料庫(kù)也是英語(yǔ)為主。然而，百度作為中文搜索引擎領(lǐng)域的巨頭，需要處理中文和英文，甚至一些方言的情況，面對(duì)這種挑戰(zhàn)是如何應(yīng)對(duì)的？

TianBao：作為最大的中文搜索引擎，百度在理解中文方面具有更強(qiáng)的優(yōu)勢(shì)，包括對(duì)中文特有元素、中文習(xí)慣表達(dá)以及方言的理解。要使一個(gè)模型更好地理解中文，準(zhǔn)備和清理與中文語(yǔ)義相關(guān)的語(yǔ)料顯然是不可或缺的步驟。

我們?cè)谒阉黝I(lǐng)域擁有感知全網(wǎng)最全的中文語(yǔ)料的能力，這是天然優(yōu)勢(shì)。但除此之外，還需要進(jìn)行樣本的清理、更全面的知識(shí)覆蓋、獲取更多多樣性的高質(zhì)量樣本等，以更好地理解整體模型的語(yǔ)義。同時(shí)，如果我們希望模型生成的圖像質(zhì)量更高，就需要考慮圖像質(zhì)量、美學(xué)因素，例如圖像中物體的明顯特征和美學(xué)風(fēng)格的準(zhǔn)確呈現(xiàn)。此外，還需要進(jìn)行去重處理，這些都需要有基礎(chǔ)的算子能力支持。

所以對(duì)于清洗來(lái)說(shuō)，底層基礎(chǔ)算子的基建也是一個(gè)非常重要的工作。百度在圖片基礎(chǔ)層面的刻畫(huà)體系上有多年的積累，所以我們?cè)谑珍浀臄?shù)據(jù)優(yōu)勢(shì)之上，可以快速根據(jù)模型的不同目標(biāo)，進(jìn)行樣本的組織和篩選。例如，我們想要更好的語(yǔ)義樣本，要做到樣本的均衡，要積累不同等級(jí)質(zhì)量和美觀(guān)度的樣本，包括一些人像或者是特殊的 IP 概念等。我們對(duì)這些樣本進(jìn)行快速學(xué)習(xí)，而后應(yīng)用在模型里。

魚(yú)哲：對(duì)于生成圖像大模型，一方面，在訓(xùn)練過(guò)程中，我們需要準(zhǔn)備高質(zhì)量的數(shù)據(jù)集，建立一個(gè)良好的基礎(chǔ)。另一方面，用戶(hù)在使用時(shí)可能會(huì)提供各種各樣的復(fù)雜描述，例如描述一個(gè)杯子，用戶(hù)可能會(huì)加入很多形容詞，比如高的、透明的、藍(lán)色的，里面裝了一只蟋蟀等，這些描述詞可能超出了標(biāo)準(zhǔn)模型支持的 Token 長(zhǎng)度。特別是在中文語(yǔ)境中，用戶(hù)的描述可能更長(zhǎng)，就像您剛才提到的，一只戴著帽子、站在山峰頂、吹著西北風(fēng)、雪花在背后飄落的貓。在這種情況下，如何處理具有大量描述詞和形容詞的圖像是一個(gè)挑戰(zhàn)嗎？

TianBao：這是一個(gè)非常好的問(wèn)題。圖文配對(duì)的質(zhì)量非常重要。目前，大家主要關(guān)注的是開(kāi)源的 Laion-5b，一個(gè)包含 50 億樣本的英文模型，主要基于英文數(shù)據(jù)集，中文數(shù)據(jù)相對(duì)較少。同時(shí)，從這個(gè)數(shù)據(jù)集中，我們也觀(guān)察到許多不相關(guān)的圖文對(duì)的問(wèn)題，這些問(wèn)題可能是由一些雜質(zhì)引起的。因此，我們需要使用相關(guān)性建模算法來(lái)過(guò)濾掉這些不相關(guān)的圖文對(duì)。

對(duì)于使用中文數(shù)據(jù)集，例如 Laion-5b，有一種較快速的方法，即通過(guò)英文翻譯成中文。然而，這種方法可能會(huì)引入很多語(yǔ)言上的歧義，特別是中英文之間表達(dá)上的歧義，以及中文所特有的一些語(yǔ)義。例如，如果我們將"transformer"翻譯成中文，它可能會(huì)變成"變壓器"，而如果是指一個(gè)頭像，對(duì)應(yīng)的英文可能會(huì)是"阿凡達(dá)"。這些情況都是由于中文語(yǔ)料建設(shè)不足導(dǎo)致的中文理解能力上的不足。關(guān)于剛才提到的圖文對(duì)的相關(guān)性質(zhì)量問(wèn)題，過(guò)濾低質(zhì)量的圖文對(duì)，需要使用類(lèi)似于常規(guī)的 CLIPScore 等方式來(lái)度量圖文的相關(guān)性。

另一個(gè)方向是在優(yōu)質(zhì)數(shù)據(jù)集的構(gòu)建上。畢竟，一張圖片可以被非常詳細(xì)地描述成上百個(gè)字，而當(dāng)前互聯(lián)網(wǎng)上這種詳細(xì)描述的數(shù)據(jù)還相對(duì)較少。當(dāng)前互聯(lián)網(wǎng)上的描述通常較為簡(jiǎn)短，可能只包含幾十個(gè)標(biāo)記，甚至更短。因此，在構(gòu)建優(yōu)質(zhì)數(shù)據(jù)集方面，需要將一些高質(zhì)量的圖像與文本描述的力度和視角相結(jié)合，以進(jìn)行文本描述的補(bǔ)充。通常，人們描述的可能是圖像的主體和意境，但他們可能會(huì)忽略掉圖像中的背景、物體的數(shù)量以及基本實(shí)體的描述。因此，如何實(shí)現(xiàn)圖像和文本的對(duì)齊理解對(duì)于文生圖的構(gòu)建非常重要。

因此，對(duì)于提供高質(zhì)量樣本的問(wèn)題，可能需要更適合于圖像生成任務(wù)的模型，例如 caption 生成模型。百度在這方面積累了一些經(jīng)驗(yàn)，所以對(duì)于去除低質(zhì)量樣本和構(gòu)建高價(jià)值樣本，這些都是圖文對(duì)齊所必需的能力。

圖片美感的評(píng)估

魚(yú)哲：確實(shí)，與我想象的相比，這個(gè)處理的復(fù)雜度要高得多。您剛才提到的去除低質(zhì)量、保留高質(zhì)量的很重要。您所說(shuō)的低值和高值是指圖像質(zhì)量對(duì)嗎？在生成圖像時(shí)，如果要生成一只貓，首先它必須是一只貓，其次重要的是它必須符合美感。它必須符合一只貓的形狀，或者說(shuō)它必須符合一只狗的形狀，而美感是一個(gè)非常主觀(guān)的事情。例如，即使是一只貓，有些人喜歡圓圓的、胖胖的、毛發(fā)豐富的貓，他們認(rèn)為最好是長(zhǎng)得像個(gè)球一樣，但有些人認(rèn)為貓應(yīng)該像貓一樣，應(yīng)該有貓的特征，頭是頭，腿是腿，脖子是脖子。在這種情況下，百度如何處理關(guān)于貓應(yīng)該長(zhǎng)成什么樣子的問(wèn)題呢？

TianBao：對(duì)于美學(xué)，確實(shí)像剛才提到的，它是一個(gè)偏主觀(guān)的一個(gè)感知，其實(shí)是千人千面的，大家可能對(duì)美的認(rèn)知是不太一樣的，但是這里面我們其實(shí)是期望通過(guò)大部分人的美學(xué)認(rèn)知，提出一些美學(xué)的定義。

例如，美學(xué)的定義通常包括圖像的構(gòu)圖，整個(gè)畫(huà)面的結(jié)構(gòu)是什么樣的，還包括色彩的應(yīng)用，如飽和度、對(duì)比度、整體的配色，以及光感，例如在攝影棚中的光線(xiàn)設(shè)置，如何為不同場(chǎng)景創(chuàng)造更好和更合適的光感。除了視覺(jué)色彩方面的定義，畫(huà)面的內(nèi)容也可以體現(xiàn)美學(xué)，例如畫(huà)面內(nèi)容的豐富度或畫(huà)面的敘事性，這些都是由畫(huà)面內(nèi)的內(nèi)容構(gòu)成的。因此，這些維度形成了更具普世性的美學(xué)標(biāo)準(zhǔn)。

我們遵循這些美學(xué)標(biāo)準(zhǔn)，然后構(gòu)建自己的美學(xué)認(rèn)知，無(wú)論是在整體模型構(gòu)建方面還是在算法優(yōu)化方面，都按照這些先進(jìn)標(biāo)準(zhǔn)來(lái)進(jìn)行相關(guān)的指導(dǎo)和評(píng)估。除了美學(xué)之外，圖像的清晰度也會(huì)影響整體的質(zhì)感。同時(shí)，內(nèi)容的一致性也很重要，如果看到一只貓有三只腿，內(nèi)容實(shí)體的不一致性將會(huì)導(dǎo)致缺陷，從而間接影響圖像的可用性和美感。

魚(yú)哲：您剛剛提到內(nèi)容的一致性，可以展開(kāi)這個(gè)解釋一下這個(gè)概念嗎？

TianBao：內(nèi)容一致性可以大概理解為內(nèi)容的質(zhì)量或可用性。比如，如果畫(huà)一只手，出現(xiàn)了手部的畸形或畸變，這實(shí)際上與我們通常對(duì)手的概念不符。這會(huì)導(dǎo)致手的實(shí)體不一致，因此可以認(rèn)為它存在質(zhì)量問(wèn)題。

文生圖提示工程

魚(yú)哲：不同場(chǎng)景和用途對(duì)美學(xué)要求不同，以戴帽子和太陽(yáng)鏡的貓為例，用戶(hù)可能希望生成不同風(fēng)格的漫畫(huà)，如日漫和美漫，它們?cè)谝曈X(jué)體驗(yàn)上有顯著差異。美漫通常色彩豐富、輪廓鮮明，而日漫則以黑白為主，視覺(jué)沖擊力較強(qiáng)。在保障在內(nèi)容一致性的要求下，百度是如何在不同風(fēng)格的情況下，從用戶(hù)的 prompt 中獲取相關(guān)信息，以支持不同畫(huà)風(fēng)的生成？

TianBao：我們來(lái)看一下當(dāng)前文生成圖的應(yīng)用場(chǎng)景。目前，在主流的交互中，通常提供了一些明確定義的特定風(fēng)格選項(xiàng)，如漫畫(huà)風(fēng)格或水彩畫(huà)風(fēng)格。但對(duì)于用戶(hù)而言，不應(yīng)該受到過(guò)多的限制，例如，如果用戶(hù)需要生成一個(gè)賽博朋克風(fēng)格的貓，將其繪制成卡通風(fēng)格就無(wú)法滿(mǎn)足用戶(hù)需求。也就是說(shuō)，用戶(hù)不僅可以描述生成畫(huà)面中出現(xiàn)的內(nèi)容，如貓，還可以描述他們期望的畫(huà)面風(fēng)格。因此，百度搜索需要滿(mǎn)足用戶(hù)在內(nèi)容和風(fēng)格方面多樣化的需求。

在百度搜索中，我們目前支持上千種不同的畫(huà)面風(fēng)格定義。舉例來(lái)說(shuō)，用戶(hù)可以將一只貓呈現(xiàn)為水墨畫(huà)或卡通畫(huà)，也可以將它呈現(xiàn)為鋁制品或雕刻品，甚至以不同的材質(zhì)。此外，用戶(hù)還可以選擇不同的視角，如帶有運(yùn)動(dòng)模糊效果、延時(shí)攝影效果，或者魚(yú)眼和廣角視角等。我們覆蓋了多種不同的風(fēng)格和分類(lèi)，因此用戶(hù)如果有更具體的風(fēng)格要求，只需在他們的 prompt 中包含相關(guān)風(fēng)格，即可獲得符合他們期望的畫(huà)面并具備相應(yīng)風(fēng)格。

魚(yú)哲：我還有一個(gè)問(wèn)題，就是關(guān)于風(fēng)格的疊加，是否支持這種操作？例如，能否將魚(yú)眼廣角和水墨畫(huà)的風(fēng)格同時(shí)應(yīng)用在圖像上？因?yàn)橐粋€(gè)是關(guān)于畫(huà)風(fēng)，另一個(gè)是視角，那如果我們想要將水墨畫(huà)與卡通風(fēng)格結(jié)合，這是否也是支持的呢？

TianBao：在模型方面，支持多風(fēng)格是可行的，這樣可以激發(fā)新的風(fēng)格創(chuàng)意。然而，我們面臨的另一個(gè)問(wèn)題是如何在保持內(nèi)容一致性的前提下，有效地融合和協(xié)調(diào)多種風(fēng)格。因?yàn)椴煌L(fēng)格之間的差異可能很大，可能會(huì)發(fā)生一些相互制約的情況，但這確實(shí)為用戶(hù)提供了更多的實(shí)驗(yàn)和探索機(jī)會(huì)，可以通過(guò)嘗試不同風(fēng)格的組合，實(shí)現(xiàn)更廣泛的創(chuàng)意空間。

魚(yú)哲：如果我有多個(gè)風(fēng)格的關(guān)鍵詞去描述最后的主體，最后整張圖出來(lái)的效果和關(guān)鍵詞所在的位置的關(guān)聯(lián)度大嗎？比如說(shuō)水墨、卡通風(fēng)格的貓和卡通、水墨風(fēng)格的貓，這兩個(gè)出來(lái)的效果會(huì)是一樣的嗎？

TianBao：這個(gè)其實(shí)就會(huì)涉及到剛才說(shuō)的一個(gè)可控性。最基本的，就像剛才提到的貓一樣。它關(guān)系到我們?nèi)绾慰刂粕傻膬?nèi)容，尤其是在涉及到風(fēng)格方面。實(shí)際上，可控性與我們整體的 prompt 方式相關(guān)，因?yàn)椴煌?prompt 方式可以導(dǎo)致不同的結(jié)果。有些人可能會(huì)提供簡(jiǎn)短的提示，可能前后并列會(huì)輸入兩個(gè)不同的風(fēng)格，而其他人可能更喜歡更詳細(xì)的 prompt 表達(dá)方式，比如他們可能希望描述一個(gè)場(chǎng)景的畫(huà)面，指定特定的風(fēng)格，或者強(qiáng)調(diào)某種風(fēng)格在生成中的比重。這些都是不同的 prompt 方式，可以影響生成內(nèi)容的方式。

然后對(duì)于這種可控來(lái)說(shuō)，其實(shí)現(xiàn)在這種順序上會(huì)有一些 Bias。比如 Stable Diffusion 的 prompt 煉丹，也會(huì)提及一些，比如怎么寫(xiě) prompt，是放到前面好還是后面好，其實(shí)本質(zhì)上是一種控制的能力，理想的話(huà)應(yīng)該不會(huì)存在這樣的一些偏差。當(dāng)然最理想的還是我們可以引導(dǎo)用戶(hù)能夠去更精準(zhǔn)的去表達(dá)自己腦海中的畫(huà)面。

魚(yú)哲：剛才提到百度支持上千種風(fēng)格，我想問(wèn)，這上千種風(fēng)格是人工梳理的，還是通過(guò)模型聚類(lèi)后自動(dòng)生成的？對(duì)于用戶(hù)來(lái)說(shuō)，知道有這么多風(fēng)格可選可能一開(kāi)始會(huì)覺(jué)得有點(diǎn)過(guò)多，有點(diǎn)難以選擇。

TianBao：關(guān)于風(fēng)格，基于我們之前提到的，我們對(duì)全網(wǎng)內(nèi)容的感知非常廣泛，因此我們有能力感知到全網(wǎng)存在的各種風(fēng)格數(shù)據(jù)。第二點(diǎn)是，我們也依賴(lài)于對(duì)圖像相關(guān)的理解，無(wú)論是聚合算法還是風(fēng)格美觀(guān)度的描述，都需要首先有數(shù)據(jù)，然后通過(guò)數(shù)據(jù)的篩選和識(shí)別能力，對(duì)這些風(fēng)格進(jìn)行自然而然的呈現(xiàn)。這是對(duì)風(fēng)格定義的方式。

另外剛才提到的，比如說(shuō)我們當(dāng)前支持上千種風(fēng)格，對(duì)于用戶(hù)來(lái)說(shuō)，其實(shí)大家可能還是得有一個(gè)認(rèn)知的過(guò)程，因?yàn)槊恳环N風(fēng)格可能對(duì)于藝術(shù)向的用戶(hù)來(lái)說(shuō)還是會(huì)有比較大的一些驚喜的。比如我們看到某種風(fēng)格和我們常規(guī)看到的畫(huà)面有很大的這種區(qū)別，也具備很強(qiáng)的視覺(jué)沖擊感。所以這里面怎么樣能夠把我們已有的這些風(fēng)格能夠更好的傳遞給用戶(hù)，讓用戶(hù)理解這種風(fēng)格，并且在后續(xù)的這些需求滿(mǎn)足創(chuàng)作中能夠應(yīng)用上這些風(fēng)格，這其實(shí)是需要整體的產(chǎn)品和技術(shù)來(lái)引導(dǎo)的一個(gè)工作。

魚(yú)哲：正如你剛提到的，有上千種不同的藝術(shù)風(fēng)格。即使對(duì)于非專(zhuān)業(yè)和一些專(zhuān)業(yè)的美術(shù)生來(lái)說(shuō)，通常只了解一兩種風(fēng)格，比如素描或水墨畫(huà)。實(shí)際上，很少有人能深入了解這么多不同風(fēng)格并寫(xiě)出好的提示詞。那么，當(dāng)用戶(hù)不太了解如何編寫(xiě) prompt 提示詞時(shí)，我們?cè)撛趺刺幚砟兀勘热?，用?hù)第一次使用百度，除非有人告訴他們，他們可能不知道支持上千種風(fēng)格。在這種情況下，我們應(yīng)該如何處理，并引導(dǎo)他們了解更多有關(guān)百度的各種風(fēng)格以及可以編寫(xiě)的其他提示詞呢？

TianBao：對(duì)于藝術(shù)風(fēng)格和創(chuàng)造性而言，大家更常接觸到關(guān)鍵詞"Midjourney"，可以將其作為一個(gè)例子，來(lái)講述一個(gè)從零開(kāi)始激發(fā)想象力的過(guò)程。在早期的運(yùn)營(yíng)推廣中，有些資源并未過(guò)多優(yōu)化提示詞。通常，它們提供了一些相對(duì)簡(jiǎn)單的提示詞，比如"dog"（狗）。然而，這是建立在 disco 社區(qū)基礎(chǔ)之上的，允許所有用戶(hù)參與。一些用戶(hù)嘗試將他們的提示詞更改為描述一只毛茸茸的狗，而其他用戶(hù)可能更喜歡科幻題材，例如一只擁有鐳射眼睛的狗是什么樣子。通過(guò)不斷的嘗試，他們會(huì)發(fā)現(xiàn)在不同的提示詞下可以獲得更引人入勝或有趣的效果。這導(dǎo)致了彼此學(xué)習(xí)，觀(guān)察其他人如何生成內(nèi)容，如何設(shè)置提示詞，以及這會(huì)產(chǎn)生什么樣的效果。因此，提示詞的優(yōu)化逐漸變得流行起來(lái)。這個(gè)問(wèn)題對(duì)于整個(gè)業(yè)界，包括百度搜索和文生圖，也是類(lèi)似的。

對(duì)于一般用戶(hù)而言，他們可能較少接觸文生圖這個(gè)場(chǎng)景。對(duì)于初次使用的用戶(hù)，通常只是嘗試?yán)L制一只貓或一只小狗，這引出了一個(gè)問(wèn)題，即如何在用戶(hù)使用環(huán)境相對(duì)簡(jiǎn)單的情況下，為他們生成更好的效果。

這里就會(huì)涉及到 prompt 的擴(kuò)充或者是改寫(xiě)。這里有兩種思路，一種是去擴(kuò)充畫(huà)面的內(nèi)容，類(lèi)似于內(nèi)容的一個(gè)豐富性或者是故事感。比如剛才說(shuō)的戴著帽子，然后做著憤怒的手勢(shì)的狗，把畫(huà)面更具象，其實(shí)這是 prompt 的優(yōu)化所做的一個(gè)工作。同樣也可以對(duì)風(fēng)格進(jìn)行一些擴(kuò)展，我們可以感知到大部分人對(duì)于這個(gè)內(nèi)容之下更喜歡哪些風(fēng)格，我們就可以通過(guò)這種 prompt 來(lái)做更多風(fēng)格的一些擴(kuò)寫(xiě)。像剛才說(shuō)的內(nèi)容以及在風(fēng)格上的一些擴(kuò)寫(xiě)多樣性之后，就可以極大的去優(yōu)化畫(huà)面的內(nèi)容豐富度、故事性，以及風(fēng)格和美觀(guān)的程度。所以這里面會(huì)涉及到怎么樣把一個(gè)簡(jiǎn)單的表達(dá)的 prompt 的輸入，通過(guò)優(yōu)化的方式變成一個(gè)對(duì)模型來(lái)說(shuō)效果更好的一組 prompt。

魚(yú)哲：有一個(gè)更具體的問(wèn)題需要討論，涉及到 prompt 的改寫(xiě)。例如，當(dāng)我們將一個(gè)提示從描述一只狗轉(zhuǎn)變?yōu)橐恢粠弊拥纳鷼獾氖謩?shì)狗時(shí)，用戶(hù)實(shí)際上無(wú)法看到被改寫(xiě)的部分。我們是否能夠確保每次改寫(xiě)都是一樣的，或者每次改寫(xiě)的內(nèi)容可能略有不同？舉例來(lái)說(shuō)，第一次可能是一只戴帽子的狗，而第二次可能是一只戴眼鏡躺在沙灘上的狗。這個(gè)過(guò)程是否具有隨機(jī)性，或者每次都是固定的？

TianBao：對(duì)于 prompt 的改寫(xiě)來(lái)說(shuō)，其實(shí)我們更期望給到用戶(hù)更多多樣性、更多豐富的結(jié)果。因?yàn)槿绻且粭l狗的話(huà)，我們可以想象到的是一個(gè)主體是一條狗，可能會(huì)有不同的一些犬類(lèi)的品種，但是狗可能穿著不同服飾出現(xiàn)在不同場(chǎng)景之下，這個(gè)對(duì)更多人來(lái)說(shuō)會(huì)有更多樣的一些結(jié)果，大家會(huì)有更多的預(yù)期。所以在模型層面，我們期望通過(guò) prompt 這種改寫(xiě)和優(yōu)化，有更多的多樣性的備選，然后基于用戶(hù)實(shí)際的反饋，去來(lái)感知用戶(hù)對(duì)哪些風(fēng)格，對(duì)什么類(lèi)型的內(nèi)容場(chǎng)景的一個(gè)畫(huà)面結(jié)果會(huì)感興趣，后驗(yàn)反饋會(huì)比較高，這對(duì)于整體的 prompt 的改寫(xiě)模型也會(huì)有數(shù)據(jù)促進(jìn)的作用。

反饋和評(píng)估

魚(yú)哲：剛剛提到了改寫(xiě)，從用戶(hù)側(cè)收集反饋來(lái)迭代模型，有一個(gè)詞叫做 RLHF（Reinforcement Learning from Human Feedback）。這里我覺(jué)得最難的點(diǎn)是 human feedback 是不穩(wěn)定的，因?yàn)槿伺c人之間的主觀(guān)觀(guān)點(diǎn)會(huì)差很多。如果我們需要依賴(lài)人的反饋來(lái)去迭代模型，其實(shí)是比較困難的。如果再落實(shí)到說(shuō)模型的 evaluation 上來(lái)說(shuō)，在這種情況下，百度是如何去 manage balance，在圖像生成的方向上去做評(píng)估。

TianBao：關(guān)于后驗(yàn)反饋，首先需要考慮反饋數(shù)據(jù)是否確實(shí)能夠代表人類(lèi)的后驗(yàn)反饋，這對(duì)于反饋質(zhì)量有更高的要求。因此，可以將這一方面與產(chǎn)品的整體設(shè)計(jì)和用戶(hù)交互相結(jié)合，以收集更多積極的用戶(hù)行為反饋。例如，當(dāng)用戶(hù)對(duì)某個(gè)結(jié)果感興趣時(shí)，他們可能會(huì)點(diǎn)擊圖片以進(jìn)行放大查看，然后進(jìn)行下載等后續(xù)行為，這些都是積極的反饋。如果用戶(hù)對(duì)某張圖片點(diǎn)贊或進(jìn)行評(píng)論，也提供了直接的反饋。我們希望在整個(gè)反饋系統(tǒng)中更有效地收集這些反饋，因?yàn)樗鼈儗?shí)際上反映了用戶(hù)的偏好。至于模棱兩可的反饋，只能通過(guò)更大的樣本量來(lái)收集更具代表性的數(shù)據(jù)。

魚(yú)哲：過(guò)去，無(wú)論是傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)還是標(biāo)準(zhǔn)的深度學(xué)習(xí)模型，基本上都是監(jiān)督學(xué)習(xí)，需要樣本或監(jiān)督來(lái)計(jì)算 F1 分?jǐn)?shù)、IQZ 和 VCR 等指標(biāo)。然而，對(duì)于生成式模型，如 GPT 系列模型或 DALL-E 這樣的生成式模型，技術(shù)上并沒(méi)有像以前那樣的標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集，大家可以根據(jù)這些基準(zhǔn)數(shù)據(jù)集來(lái)生成和評(píng)估。相比之下，生成式模型需要一種更高效的評(píng)價(jià)方法，而不是依賴(lài)人工逐個(gè)觀(guān)察。在這個(gè)領(lǐng)域，與其讓人們用肉眼逐個(gè)觀(guān)察，是否有方法可以更高效地進(jìn)行評(píng)估呢？

TianBao：更高效的方法實(shí)際上更多地涉及到人機(jī)結(jié)合的手段。就像之前提到的圖像評(píng)價(jià)，我們可以通過(guò)一些初步的機(jī)器指標(biāo)來(lái)進(jìn)行觀(guān)察。如果我們關(guān)注整體的相關(guān)性或質(zhì)量美觀(guān)度，那么在某些機(jī)器指標(biāo)上可以進(jìn)行一些刻畫(huà)。但如果需要精確評(píng)估兩張圖片之間的差異，這些機(jī)器指標(biāo)可能并不具備太大的意義，更需要人工進(jìn)行判斷。前面提到的機(jī)器初步評(píng)估可以幫助人們進(jìn)行初步的篩選，從而在人工評(píng)價(jià)方面節(jié)省一些勞動(dòng)力。

未來(lái)展望

魚(yú)哲：好的，接下來(lái)的問(wèn)題稍微展望未來(lái)，盡管并不是非常遙遠(yuǎn)，因?yàn)樽罱铱吹皆S多初創(chuàng)團(tuán)隊(duì)和相關(guān)公司正在嘗試這個(gè)領(lǐng)域。以動(dòng)畫(huà)為例，動(dòng)畫(huà)實(shí)際上是將多幅圖像的幀疊加在一起呈現(xiàn)的。通常，動(dòng)畫(huà)電影以每秒 24 幀或 16 幀的速度播放。除了靜態(tài)單幅圖像的編輯，我們可以看到在 AIGC 領(lǐng)域，對(duì)于視頻生成或短視頻生成，無(wú)論是三秒還是七八秒的視頻，都在不斷發(fā)展。之前 Runway 團(tuán)隊(duì)曾舉辦了一個(gè)使用文生圖進(jìn)行視頻生成的比賽。您認(rèn)為在未來(lái)多久內(nèi)，我們會(huì)看到第一部完全由 AI 生成的電影或電影狀態(tài)？

TianBao：簡(jiǎn)要回顧一下圖像生成，在 2022 年初，圖像生成效果并不是特別理想，但到了 2022 年的七八月份，整體變得更加可行。根據(jù)技術(shù)發(fā)展趨勢(shì)，對(duì)于動(dòng)態(tài)圖或視頻的生成，預(yù)計(jì)不會(huì)太久就會(huì)迎來(lái)技術(shù)的飛速發(fā)展。因?yàn)樽罱谝曨l生成領(lǐng)域還有很多探索，無(wú)論是基于可控生成的方法還是像 Runway 這樣生成幾秒小短片的方法。對(duì)于幾秒小短片，大家通常會(huì)將生成的最后一幀作為下一段的第一幀，以實(shí)現(xiàn)更連貫的長(zhǎng)視頻。然而，對(duì)于視頻生成來(lái)說(shuō)，面臨更大的挑戰(zhàn)，因?yàn)樗粌H要保證空間效果，還需要確保時(shí)間上的一致性，這引入了一個(gè)額外的維度，對(duì)技術(shù)要求更高。隨著最近對(duì)視頻生成的不斷探索，我們可以預(yù)計(jì)未來(lái)一到兩年內(nèi)可能會(huì)出現(xiàn)類(lèi)似于 Stable Diffusion 這樣革命性的時(shí)刻。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴