在此以前,從未有過一個(gè)算法或者技術(shù)能同時(shí)出現(xiàn)在我的大學(xué)專業(yè)群(學(xué)術(shù))、工作群(業(yè)務(wù))、娛樂群(搞笑)、B站首頁(yè)和小紅書首頁(yè)之中。
而在過去半年里, text2img generative model技術(shù)成功出現(xiàn)在上述所有平臺(tái),大家在校友群討論Stable Diffusion算法,在工作群討論商業(yè)化路徑,在沙雕群討論鮭魚洄游和不能游泳的小女孩,在小紅書有博主玩彩妝藝術(shù)生成,在B站也有各路up主開發(fā)出種種神奇的應(yīng)用……在剛剛截稿的ICLR(一個(gè)橫跨vision, NLP, ML/RL, robotics的會(huì)議)的5000篇投稿中,title/abstract帶有diffusion字樣的文章達(dá)到了200篇,在233篇得分為7分(含)及以上的論文中,共有13篇涉及擴(kuò)散模型。
在這類生成式AI出現(xiàn)以前,人們對(duì)AI的應(yīng)用主要在于決策性歸納行為,比如利用機(jī)器分析一組數(shù)據(jù),并在其中找到許多用例的模式;比如垃圾郵件檢測(cè)、人臉識(shí)別、發(fā)貨時(shí)間預(yù)測(cè)和抖音視頻推送,算法在大量數(shù)據(jù)中變得越來越聰明而精確,這被稱為分析型AI。
在當(dāng)年的“AI會(huì)搶走人類哪些工作”預(yù)測(cè)中,自從AlphaGo擊敗人類冠軍棋手后,我們對(duì)于AI決策能力的質(zhì)疑就畫上了句號(hào),從數(shù)據(jù)分析、生產(chǎn)管理到自動(dòng)駕駛等,我們開始把許多領(lǐng)域的控制權(quán)都交到AI手里。
繪畫領(lǐng)域本是人類長(zhǎng)期保留的自留地,原有的分析型AI無法在創(chuàng)造性工作上與人類競(jìng)爭(zhēng)——它們被降格為只做分析和機(jī)械性的認(rèn)知工作。我們?nèi)祟悓?duì)比機(jī)器來說,最大的優(yōu)勢(shì)在于創(chuàng)造。隨著生成式AI的出圈,創(chuàng)作也開始失守。人們意識(shí)到機(jī)器開始嘗試創(chuàng)造有意義和美麗的東西,在更多領(lǐng)域與傳統(tǒng)工作方式和產(chǎn)品競(jìng)爭(zhēng),比如在美國(guó)科羅拉多州博覽會(huì)的數(shù)字藝術(shù)類美術(shù)比賽中獲得第一名的“太空歌劇院”就是AI的產(chǎn)物。
璞躍中國(guó)移動(dòng)出行團(tuán)隊(duì)通過對(duì)“文本自動(dòng)生成”和“圖像自動(dòng)生成”兩個(gè)領(lǐng)域的研究,認(rèn)為AIGC確實(shí)會(huì)搶走一部分的“舊蛋糕”,但隨著元宇宙和內(nèi)容經(jīng)濟(jì)的底層、硬件的迅速發(fā)展,這兩個(gè)領(lǐng)域的內(nèi)容自動(dòng)生成卻同時(shí)也是做蛋糕的手,可以幫助迅速搭建尚不成熟的內(nèi)容生態(tài)。
在它逐步發(fā)展的過程中,璞躍中國(guó)移動(dòng)出行團(tuán)隊(duì)認(rèn)為:
在標(biāo)準(zhǔn)化強(qiáng)度越高、越結(jié)構(gòu)化的內(nèi)容中,AI生成內(nèi)容徹底替代人工創(chuàng)作者的可能性越大;
隨著AIGC越來越同質(zhì)化、高效化,生成內(nèi)容的可控性決定了其是否會(huì)成為商業(yè)創(chuàng)作者助手的存在,還是替代原有內(nèi)容產(chǎn)出者的角色;
AI批量生成的非結(jié)構(gòu)化內(nèi)容,如3D視頻、VRAR領(lǐng)域內(nèi)容,可以幫助硬件和平臺(tái)廠商打破生態(tài)瓶頸,迎來行業(yè)爆發(fā)。
生成式AI能應(yīng)用的場(chǎng)景非常多,從不同類別的文本、圖像到策略的生成都可以裝進(jìn)各個(gè)口袋,在這些領(lǐng)域中,文本的結(jié)構(gòu)化屬性最強(qiáng),發(fā)展最早,因此文本和語(yǔ)音生成是目前生成式AI最成熟的領(lǐng)域。
AI生成文本
非交互式文本生成
文本生成又分為交互式和非交互式,非交互式更接近常規(guī)寫作這個(gè)領(lǐng)域,AI應(yīng)用最多的在于自動(dòng)輸入更正或者輸出一些中短篇內(nèi)容。
璞躍中國(guó)移動(dòng)出行團(tuán)隊(duì)認(rèn)為,未來在新聞播報(bào)等更為結(jié)構(gòu)化、標(biāo)準(zhǔn)化的領(lǐng)域,可以完全適用算法生成的稿件;但對(duì)用于創(chuàng)意寫作、營(yíng)銷寫作或者劇情續(xù)寫的非結(jié)構(gòu)化寫作來說,模型的可控性還不足以做到給AI一個(gè)題目,讓AI生成可以直接使用的千字文萬字文,它只能在文字和用詞上做一些擴(kuò)展,人們還需要對(duì)自動(dòng)生成的內(nèi)容進(jìn)行迭代。
此模型的作用,是在創(chuàng)作者寫作的過程當(dāng)中,根據(jù)現(xiàn)有的文本產(chǎn)生新的想法,或者重寫已有文句,從而幫助創(chuàng)作者突破創(chuàng)作瓶頸。隨著數(shù)量和模型的累積,未來將有更高質(zhì)量的輸出、更多形式的內(nèi)容和更好的垂直領(lǐng)域深度內(nèi)容產(chǎn)生。比如谷歌的LaMDA ,本身的設(shè)計(jì)功能只是句子補(bǔ)全;比如通過給定的一個(gè)單詞,來預(yù)測(cè)下一個(gè)最有可能的單詞是什么。
隨著時(shí)間的積累,LaMDA的模型規(guī)模和訓(xùn)練數(shù)據(jù)量大到讓它獲得了一種潛意識(shí)的能力,可以從語(yǔ)言中學(xué)習(xí)很多更高層次的概念和聯(lián)想,從而對(duì)于創(chuàng)作者的工作流程帶來非常大的幫助。現(xiàn)在的創(chuàng)作者可以用這個(gè)模型重寫語(yǔ)句,生成文章細(xì)節(jié)內(nèi)容,也可以讓它遣詞造句,讓原有的行文“更有趣”或者“更憂郁”一點(diǎn)。
交互式文本生成
自動(dòng)客服、聊天機(jī)器人和交互式文本游戲都屬于交互式文本生成,目前現(xiàn)有的交互式文本都是基于給定的語(yǔ)句庫(kù)給出答案,而不能創(chuàng)造新的回答方式。生成式AI可以做到徹底地代替?zhèn)鹘y(tǒng)人工客服,回答更復(fù)雜、開創(chuàng)性的問題。
代碼生成
如果說AI文字生成用的是常規(guī)人類文本,AI代碼生成則是機(jī)器語(yǔ)言的自動(dòng)生成。GitHub基于 OpenAI 推出的Copilot,可以說是程序員神器了,它是在數(shù)十億行開源代碼上訓(xùn)練,并在寫代碼的同時(shí)默默給出整行,甚至只要填寫注釋和調(diào)用的包,它就能給出完整算法的建議。在短期內(nèi),這一技術(shù)的應(yīng)用將大大提升開發(fā)人員的生產(chǎn)力和效率,未來更多的非開發(fā)人員也將能利用代碼生成,完成自己的內(nèi)容開發(fā)。
AI文字生成的蛋糕在哪里:
1/ 結(jié)構(gòu)化自動(dòng)創(chuàng)作:新聞稿、公文件等標(biāo)準(zhǔn)化強(qiáng)度高的創(chuàng)作領(lǐng)域適用于AI文字生成;
2/ 非結(jié)構(gòu)化創(chuàng)意輔助:創(chuàng)意創(chuàng)作者的細(xì)節(jié)優(yōu)化、文采優(yōu)化;
3/ 交互式文本:對(duì)比普通人完成交互,AI更適合滿足長(zhǎng)時(shí)間、高反應(yīng)速度的客服及娛樂需求;
4/ 代碼生成:降低開發(fā)人員門檻,讓更多普通技術(shù)人員參與開發(fā)過程,優(yōu)化低代碼、無代碼平臺(tái)研發(fā)。
AI文字生成切走的蛋糕在哪里:
1/ 標(biāo)準(zhǔn)化強(qiáng)度高的文案內(nèi)容創(chuàng)作;
2/ 傳統(tǒng)NLP文本客服將依然存在,用于滿足簡(jiǎn)單問題解答,但需求會(huì)顯著降低;
3/ 代碼生成將與此前的低代碼、無代碼平臺(tái)融合,拉低開發(fā)人員和非開發(fā)人員的差距。
圖片生成出現(xiàn)的時(shí)間最短,但是最有成為殺手級(jí)應(yīng)用的傳播能力的一種。比起單調(diào)乏味的文字和專業(yè)性更強(qiáng)的代碼開發(fā),過去對(duì)AI的運(yùn)用“更多像是學(xué)術(shù)界的自嗨”,今年AI創(chuàng)作的技術(shù)利用了基于大模型的diffusion model帶來了文字轉(zhuǎn)圖像的交互方式,允許大眾參與自主創(chuàng)作,大眾屬性和圖片生成自帶的傳播能力是最近AIGC爆火的主要原因。
2D創(chuàng)意圖像生成
2D創(chuàng)意圖像生成是最近爆火的diffusion的主要功能,目前這個(gè)功能主要面向C端用戶,而且多以免費(fèi)的形式出現(xiàn)。在創(chuàng)意圖像生成,功能性圖像生成方面,如根據(jù)指定要求生成商業(yè)用途的海報(bào)、模特圖、logo等,這些商業(yè)圖片盡管目前尚未廣泛應(yīng)用,但在未來有望落地大規(guī)模低成本創(chuàng)作的機(jī)會(huì)。除了版權(quán)問題,AI生成的圖像離商業(yè)化最大的阻礙在于現(xiàn)在絕大多數(shù)AI對(duì)圖畫細(xì)節(jié)的處理、可控性和文本理解能力尚有欠缺,所以常常會(huì)出現(xiàn)比例失調(diào),看起來怪異猙獰,或者對(duì)著類似“鮭魚洄游”有著獨(dú)特的理解的情況。
功能性圖像生成
當(dāng)下的圖片生成更多是做到了好看,但是沒有細(xì)節(jié)。如果想在工業(yè)級(jí)別或者企業(yè)級(jí)別上使用內(nèi)容生成,現(xiàn)在的模型還缺少科學(xué)的精準(zhǔn)和可控性,這也是目前AI的創(chuàng)作技術(shù)的發(fā)展方向之一。
如果可以達(dá)到過程可控,相關(guān)技術(shù)就可以成為創(chuàng)作者的輔助插件,正如之前當(dāng)PS剛剛推出各種筆刷,盡管剛出現(xiàn)時(shí)藝術(shù)家也有反感態(tài)度,但時(shí)至如今,筆刷已經(jīng)做到了節(jié)能增效的作用,幫助藝術(shù)家更快速簡(jiǎn)便地完成創(chuàng)作,幫助創(chuàng)作者完成構(gòu)建創(chuàng)意與實(shí)現(xiàn)的分離。
從這個(gè)角度來看,可以把創(chuàng)作者和AIGC的關(guān)系比作攝影師和照相機(jī),創(chuàng)作者(攝影師)構(gòu)建拍攝思路并進(jìn)行規(guī)劃,對(duì)相機(jī)進(jìn)行參數(shù)配置,正如人們對(duì)AI模型進(jìn)行參數(shù)配置,即可直接點(diǎn)擊輸出作品。創(chuàng)意和實(shí)現(xiàn)呈現(xiàn)出分離狀態(tài),實(shí)現(xiàn)過程變?yōu)橐环N可重復(fù)勞動(dòng),可以由AIGC來完成,并逐步將成本推向趨近于0。
視頻、3D模型、VR圖像
比起普通2D圖像更進(jìn)一步的是視頻、3D模型和VR圖像,在這幾個(gè)領(lǐng)域AI并沒有太多的積累,卻可以打破目前內(nèi)容的投入產(chǎn)出比極低的痛點(diǎn)。無論是VRAR硬件設(shè)備廠商,還是元宇宙平臺(tái)運(yùn)營(yíng)商,目前都面臨“生態(tài)內(nèi)容不足的痛點(diǎn)”,不足5秒的3D鏡頭需要耗費(fèi)超2個(gè)月的時(shí)間完成,難以規(guī)?;a(chǎn),通過AI快速生成這類進(jìn)階圖像則可以打破這一生態(tài)瓶頸。
RCT Studio打造的Morpheus引擎能夠通過深度學(xué)習(xí),輸入目標(biāo)文字即可渲染成3D資源和動(dòng)畫;同樣NeRF能夠利用幾張靜態(tài)圖像生成多視角的3D動(dòng)畫。隨著AI技術(shù)迭代,引擎渲染過程加速,人們期待在未來1-2年內(nèi)看到基礎(chǔ)的3D和視頻模型的出現(xiàn),打開電影、游戲、虛擬現(xiàn)實(shí)、建筑和實(shí)物產(chǎn)品設(shè)計(jì)等大型創(chuàng)意市場(chǎng),同時(shí)帶動(dòng)硬件、影視、游戲等其他產(chǎn)業(yè)。
AI圖像生成的蛋糕在哪里:
1/ 2D領(lǐng)域:批量藝術(shù)性內(nèi)容,如海報(bào)、藝術(shù)頭像等生成,藝術(shù)家創(chuàng)作輔助插件;
2/ 3D/VR/AR領(lǐng)域:模型快速渲染,數(shù)字人、仿真人等元宇宙內(nèi)容生態(tài)搭建;
3/ 視頻領(lǐng)域:廣告內(nèi)容生成。
無論是元宇宙平臺(tái)、還是車企、互聯(lián)網(wǎng)公司的營(yíng)銷需求,AI生成的內(nèi)容都可以低成本、高效率的滿足。
AI圖像生成切走的蛋糕在哪里:
1/ “獨(dú)一無二”版權(quán)在不同領(lǐng)域的應(yīng)用,如服裝、電子產(chǎn)品、建筑藝術(shù)品等
無論生成式AI的出現(xiàn)搶走了蛋糕還是做大了蛋糕,璞躍中國(guó)移動(dòng)出行團(tuán)隊(duì)認(rèn)為,一切新技術(shù)和應(yīng)用的出現(xiàn),最終目的都應(yīng)該是提高人們的工作效率,從而進(jìn)一步提升生活體驗(yàn)。本文僅給大家列舉了一部分有意思的生成式AI應(yīng)用場(chǎng)景和舊市場(chǎng)之間的關(guān)系,在AIGC系列的下一篇中,我們將從商業(yè)模式出發(fā),探討商業(yè)化落地更快,變現(xiàn)能力更強(qiáng)的案例。
審核編輯黃昊宇
-
AI
+關(guān)注
關(guān)注
88文章
35194瀏覽量
280283 -
生成式AI
+關(guān)注
關(guān)注
0文章
531瀏覽量
825
發(fā)布評(píng)論請(qǐng)先 登錄
谷歌新一代生成式AI媒體模型登陸Vertex AI平臺(tái)
聚云科技獲亞馬遜云科技生成式AI能力認(rèn)證
聚云科技榮獲亞馬遜云科技生成式AI能力認(rèn)證
聚云科技榮獲亞馬遜云科技生成式AI能力認(rèn)證 助力企業(yè)加速生成式AI應(yīng)用落地
生成式AI工具好用嗎
國(guó)內(nèi)生成式AI備案數(shù)量突破300款
Google兩款先進(jìn)生成式AI模型登陸Vertex AI平臺(tái)
IDC生成式AI白皮書亮點(diǎn)速遞
日男子用AI造計(jì)算機(jī)病毒被判 生成式AI的管控待加強(qiáng)
生成式AI工具作用
生成式AI的迅猛發(fā)展與安全挑戰(zhàn):CPU在構(gòu)建云端可信環(huán)境中的關(guān)鍵作用
NVIDIA AI助力SAP生成式AI助手Joule加速發(fā)展
STAR AI進(jìn)軍美股科技星智能領(lǐng)跑生成式AI賽道

2024學(xué)習(xí)生成式AI的最佳路線圖

評(píng)論