99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Sora到底牛在哪 | AI爆發(fā)的大趨勢(shì)下,普通人真正該學(xué)的是什么

王嵐 ? 來(lái)源:jf_23355247 ? 作者:jf_23355247 ? 2024-03-06 22:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Sora炸裂了的地方,在于它能理解自然語(yǔ)言,知道那個(gè)畫面該是怎么樣的,它學(xué)習(xí)很多視頻內(nèi)容(大力出奇跡,需要很多算力),而且一上來(lái)就是能制作60s的視頻,剛好是短視頻的需求,之前的AI視頻生成的時(shí)間都很短(幾秒鐘).

就說Sora有多火吧,生成的視頻上線一個(gè),瘋傳一個(gè)。

明顯能看出來(lái)Sora生成的視頻中的各項(xiàng)細(xì)節(jié)都讓人驚嘆,一如去年的ChatGPT,Sora被認(rèn)為是AGI(通用人工智能)的又一個(gè)里程碑時(shí)刻。

一.sora的出現(xiàn)可以如何看待:

對(duì)于許多行業(yè)來(lái)說,都應(yīng)該關(guān)注Open AI和sora這些人工智能相關(guān)的產(chǎn)品。

尤其是對(duì)設(shè)計(jì)領(lǐng)域來(lái)說,比如以前做logo、做海報(bào)、宣傳冊(cè)、做操作視頻剪輯、拍攝等等相關(guān)的行業(yè)。

其一是思考,面對(duì)這些新技術(shù)、新工具,對(duì)自己有哪些挑戰(zhàn),應(yīng)對(duì)策略是什么。

其二是結(jié)合,基于自己當(dāng)前的業(yè)務(wù),哪些可以利用這些技術(shù)進(jìn)行結(jié)合,從而提升自己的效率和業(yè)務(wù)場(chǎng)景。

比如美圖秀秀、稿定設(shè)計(jì)、剪映等產(chǎn)品,就基于AI立馬推出了相關(guān)的產(chǎn)品。

(PS:目前 openai 官方還未開放 sora 灰度,不過根據(jù)文生圖模型 DALL·E 案例,一定是先給 ChatGPT Plus 付費(fèi)用戶使用,需要注冊(cè)或者升級(jí) GPT Plus 可以看這個(gè)教程:升級(jí) ChatGPT Plus 的教程,一分鐘完成升級(jí))

二. 以終為始地看,AI爆發(fā)的大趨勢(shì)下,普通人真正該學(xué)的是什么?

我覺得有三點(diǎn):講故事的能力、結(jié)構(gòu)化思考力和內(nèi)容專業(yè)力。

1. 講故事的能力

以文生視頻為例,先不說Sora,很多人連Pika、Runway都用不利索。

用文字描述一件事、一個(gè)觀點(diǎn)、一個(gè)訴求并不難,但描述一段畫面、一個(gè)場(chǎng)景、一則完整故事,對(duì)絕大多數(shù)人是極高的門檻。

Sora不會(huì)讓影視行業(yè)失業(yè),正相反,如果視頻生成的AI技術(shù)持續(xù)普及,會(huì)讓真正會(huì)寫故事的人發(fā)揮才能,而不是受限于影視行業(yè)的潛規(guī)則而灰心放棄。

2. 結(jié)構(gòu)化思考力

很多寫Sora的文章,都在講它在模型算法、算力涌現(xiàn)、物理模擬上的創(chuàng)新。對(duì)我而言,會(huì)更驚訝它在訓(xùn)練視頻數(shù)據(jù)時(shí),以一種結(jié)構(gòu)化提示詞方法,解決了視頻標(biāo)注問題:

“We first train a highly descriptive captioner model and then use it to produce text captions for all videos in our training set”

本質(zhì)上看,無(wú)論是B端訓(xùn)練數(shù)據(jù),還是C端和大模型對(duì)話,都用到了結(jié)構(gòu)化表達(dá)能力。包括那些所謂“Sora培訓(xùn)”,其實(shí)教你的也是怎么寫好提示詞。舉個(gè)例子,對(duì)這樣的場(chǎng)景:

該怎么描述呢?一個(gè)在沉思的老爺爺?一個(gè)戴眼鏡的老爺爺?一個(gè)在咖啡廳發(fā)呆的老爺爺?可能大部分人想到這兒就結(jié)束了。但更加結(jié)構(gòu)化的描述可以是:

主體人物::一位 60 多歲留著胡須的白發(fā)老人

鏡頭景別:臉部特寫

背景環(huán)境:巴黎的一家咖啡館

人物狀態(tài):注視著窗外行走的人們,一動(dòng)不動(dòng)陷入沉思,后又抿嘴微微一笑

人物細(xì)節(jié):穿著一件羊毛大衣和一件紐扣襯衫、頭戴棕色貝雷帽,戴著眼鏡,像是個(gè)教授

環(huán)境細(xì)節(jié):金色的燈光和背景中的巴黎街道和城市

鏡頭技術(shù):景深、35 毫米電影膠片,有電影感

具備寫出上述提示詞的能力,才能真正發(fā)揮多模態(tài)技術(shù)的價(jià)值。這背后蘊(yùn)含著的,就是結(jié)構(gòu)化總結(jié)和思考能力。

有句話很形象,寫提示詞就像客戶講brief,能把需求說清楚,就離正確答案不遠(yuǎn)了。

3. 內(nèi)容專業(yè)力

這點(diǎn)又說回到創(chuàng)作者本身,我比較喜歡楊遠(yuǎn)騁老師(「躺島」和「新世相」聯(lián)合創(chuàng)始人)的一個(gè)觀點(diǎn):

最大的影響會(huì)是出現(xiàn)新的創(chuàng)作者,會(huì)出現(xiàn)完全不在人們視野里的新的內(nèi)容偶像,他們有非常好的品位、思維方式和世界觀,但受限于表達(dá)技術(shù),在過去卻連基本的視頻制作能力都不具備。

Koji,公眾號(hào):十字路口CrossingSora 喧囂過后,理性浮現(xiàn) | 我問出了這 5 位頂級(jí)創(chuàng)作者的真實(shí)想法

是的,除了上文提到的講故事能力。如果你具備對(duì)“好內(nèi)容”的理解力,懂得怎樣更合理地設(shè)計(jì)腳本、做分鏡、上特效、畫故事板、運(yùn)鏡、調(diào)度、選角、布景、調(diào)光、配音、后期等等,AI就是你發(fā)揮想象力最好的幫手。能用好 AI 的人,一定能做出更好作品、獲得更多收入。

因此我堅(jiān)定地認(rèn)為,這波AI趨勢(shì),對(duì)高潛力的作家、畫手、設(shè)計(jì)師、編劇等創(chuàng)作者,是絕對(duì)的利好。如果你也想從中獲益,先把“創(chuàng)作一部好內(nèi)容”作為目標(biāo)學(xué)起來(lái)吧。

總的來(lái)講,我認(rèn)為圍著Sora去追新聞沒啥必要。能跳出對(duì)Sora本身鋪天蓋地的宣傳,去思考這背后該真正掌握的技能是什么。用結(jié)構(gòu)化思維去訓(xùn)練講故事的能力,成為一名優(yōu)秀創(chuàng)作者,才是值得為此付出時(shí)間的。

三、sora原理常見問題及解答:

Q:訓(xùn)練數(shù)據(jù)的一個(gè) clip 中如果有場(chǎng)景/鏡頭的切換,那 casual 3D CNN 還是會(huì)和過往的幀都有關(guān)系嗎?

A:訓(xùn)練數(shù)據(jù)中大概率是有:一個(gè) clip 有鏡頭/場(chǎng)景的切換。如果有切換,那么使用 casual 3D CNN 可能會(huì)帶來(lái)問題:在切換前后的內(nèi)容是不同的,不僅會(huì)增加模型訓(xùn)練難度,也會(huì)帶來(lái)瑕疵。這個(gè)可能就直接訓(xùn)練了,通過相應(yīng)數(shù)據(jù)的訓(xùn)練就能解決。


Q:訓(xùn)練數(shù)據(jù)的來(lái)源?

A:大家猜測(cè)有 1)youtube 的視頻。2)Shutterstock,之前有公告:Shutterstock 擴(kuò)大與 OpenAI 的合作伙伴關(guān)系,簽署新的六年協(xié)議以提供高質(zhì)量的訓(xùn)練數(shù)據(jù):渲染引擎的數(shù)據(jù),這個(gè)網(wǎng)絡(luò)上大家貼出了一些間接證據(jù)。渲染引擎的數(shù)據(jù)能夠針對(duì)性地模擬出很多符合 3D 一致性、物理一致性的數(shù)據(jù),對(duì)于模型的訓(xùn)練應(yīng)該有很好的幫助。


Q:輸出變長(zhǎng)的長(zhǎng)度、分辨率和長(zhǎng)寬比是如何做到的?

A:1. diffusion 過程中,輸入的 noise tokens 就添加 factorized positional embedding。比如最直接的實(shí)現(xiàn)方式,每個(gè) token 對(duì)應(yīng)有三個(gè)數(shù)字(t, h, w)分別表示時(shí)間、長(zhǎng)和寬,然后添加相應(yīng)的 position embedding 去區(qū)分。

訓(xùn)練的時(shí)候也采用了變長(zhǎng)的長(zhǎng)度、分辨率和長(zhǎng)寬比。這些 examples 模型在訓(xùn)練的時(shí)候見過。

這樣,可以做到技術(shù)報(bào)告中提到的:At inference time, we can control the size of generated videos by arranging randomly-initialized patches in an appropriately-sized grid。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    279919
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1590

    瀏覽量

    9101
  • Sora
    +關(guān)注

    關(guān)注

    0

    文章

    83

    瀏覽量

    486
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Gartner發(fā)布云技術(shù)發(fā)展的六大趨勢(shì)

    Gartner發(fā)布未來(lái)四年云技術(shù)發(fā)展的六大趨勢(shì),包括對(duì)云技術(shù)不滿、人工智能/機(jī)器學(xué)習(xí)(AI/ML)、多云和跨云、可持續(xù)性、數(shù)字主權(quán)以及行業(yè)解決方案。Gartner顧問總監(jiān)JoeRogus表示:“這些
    的頭像 發(fā)表于 05-19 11:40 ?451次閱讀
    Gartner發(fā)布云技術(shù)發(fā)展的六<b class='flag-5'>大趨勢(shì)</b>

    《零基礎(chǔ)開發(fā)AI Agent——手把手教你用扣子做智能體》

    《零基礎(chǔ)開發(fā)AI Agent——手把手教你用扣子做智能體》是一本為普通人量身打造的AI開發(fā)指南。它不僅深入淺出地講解了Agent的概念和發(fā)展,還通過詳細(xì)的工具介紹和實(shí)戰(zhàn)案例,幫助讀者快速掌握
    發(fā)表于 03-18 12:03

    淺談AI應(yīng)用的三大趨勢(shì)

    AI跑在邊緣側(cè)和端側(cè)基本上已經(jīng)是當(dāng)下AI應(yīng)用的主旋律。這一趨勢(shì)從去年在上海舉辦的兩大展會(huì)WAIC(世界人工智能大會(huì))和Electronica(慕尼黑電子展,稱“慕展”)上再次得到了
    的頭像 發(fā)表于 03-06 11:46 ?862次閱讀

    DeepSeek對(duì)2025年智能制造領(lǐng)域十大趨勢(shì)的預(yù)測(cè)

    和行業(yè)動(dòng)態(tài),deepseek預(yù)測(cè)的2025年智能制造領(lǐng)域十大趨勢(shì),涵蓋技術(shù)創(chuàng)新、生產(chǎn)模式變革及產(chǎn)業(yè)生態(tài)重塑。 生成式AI驅(qū)動(dòng)全流程優(yōu)化 趨勢(shì):生成式AI(如工業(yè)大模型)將深度融入產(chǎn)品設(shè)
    的頭像 發(fā)表于 02-17 10:24 ?931次閱讀

    維智科技對(duì)DeepSeek的十問十答

    DeepSeek這一國(guó)產(chǎn)大模型的技術(shù)創(chuàng)新給AI生態(tài)帶來(lái)了深刻的影響,那么我們普通人可以在這個(gè)浪潮中尋得哪些新的機(jī)會(huì)?
    的頭像 發(fā)表于 02-13 09:41 ?470次閱讀

    朋友圈被DeepSeek刷屏了?普通人如何也能吃上AI紅利?

    開了家24小時(shí)平價(jià)米其林餐廳。今天咱們就說說這些AI公司到底在卷什么,以及咱們普通人該怎么搭上這趟車。一、拆解DeepSeek三大技術(shù)亮點(diǎn)開源策略與生態(tài)建設(shè)Dee
    的頭像 發(fā)表于 02-11 10:31 ?761次閱讀
    朋友圈被DeepSeek刷屏了?<b class='flag-5'>普通人</b>如何也能吃上<b class='flag-5'>AI</b>紅利?

    大趨勢(shì)企業(yè)如何實(shí)現(xiàn)智能制造 | 珠海盈致

    、成本控制等方面的顯著提升。那么,在大趨勢(shì),企業(yè)如何實(shí)現(xiàn)智能制造呢? 一、明確智能制造轉(zhuǎn)型戰(zhàn)略 企業(yè)首先要基于自身現(xiàn)狀和市場(chǎng)趨勢(shì),制定明確的智能制造轉(zhuǎn)型戰(zhàn)略。這包括短期和長(zhǎng)期目標(biāo),以及實(shí)現(xiàn)這些目標(biāo)的路徑和關(guān)鍵
    的頭像 發(fā)表于 01-21 13:57 ?374次閱讀

    華為發(fā)布2025數(shù)據(jù)中心能源十大趨勢(shì)

    今日,華為舉辦2025數(shù)據(jù)中心能源十大趨勢(shì)發(fā)布會(huì),華為數(shù)據(jù)中心能源領(lǐng)域總裁堯權(quán)全面解讀數(shù)據(jù)中心能源十大趨勢(shì),為AI時(shí)代數(shù)據(jù)中心產(chǎn)業(yè)發(fā)展注入新動(dòng)力,洞見變革,引領(lǐng)產(chǎn)業(yè)跨越式發(fā)展。
    的頭像 發(fā)表于 01-14 10:24 ?497次閱讀

    華為發(fā)布2025充電網(wǎng)絡(luò)產(chǎn)業(yè)十大趨勢(shì)

    近日,華為以“讓有路的地方就有高質(zhì)量充電”為主題,舉辦2025充電網(wǎng)絡(luò)產(chǎn)業(yè)十大趨勢(shì)發(fā)布會(huì)。華為智能充電網(wǎng)絡(luò)領(lǐng)域總裁王志武從產(chǎn)業(yè)發(fā)展走向與技術(shù)發(fā)展路線,全面解讀2025年充電網(wǎng)絡(luò)產(chǎn)業(yè)十大趨勢(shì)
    的頭像 發(fā)表于 01-10 09:33 ?670次閱讀

    華為發(fā)布2025智能光伏十大趨勢(shì)

    華為數(shù)字能源以“融合創(chuàng)新,智構(gòu)未來(lái),加速光伏成為主力能源”為主題,舉辦2025智能光伏十大趨勢(shì)發(fā)布會(huì)。華為數(shù)字能源智能光伏產(chǎn)品線總裁周濤發(fā)布了智能光伏十大趨勢(shì)和重磅白皮書,為光儲(chǔ)產(chǎn)業(yè)的高質(zhì)量發(fā)展提供前瞻性支持。
    的頭像 發(fā)表于 01-06 17:12 ?888次閱讀

    2025年全球半導(dǎo)體八大趨勢(shì),萬(wàn)年芯蓄勢(shì)待發(fā)

    近日,國(guó)際數(shù)據(jù)公司(IDC)發(fā)布了2025年全球半導(dǎo)體市場(chǎng)的八大趨勢(shì)預(yù)測(cè),顯示出對(duì)半導(dǎo)體市場(chǎng)回暖的信心,為業(yè)界提供了寶貴的市場(chǎng)洞察。在全球范圍內(nèi),特別是在人工智能(AI)和高性能運(yùn)算(HPC)需求
    的頭像 發(fā)表于 12-17 16:53 ?2272次閱讀
    2025年全球半導(dǎo)體八<b class='flag-5'>大趨勢(shì)</b>,萬(wàn)年芯蓄勢(shì)待發(fā)

    OpenAI推出AI視頻生成模型Sora

    近日,備受期待的OpenAI再次推出了其創(chuàng)新之作——AI視頻生成模型Sora。這一新品的發(fā)布,無(wú)疑為AI技術(shù)注入了新的活力。 據(jù)悉,Sora與OpenAI旗下的
    的頭像 發(fā)表于 12-12 09:40 ?714次閱讀

    OpenAI開放Sora視頻生成模型

    OpenAI近日宣布,其傾力打造的人工智能視頻生成系統(tǒng)Sora已正式向美國(guó)及其他市場(chǎng)的ChatGPT Plus訂閱用戶開放。自去年首次公開預(yù)覽以來(lái),Sora歷經(jīng)約10個(gè)月的精心研發(fā)與優(yōu)化,現(xiàn)已全面
    的頭像 發(fā)表于 12-10 11:16 ?742次閱讀

    智慧燈桿到底“智慧”在哪里?條形智能為您專業(yè)解讀 AI燈桿屏

    智慧燈桿到底“智慧”在哪里?條形智能為您專業(yè)解讀 AI燈桿屏
    的頭像 發(fā)表于 11-14 13:51 ?642次閱讀
    智慧燈桿<b class='flag-5'>到底</b>“智慧”<b class='flag-5'>在哪</b>里?條形智能為您專業(yè)解讀 <b class='flag-5'>AI</b>燈桿屏

    AI崛起背景,MEMS傳感器的出路在哪

    深入探討在AI崛起背景,MEMS傳感器的出路在哪里,為讀者揭示這一科技產(chǎn)品的未來(lái)發(fā)展趨勢(shì)。 MEMS傳感器與AI的緊密聯(lián)系 MEMS傳感器
    的頭像 發(fā)表于 10-22 08:09 ?1172次閱讀