99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

南開大學和字節(jié)跳動聯(lián)合開發(fā)一款StoryDiffusion模型

冬至配餃子 ? 來源:網絡整理 ? 作者:網絡整理 ? 2024-05-07 14:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,南開大學和字節(jié)跳動聯(lián)合開發(fā)的 StoryDiffusion 模型解決了擴散模型生成連貫圖像與視頻的難題。其核心在于“一致自注意力”機制,強化圖像間一致性,無需額外訓練即可提升現有文本到圖像模型的表現。加之“語義運動預測器”,利用語義空間預測圖像序列間的流暢變換,尤其在長視頻生成中展現了前所未有的穩(wěn)定性與主體一致性。此框架使基于文本的復雜故事視覺化成為可能,不僅在角色與場景細節(jié)一致性上超越 IP-Adapter 等工具,還能精準匹配文本描述。

南開大學和字節(jié)跳動聯(lián)合開發(fā)的StoryDiffusion模型是一種新的機器學習技術,主要用于生成具有長距離相關性的圖像和視頻。以下是該模型的一些主要特點:

1.一致性自注意力(Consistent Self-Attention):該模型通過一種新的自注意力計算方法,在生成圖像時建立批內圖像之間的聯(lián)系,以保持人物的一致性。這種機制無需訓練即可生成主題一致的圖像,解決了在一系列生成的圖像中保持內容一致性的挑戰(zhàn),尤其是對于包含復雜主題和細節(jié)的圖像。

2.語義運動預測器(Semantic Motion Predictor):為了將這種方法擴展到長視頻生成,StoryDiffusion引入了語義運動預測器,將圖像編碼到語義空間,并預測語義空間中的運動,以生成視頻。這種基于語義空間的運動預測比僅基于潛在空間的預測更加穩(wěn)定。

3.兩階段長視頻生成方法:通過Consistent self-attention機制生成的圖像可以順利過渡為視頻,實現兩階段長視頻生成方法。結合這兩個部分,可以生成常長且高質量的AIGC視頻。

4.用戶交互性:用戶可以通過提供一系列用戶輸入的條件圖像,使用Image-to-Video模型生成視頻。此外,用戶還可以通過Jupyter notebook或本地adio demo來生成漫畫。

5.應用范圍:StoryDiffusion的應用范圍廣泛,包括漫畫生成、圖像轉視頻等多種場景。

StoryDiffusion模型利用了一種稱為StoryGAN的生成模型,該模型可以根據輸入的故事情節(jié)和場景描述生成相關的圖像和視頻。這項技術有助于解決傳統(tǒng)圖像和視頻生成技術中的局限性,使得生成的圖像和視頻更加自然和連貫。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8501

    瀏覽量

    134573
  • 字節(jié)跳動

    關注

    0

    文章

    347

    瀏覽量

    9477
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Vector與QNX聯(lián)合開發(fā)基礎車載軟件平臺

    基礎車載軟件平臺是由Vector和QNX聯(lián)合開發(fā)一款預集成、可擴展的軟件平臺,專為軟件定義汽車的高性能計算節(jié)點(HPC)打造。該平臺可用于當前和未來車型,滿足最高等級的功能安全(ISO 26262,ASIL D)和網絡安全(ISO 21434)要求。
    的頭像 發(fā)表于 07-11 09:31 ?499次閱讀
    Vector與QNX<b class='flag-5'>聯(lián)合開發(fā)</b>基礎車載軟件平臺

    字節(jié)豆包大模型團隊提出稀疏模型架構

    字節(jié)跳動豆包大模型Foundation團隊近期研發(fā)出UltraMem,種創(chuàng)新的稀疏模型架構,旨在解決推理過程中的訪存問題,同時確保
    的頭像 發(fā)表于 02-13 15:25 ?633次閱讀

    字節(jié)跳動否認趙明加盟及自研手機傳聞

    近日,市場傳出榮耀前CEO趙明即將加盟字節(jié)跳動,并可能主導其手機業(yè)務的消息。與此同時,還有傳聞稱字節(jié)跳動有意推出主打AI概念的手機產品,這
    的頭像 發(fā)表于 02-10 09:12 ?569次閱讀

    字節(jié)跳動豆包大模型1.5 Pro發(fā)布

    近日,字節(jié)跳動旗下的豆包大模型迎來了全新的升級——豆包大模型1.5 Pro正式發(fā)布。這款全新模型在知識、代碼、推理、中文等多個測評基準上表現
    的頭像 發(fā)表于 01-23 15:24 ?639次閱讀

    字節(jié)跳動發(fā)布豆包大模型1.5 Pro

    字節(jié)跳動正式發(fā)布了豆包大模型1.5 Pro。 全新的Doubao -1.5 - pro模型綜合能力顯著增強,在知識、代碼、推理、中文等多個測評基準上,綜合得分優(yōu)于GPT - 4o、Cl
    的頭像 發(fā)表于 01-23 10:24 ?637次閱讀

    字節(jié)跳動發(fā)布海外AI中文開發(fā)環(huán)境IDE:Trae

    近日,字節(jié)跳動正式推出了一款全新的AI Coding產品——Trae(trae.ai),該產品專為海外專業(yè)開發(fā)者設計,旨在實現從Copilot向Autopilot的跨越式演進。這款創(chuàng)新
    的頭像 發(fā)表于 01-23 10:15 ?810次閱讀

    字節(jié)跳動推出海外AI中文開發(fā)環(huán)境IDE:Trae

    字節(jié)跳動近期正式發(fā)布了一款名為Trae(trae.ai)的全新AI Coding產品,旨在為海外專業(yè)開發(fā)者提供個高效、智能的編程環(huán)境。這款
    的頭像 發(fā)表于 01-21 10:33 ?1592次閱讀

    字節(jié)跳動與努比亞合作開發(fā)AI手機

    近日,有消息稱字節(jié)跳動已經選擇努比亞作為其合作伙伴,共同開發(fā)AI手機。據悉,雙方已經簽訂了框架協(xié)議,明確了合作的具體內容和時間表。 根據協(xié)議內容,字節(jié)
    的頭像 發(fā)表于 01-03 14:48 ?1137次閱讀

    纖納光電與南開國家新材料研究院簽訂合作備忘錄

    日前,纖納光電與南開大學國家新材料研究院簽約儀式暨鈣鈦礦光伏產業(yè)交流沙龍于南開大學材料科學與工程學院舉辦。纖納光電姚總、顏總、首席科學家楊旸教授出席,南開大學材料學院黨委書記邢麗芳,團委書記楊曉穎,及材料學院、電光學院、化學學院
    的頭像 發(fā)表于 01-02 14:45 ?522次閱讀

    字節(jié)跳動否認與中興通訊合作傳聞

    模型已經與多個手機品牌建立了合作關系,但并未涉及與中興通訊在智能手機領域的合作。同時,字節(jié)跳動還強調,目前并不存在與中興通訊關于芯片合作的具體計劃。這澄清使得市場上對于兩家企業(yè)可能
    的頭像 發(fā)表于 12-18 10:08 ?1092次閱讀

    字節(jié)跳動自研視頻生成模型Seaweed開放

    近日,字節(jié)跳動旗下的AI內容平臺即夢AI傳來新消息,宣布自研的視頻生成模型Seaweed即日起正式面向平臺用戶開放使用。這舉措標志著字節(jié)
    的頭像 發(fā)表于 11-11 14:31 ?689次閱讀

    字節(jié)跳動計劃在歐洲設立AI研發(fā)中心

    字節(jié)跳動正積極布局歐洲市場,計劃在該地區(qū)設立AI研發(fā)中心。據知情人士透露,字節(jié)跳動已開始在歐洲尋找LLM(Large Language Model,大語言
    的頭像 發(fā)表于 10-28 11:04 ?1019次閱讀

    字節(jié)跳動與清華AIR成立聯(lián)合研究中心

    近日,清華大學智能產業(yè)研究院(AIR)與字節(jié)跳動共同宣布成立“可擴展大模型智能技術聯(lián)合研究中心”(SIA Lab),并在清華
    的頭像 發(fā)表于 10-12 15:24 ?800次閱讀

    TINA-TI 9與TINA8對同個電路圖仿真結果不同是怎么回事?

    TINA-TI-9中的電路圖及AC仿真結果如下: TINA-8中的電路圖及仿真結果如下: 電路圖源自《模擬電路基礎》P419頁碼, PID放大器 ,作者:秦世才、賈香鸞;南開大學出版社。
    發(fā)表于 09-25 06:03

    字節(jié)跳動豆包大模型已支持實時語音通話

    字節(jié)跳動火山引擎今日隆重推出創(chuàng)新對話式AI實時交互解決方案,該方案以火山方舟大模型服務平臺為核心,全面升級語音交互體驗。該方案深度融合火山引擎RTC技術,實現了語音數據的即時采集、高效處理與穩(wěn)定傳輸,同時無縫集成豆包?語音識別與
    的頭像 發(fā)表于 08-12 16:13 ?1192次閱讀