99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

擴(kuò)散模型在視頻領(lǐng)域表現(xiàn)如何?

新機(jī)器視覺 ? 來源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2022-04-13 10:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

擴(kuò)散模型正在不斷的「攻城略地」。

擴(kuò)散模型并不是一個嶄新的概念,早在2015年就已經(jīng)被提出。其核心應(yīng)用領(lǐng)域包括音頻建模、語音合成、時間序列預(yù)測、降噪等。

那么它在視頻領(lǐng)域表現(xiàn)如何?先前關(guān)于視頻生成的工作通常采用諸如GAN、VAE、基于流的模型。

在視頻生成領(lǐng)域,研究的一個重要里程碑是生成時間相干的高保真視頻。來自谷歌的研究者通過提出一個視頻生成擴(kuò)散模型來實現(xiàn)這一里程碑,顯示出非常有希望的初步結(jié)果。本文所提出的模型是標(biāo)準(zhǔn)圖像擴(kuò)散架構(gòu)的自然擴(kuò)展,它可以從圖像和視頻數(shù)據(jù)中進(jìn)行聯(lián)合訓(xùn)練,研究發(fā)現(xiàn)這可以減少小批量梯度的方差并加快優(yōu)化速度。

為了生成更長和更高分辨率的視頻,該研究引入了一種新的用于空間和時間視頻擴(kuò)展的條件采樣技術(shù),該技術(shù)比以前提出的方法表現(xiàn)更好。

30908a38-ba83-11ec-aa7f-dac502259ad0.png

論文地址:https://arxiv.org/pdf/2204.03458.pdf

論文主頁:https://video-diffusion.github.io/

研究展示了文本條件視頻生成的結(jié)果和無條件視頻生成基準(zhǔn)的最新結(jié)果。例如生成五彩斑斕的煙花:

30a02fc4-ba83-11ec-aa7f-dac502259ad0.gif

其他生成結(jié)果展示:

30c6b572-ba83-11ec-aa7f-dac502259ad0.gif

這項研究有哪些亮點呢?首先谷歌展示了使用擴(kuò)散模型生成視頻的首個結(jié)果,包括無條件和有條件設(shè)置。先前關(guān)于視頻生成的工作通常采用其他類型的生成模型,如 GAN、VAE、基于流的模型和自回歸模型。

其次該研究表明,可以通過高斯擴(kuò)散模型的標(biāo)準(zhǔn)公式來生成高質(zhì)量的視頻,除了直接的架構(gòu)更改以適應(yīng)深度學(xué)習(xí)加速器的內(nèi)存限制外,幾乎不需要其他修改。該研究訓(xùn)練生成固定數(shù)量的視頻幀塊的模型,并且為了生成比該幀數(shù)更長的視頻,他們還展示了如何重新調(diào)整訓(xùn)練模型的用途,使其充當(dāng)對幀進(jìn)行塊自回歸的模型。

方法介紹

圖像擴(kuò)散模型中31a1e930-ba83-11ec-aa7f-dac502259ad0.png的標(biāo)準(zhǔn)架構(gòu)是U-Net,它是一種被構(gòu)造為空間下采樣通道的神經(jīng)網(wǎng)絡(luò)架構(gòu),空間上采樣通道緊隨其后,其中殘差連接到下采樣通道激活。這種神經(jīng)網(wǎng)絡(luò)由2D卷積殘差塊的層構(gòu)建而成,并且每個這種卷積塊的后面是空間注意力塊。

研究者建議將這一圖像擴(kuò)散模型架構(gòu)擴(kuò)展至視頻數(shù)據(jù),給定了固定數(shù)量幀的塊,并且使用了在空間和時間上分解的特定類型的 3D U-Net。

首先,研究者通過將每個 2D卷積改成space-only 3D卷積對圖像模型架構(gòu)進(jìn)行修改,比如將每個3x3卷積改成了1x3x3卷積,即第一個軸(axis)索引視頻幀,第二和第三個索引空間高度和寬度。每個空間注意力塊中的注意力仍然為空間上的注意力,也即第一個軸被視為批處理軸(batch axis)。

其次,在每個空間注意力塊之后,研究者插入一個時間注意力塊,它在第一個軸上執(zhí)行注意力并將空間軸視為批處理軸。他們在每個時間注意力塊中使用相對位置嵌入,如此網(wǎng)絡(luò)不需要絕對視頻時間概念即可區(qū)分幀的順序。3D U-Net 的模型架構(gòu)可視圖如下所示。

31acf762-ba83-11ec-aa7f-dac502259ad0.png

我們都知道,得益于分解時空注意力的計算效率,在視頻transformers中使用它是一個很好的選擇。研究者使用的分解時空架構(gòu)是自身視頻生成設(shè)置獨有的,它的一大優(yōu)勢是可以直接 mask 模型以在獨立圖像而非視頻上運行,其中只需刪除每個時間注意力塊內(nèi)部的注意力操作并修復(fù)注意力矩陣以在每個視頻時間步精確匹配每個鍵和問詢向量。

這樣做的好處是允許聯(lián)合訓(xùn)練視頻和圖像生成的模型。研究者在實驗中發(fā)現(xiàn),這種聯(lián)合訓(xùn)練對樣本質(zhì)量非常重要。

新穎的條件生成梯度方法

研究者的主要創(chuàng)新是設(shè)計了一種新的、用于無條件擴(kuò)散模型的條件生成方法,稱之為梯度方法,它修改了模型的采樣過程以使用基于梯度的優(yōu)化來改進(jìn)去噪數(shù)據(jù)上的條件損失。他們發(fā)現(xiàn),梯度方法比現(xiàn)有方法更能確保生成樣本與條件信息的一致性。

研究者使用該梯度方法將自己的模型自回歸地擴(kuò)展至更多的時間步和更高的分辨率。

下圖左為利用梯度方法的視頻幀,圖右為利用自回歸擴(kuò)展基線替代(replacement)方法的幀??梢钥吹剑褂锰荻确椒ú捎玫囊曨l比基線方法具有更好的時間相干性。

31baddd2-ba83-11ec-aa7f-dac502259ad0.png

實驗結(jié)果

研究者對無條件、文本-條件視頻生成模型進(jìn)行了評估。文本-條件視頻生成是在一個包含 1000 萬個字幕視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練,視頻空間分辨率為 64x64 ;對于無條件視頻生成,該研究在現(xiàn)有基準(zhǔn) [36] 上訓(xùn)練和評估模型。

無條件視頻建模該研究使用 Soomro 等人[36]提出的基準(zhǔn)對無條件視頻生成模型進(jìn)行評估。表 1 展示了該研究所提模型生成的視頻的感知質(zhì)量得分,并與文獻(xiàn)中的方法進(jìn)行了比較,發(fā)現(xiàn)本文方法大大提高了SOTA。

31d7767c-ba83-11ec-aa7f-dac502259ad0.png

視頻、圖像模型聯(lián)合訓(xùn)練:表 2 報告了針對文本-條件的 16x64x64 視頻的實驗結(jié)果。

31eaf116-ba83-11ec-aa7f-dac502259ad0.png

無分類器指導(dǎo)的效果:表3 表明無分類器指導(dǎo) [13] 在文本-視頻生成方面的有效性。正如預(yù)期的那樣,隨著指導(dǎo)權(quán)重的增加,類 Inception Score 的指標(biāo)有明顯的改進(jìn),而類 FID 的指標(biāo)隨著引導(dǎo)權(quán)重的增加先改善然后下降。

表 3 報告的結(jié)果驗證了無分類器指導(dǎo) [13] 在文本-視頻生成方面的有效性。正如預(yù)期的那樣,隨著引導(dǎo)權(quán)重的增加,類 Inception Score (IS)的指標(biāo)有明顯的改進(jìn),而類 FID 的指標(biāo)隨著引導(dǎo)權(quán)重的增加先改善然后下降。這一現(xiàn)象在文本-圖像生成方面也有類似的發(fā)現(xiàn)[23]。

31fa1d94-ba83-11ec-aa7f-dac502259ad0.png

圖 3 顯示了無分類器指導(dǎo) [13] 對文本-條件視頻模型的影響。與在文本條件圖像生成 [23] 和類條件圖像生成 [13, 11] 上使用無分類器指導(dǎo)的其他工作中觀察到的類似,添加指導(dǎo)提高了每個圖像的樣本保真度。

3209e472-ba83-11ec-aa7f-dac502259ad0.png

針對較長序列的自回歸視頻擴(kuò)展:3.1節(jié)提出了基于擴(kuò)散模型的條件采樣梯度法,這是對[35]中替換方法的改進(jìn)。表4展示了使用這兩種技術(shù)生成較長視頻的結(jié)果,由結(jié)果可得本文提出的方法在感知質(zhì)量分?jǐn)?shù)方面確實優(yōu)于替換方法。

3237c806-ba83-11ec-aa7f-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 視頻
    +關(guān)注

    關(guān)注

    6

    文章

    1972

    瀏覽量

    73916
  • GaN
    GaN
    +關(guān)注

    關(guān)注

    19

    文章

    2207

    瀏覽量

    76783
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3519

    瀏覽量

    50414

原文標(biāo)題:視頻生成無需GAN、VAE,谷歌用擴(kuò)散模型聯(lián)合訓(xùn)練視頻、圖像,實現(xiàn)新SOTA

文章出處:【微信號:vision263com,微信公眾號:新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    明遠(yuǎn)智睿SSD2351開發(fā)板:視頻監(jiān)控領(lǐng)域的卓越之選

    隨著安全防范意識的提高,視頻監(jiān)控各個領(lǐng)域得到了廣泛應(yīng)用。明遠(yuǎn)智睿SSD2351開發(fā)板憑借其出色的性能和特性,成為視頻監(jiān)控領(lǐng)域的卓越之選,為
    發(fā)表于 05-30 10:24

    RK3588開發(fā)板上部署DeepSeek-R1大模型的完整指南

    DeepSeek作為國產(chǎn)AI大數(shù)據(jù)模型的代表,憑借其卓越的推理能力和高效的文本生成技術(shù),全球人工智能領(lǐng)域引發(fā)廣泛關(guān)注。DeepSeek-R1作為該系列最新迭代版本,實現(xiàn)了長文本處理效能躍遷、多模態(tài)
    發(fā)表于 02-27 16:45

    阿里云通義萬相2.1視頻生成模型震撼發(fā)布

    近日,阿里云旗下的通義萬相迎來了重要升級,正式推出了全新的萬相2.1視頻生成模型。這一創(chuàng)新成果標(biāo)志著阿里云視頻生成技術(shù)領(lǐng)域的又一次重大突破
    的頭像 發(fā)表于 01-13 10:00 ?828次閱讀

    基于移動自回歸的時序擴(kuò)散預(yù)測模型

    人工智能領(lǐng)域,目前有很多工作采用自回歸方法來模擬或是替代擴(kuò)散模型,其中視覺自回歸建模(Visual AutoRegressive modeling,簡稱 VAR)就是其中的典型代表,
    的頭像 發(fā)表于 01-03 14:05 ?881次閱讀
    基于移動自回歸的時序<b class='flag-5'>擴(kuò)散</b>預(yù)測<b class='flag-5'>模型</b>

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗】2.具身智能機(jī)器人大模型

    近年來,人工智能領(lǐng)域的大模型技術(shù)多個方向上取得了突破性的進(jìn)展,特別是機(jī)器人控制領(lǐng)域展現(xiàn)出了巨大的潛力。
    發(fā)表于 12-29 23:04

    【「大模型啟示錄」閱讀體驗】營銷領(lǐng)域模型的應(yīng)用

    今天跟隨「大模型啟示錄」這本書,學(xué)習(xí)在營銷領(lǐng)域應(yīng)用大模型。 大模型通過分析大量的消費者數(shù)據(jù),包括購買歷史、瀏覽記錄、社交媒體互動等,能夠識別消費者的偏好和行為模式。這種分析能力有助于企
    發(fā)表于 12-24 12:48

    圖森未來發(fā)布“Ruyi”視頻模型,Ruyi-Mini-7B版本現(xiàn)已開源

    圖森未來,一家自動駕駛和人工智能領(lǐng)域具有深厚積累的公司,近日正式發(fā)布了其全新的視頻模型——“Ruyi”。這款模型不僅代表了圖森未來
    的頭像 發(fā)表于 12-20 15:19 ?1415次閱讀

    【「大模型啟示錄」閱讀體驗】如何在客服領(lǐng)域應(yīng)用大模型

    客服領(lǐng)域是大模型落地場景中最多的,也是最容易實現(xiàn)的。本身客服領(lǐng)域的特點就是問答形式,大模型接入難度低。今天跟隨《大
    發(fā)表于 12-17 16:53

    騰訊混元大模型上線并開源文生視頻能力

    生成大模型具備生成“超寫實”高質(zhì)量視頻的能力,生成的畫面細(xì)膩且不易變形。這一特點在處理復(fù)雜場景和大幅度運動畫面時尤為突出,能夠保持視頻的流暢性和合理性。 尤為值得一提的是,該模型
    的頭像 發(fā)表于 12-04 14:06 ?531次閱讀

    浙大、微信提出精確反演采樣器新范式,徹底解決擴(kuò)散模型反演問題

    隨著擴(kuò)散生成模型的發(fā)展,人工智能步入了屬于?AIGC?的新紀(jì)元。擴(kuò)散生成模型可以對初始高斯噪聲進(jìn)行逐步去噪而得到高質(zhì)量的采樣。當(dāng)前,許多應(yīng)用都涉及擴(kuò)
    的頭像 發(fā)表于 11-27 09:21 ?691次閱讀
    浙大、微信提出精確反演采樣器新范式,徹底解決<b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>反演問題

    可靈AI全球首發(fā)視頻模型定制功能,助力AI視頻創(chuàng)作

    近日,快手旗下的可靈AI全球范圍內(nèi)率先推出了視頻模型定制功能,這一創(chuàng)新之舉成功解決了AI視頻生成過程中人物IP穩(wěn)定性不足的難題。 據(jù)了解,用戶現(xiàn)在可以
    的頭像 發(fā)表于 11-26 14:02 ?1249次閱讀

    字節(jié)跳動自研視頻生成模型Seaweed開放

    近日,字節(jié)跳動旗下的AI內(nèi)容平臺即夢AI傳來新消息,宣布自研的視頻生成模型Seaweed即日起正式面向平臺用戶開放使用。這一舉措標(biāo)志著字節(jié)跳動AI視頻
    的頭像 發(fā)表于 11-11 14:31 ?695次閱讀

    擴(kuò)散模型的理論基礎(chǔ)

    擴(kuò)散模型的迅速崛起是過去幾年機(jī)器學(xué)習(xí)領(lǐng)域最大的發(fā)展之一。在這本簡單易懂的指南中,學(xué)習(xí)你需要知道的關(guān)于擴(kuò)散模型的一切。
    的頭像 發(fā)表于 10-28 09:30 ?1381次閱讀
    <b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>的理論基礎(chǔ)

    火山引擎推出豆包·視頻生成模型

    近期舉辦的2024火山引擎AI創(chuàng)新巡展上,火山引擎總裁譚待隆重推出了豆包·視頻生成模型,這一舉措標(biāo)志著火山引擎視頻內(nèi)容生成
    的頭像 發(fā)表于 09-25 14:11 ?644次閱讀

    IBM Granite系列模型被Forrester評為“強(qiáng)勁表現(xiàn)者”

    近日,IBM 憑借其旗艦 Granite 系列模型, 2024年第二季度的《Forrester Wave:語言 AI 基礎(chǔ)模型》報告中,被評為“強(qiáng)勁表現(xiàn)者”。
    的頭像 發(fā)表于 08-16 11:34 ?798次閱讀