99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

港大&騰訊提出DiffusionDet:第一個(gè)用于目標(biāo)檢測(cè)的擴(kuò)散模型

CVer ? 來(lái)源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2022-11-22 15:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

擴(kuò)散模型不但在生成任務(wù)上非常成功,這次在目標(biāo)檢測(cè)任務(wù)上,更是超越了成熟的目標(biāo)檢測(cè)器。

擴(kuò)散模型( Diffusion Model )作為深度生成模型中的新 SOTA,已然在圖像生成任務(wù)中超越了原 SOTA:例如 GAN,并且在諸多應(yīng)用領(lǐng)域都有出色的表現(xiàn),如計(jì)算機(jī)視覺(jué),NLP、分子圖建模、時(shí)間序列建模等。

近日,來(lái)自香港大學(xué)的羅平團(tuán)隊(duì)、騰訊 AI Lab 的研究者聯(lián)合提出一種新框架 DiffusionDet,將擴(kuò)散模型應(yīng)用于目標(biāo)檢測(cè)。據(jù)了解,還沒(méi)有研究可以成功地將擴(kuò)散模型應(yīng)用于目標(biāo)檢測(cè),可以說(shuō)這是第一個(gè)采用擴(kuò)散模型進(jìn)行目標(biāo)檢測(cè)的工作。

DiffusionDet 的性能如何呢?在 MS-COCO 數(shù)據(jù)集上進(jìn)行評(píng)估,使用 ResNet-50 作為骨干,在單一采樣 step 下,DiffusionDet 實(shí)現(xiàn) 45.5 AP,顯著優(yōu)于 Faster R-CNN (40.2 AP), DETR (42.0 AP),并與 Sparse R-CNN (45.0 AP)相當(dāng)。通過(guò)增加采樣 step 的數(shù)量,進(jìn)一步將 DiffusionDet 性能提高到 46.2 AP。此外,在 LVIS 數(shù)據(jù)集上,DiffusionDet 也表現(xiàn)良好,使用 swin - base 作為骨干實(shí)現(xiàn)了 42.1 AP。

26646820-69b7-11ed-8abf-dac502259ad0.png

DiffusionDet: Diffusion Model for Object Detection

論文地址:https://arxiv.org/abs/2211.09788

項(xiàng)目地址(剛剛開(kāi)源):

https://github.com/ShoufaChen/DiffusionDet

該研究發(fā)現(xiàn)在傳統(tǒng)的目標(biāo)檢測(cè)里,存在一個(gè)缺陷,即它們依賴于一組固定的可學(xué)習(xí)查詢。然后研究者就在思考:是否存在一種簡(jiǎn)單的方法甚至不需要可學(xué)習(xí)查詢就能進(jìn)行目標(biāo)檢測(cè)?

為了回答這一問(wèn)題,本文提出了 DiffusionDet,該框架可以直接從一組隨機(jī)框中檢測(cè)目標(biāo),它將目標(biāo)檢測(cè)制定為從噪聲框到目標(biāo)框的去噪擴(kuò)散過(guò)程。這種從 noise-to-box 的方法不需要啟發(fā)式的目標(biāo)先驗(yàn),也不需要可學(xué)習(xí)查詢,這進(jìn)一步簡(jiǎn)化了目標(biāo)候選,并推動(dòng)了檢測(cè) pipeline 的發(fā)展。

如下圖 1 所示,該研究認(rèn)為 noise-to-box 范式類似于去噪擴(kuò)散模型中的 noise-to-image 過(guò)程,后者是一類基于似然的模型,通過(guò)學(xué)習(xí)到的去噪模型逐步去除圖像中的噪聲來(lái)生成圖像。

267b6eee-69b7-11ed-8abf-dac502259ad0.png

DiffusionDet 通過(guò)擴(kuò)散模型解決目標(biāo)檢測(cè)任務(wù),即將檢測(cè)看作圖像中 bounding box 位置 (中心坐標(biāo)) 和大小 (寬度和高度) 空間上的生成任務(wù)。在訓(xùn)練階段,將方差表(schedule)控制的高斯噪聲添加到 ground truth box,得到 noisy box。然后使用這些 noisy box 從主干編碼器(如 ResNet, Swin Transformer)的輸出特征圖中裁剪感興趣區(qū)域(RoI)。最后,將這些 RoI 特征發(fā)送到檢測(cè)解碼器,該解碼器被訓(xùn)練用來(lái)預(yù)測(cè)沒(méi)有噪聲的 ground truth box。在推理階段,DiffusionDet 通過(guò)反轉(zhuǎn)學(xué)習(xí)到的擴(kuò)散過(guò)程生成 bounding box,它將噪聲先驗(yàn)分布調(diào)整到 bounding box 上的學(xué)習(xí)分布。

方法概述

由于擴(kuò)散模型迭代地生成數(shù)據(jù)樣本,因此在推理階段需要多次運(yùn)行模型 f_θ。但是,在每一個(gè)迭代步驟中,直接在原始圖像上應(yīng)用 f_θ在計(jì)算上很困難。因此,研究者提出將整個(gè)模型分為兩部分,即圖像編碼器和檢測(cè)解碼器,前者只運(yùn)行一次以從原始輸入圖像 x 中提取深度特征表示,后者以該深度特征為條件,從噪聲框 z_t 中逐步細(xì)化框預(yù)測(cè)。

圖像編碼器將原始圖像作為輸入,并為檢測(cè)解碼器提取其高級(jí)特征。研究者使用 ResNet 等卷積神經(jīng)網(wǎng)絡(luò)和 Swin 等基于 Transformer 的模型來(lái)實(shí)現(xiàn) DiffusionDet。與此同時(shí),特征金字塔網(wǎng)絡(luò)用于為 ResNet 和 Swin 主干網(wǎng)絡(luò)生成多尺度特征圖。

檢測(cè)解碼器借鑒了 Sparse R-CNN,將一組 proposal 框作為輸入,從圖像編碼器生成的特征圖中裁剪 RoI 特征,并將它們發(fā)送到檢測(cè)頭以獲得框回歸和分類結(jié)果。此外,該檢測(cè)解碼器由 6 個(gè)級(jí)聯(lián)階段組成。

訓(xùn)練

在訓(xùn)練過(guò)程中,研究者首先構(gòu)建了從真值框到噪聲框的擴(kuò)散過(guò)程,然后訓(xùn)練模型來(lái)反轉(zhuǎn)這個(gè)過(guò)程。如下算法 1 提供了 DiffusionDet 訓(xùn)練過(guò)程的偽代碼。

273d5d42-69b7-11ed-8abf-dac502259ad0.png

真值框填充。對(duì)于現(xiàn)代目標(biāo)檢測(cè)基準(zhǔn),感興趣實(shí)例的數(shù)量通常因圖像而異。因此,研究者首先將一些額外的框填充到原始真值框,這樣所有的框被總計(jì)為一個(gè)固定的數(shù)字 N_train。他們探索了幾種填充策略,例如重復(fù)現(xiàn)有真值框、連接隨機(jī)框或圖像大小的框。

框損壞。研究者將高斯噪聲添加到填充的真值框。噪聲尺度由如下公式(1)中的 α_t 控制,它在不同的時(shí)間步 t 中采用單調(diào)遞減的余弦調(diào)度。

274eb312-69b7-11ed-8abf-dac502259ad0.png

訓(xùn)練損失。檢測(cè)解碼器將 N_train 損壞框作為輸入,預(yù)測(cè) N_train 對(duì)類別分類和框坐標(biāo)的預(yù)測(cè)。同時(shí)在 N_train 預(yù)測(cè)集上應(yīng)用集預(yù)測(cè)損失(set prediction loss)。

推理

DiffusionDet 的推理過(guò)程是從噪聲到目標(biāo)框的去噪采樣過(guò)程。從在高斯分布中采樣的框開(kāi)始,該模型逐步細(xì)化其預(yù)測(cè),具體如下算法 2 所示。

275bd844-69b7-11ed-8abf-dac502259ad0.png

采樣步驟。在每個(gè)采樣步驟中,將上一個(gè)采樣步驟中的隨機(jī)框或估計(jì)框發(fā)送到檢測(cè)解碼器,以預(yù)測(cè)類別分類和框坐標(biāo)。在獲得當(dāng)前步驟的框后,采用 DDIM 來(lái)估計(jì)下一步驟的框。

框更新。為了使推理更好地與訓(xùn)練保持一致,研究者提出了框更新策略,通過(guò)用隨機(jī)框替換非預(yù)期的框以使它們恢復(fù)。具體來(lái)說(shuō),他們首先過(guò)濾掉分?jǐn)?shù)低于特定閾值的非預(yù)期的框,然后將剩余的框與從高斯分布中采樣的新隨機(jī)框連接起來(lái)。

一次解決(Once-for-all)。得益于隨機(jī)框設(shè)計(jì),研究者可以使用任意數(shù)量的隨機(jī)框和采樣步驟來(lái)評(píng)估 DiffusionDet。作為比較,以往的方法在訓(xùn)練和評(píng)估期間依賴于相同數(shù)量的處理框,并且檢測(cè)解碼器在前向傳遞中僅使用一次。

實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)部分,研究者首先展示了 DiffusionDet 的 Once-for-all 屬性,然后將 DiffusionDet 與以往在 MS-COCO 和 LVIS 數(shù)據(jù)集上成熟的檢測(cè)器進(jìn)行比較。

DiffusionDet 的主要特性在于對(duì)所有推理實(shí)例進(jìn)行一次訓(xùn)練。一旦模型經(jīng)過(guò)訓(xùn)練,它就可以用于更改推理中框的數(shù)量和樣本步驟數(shù),如下圖 4 所示。DiffusionDet 可以通過(guò)使用更多框或 / 和更多細(xì)化步驟來(lái)實(shí)現(xiàn)更高的準(zhǔn)確度,但代價(jià)是延遲率更高。因此,研究者將單個(gè) DiffusionDet 部署到多個(gè)場(chǎng)景中,并在不重新訓(xùn)練網(wǎng)絡(luò)的情況下獲得所需的速度 - 準(zhǔn)確率權(quán)衡。

276e7d64-69b7-11ed-8abf-dac502259ad0.png

研究者將 DiffusionDet 與以往在 MS-COCO 和 LVIS 數(shù)據(jù)集上的檢測(cè)器進(jìn)行了比較,具體如下表 1 所示。他們首先將 DiffusionDet 的目標(biāo)檢測(cè)性能與以往在 MS-COCO 上的檢測(cè)器進(jìn)行了比較。結(jié)果顯示,沒(méi)有細(xì)化步驟的 DiffusionDet 使用 ResNet-50 主干網(wǎng)絡(luò)實(shí)現(xiàn)了 45.5 AP,以較大的優(yōu)勢(shì)超越了以往成熟的方法,如 Faster R-CNN、RetinaNet、DETR 和 Sparse R-CNN。并且當(dāng)主干網(wǎng)絡(luò)的尺寸擴(kuò)大時(shí),DiffusionDet 顯示出穩(wěn)定的提升。

279bbc34-69b7-11ed-8abf-dac502259ad0.png

下表 2 中展示了在更具挑戰(zhàn)性的 LVIS 數(shù)據(jù)集上的結(jié)果,可以看到,DiffusionDet 使用更多的細(xì)化步驟可以獲得顯著的增益。

27ba672e-69b7-11ed-8abf-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:港大&騰訊提出DiffusionDet:第一個(gè)用于目標(biāo)檢測(cè)的擴(kuò)散模型

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    新知|Verizon與AT&T也可以手機(jī)直接連接衛(wèi)星了

    與Starlink星鏈合作的反擊。早些時(shí)候,T-Mobile宣布其手機(jī)直連衛(wèi)星服務(wù)開(kāi)放測(cè)試,任何用戶都可以申請(qǐng)測(cè)試,并在第一階段提供衛(wèi)星消息服務(wù)。AT&T通過(guò)手機(jī)直連衛(wèi)星視頻通話早前,星鏈
    的頭像 發(fā)表于 06-19 07:07 ?466次閱讀
    新知|Verizon與AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T也可以手機(jī)直接連接衛(wèi)星了

    基于LockAI視覺(jué)識(shí)別模塊:C++目標(biāo)檢測(cè)

    是基于百度飛槳深度學(xué)習(xí)框架開(kāi)發(fā)的個(gè)高效的目標(biāo)檢測(cè)庫(kù),支持多種先進(jìn)的目標(biāo)檢測(cè)
    發(fā)表于 06-06 14:43

    HRTIM變頻控制輸出的第一個(gè)周期頻率異常的原因?

    在使用STM32G474CBT6的HRTIM_Mater、HRTIM_TIMER_B和HRTIM_TIMER_D輸出同步互補(bǔ)的四路輸出時(shí),關(guān)閉4路輸出和三個(gè)定時(shí)器的計(jì)數(shù)后,再次開(kāi)啟時(shí)第一個(gè)周期的頻率
    發(fā)表于 04-25 06:17

    文教你構(gòu)建第一個(gè)應(yīng)用程序

    構(gòu)建第一個(gè)應(yīng)用程序 創(chuàng)建個(gè)新工程 步驟 1通過(guò)如下兩種方式,打開(kāi)工程創(chuàng)建向?qū)Ы缑妗? 如果當(dāng)前未打開(kāi)任何工程,可以在 DevEco Studio 的歡迎頁(yè),選擇“Projects &am
    發(fā)表于 04-24 06:41

    HRTIM變頻控制輸出的第一個(gè)周期頻率異常的原因?

    在使用STM32G474CBT6的HRTIM_Mater、HRTIM_TIMER_B和HRTIM_TIMER_D輸出同步互補(bǔ)的四路輸出時(shí),關(guān)閉4路輸出和三個(gè)定時(shí)器的計(jì)數(shù)后,再次開(kāi)啟時(shí)第一個(gè)周期的頻率
    發(fā)表于 04-22 12:08

    HPLC+HRF雙模載波芯片CN8513&amp;amp;amp;CN8514應(yīng)用于智能樓宇

    HPLC+HRF雙模載波芯片CN8513&amp;CN8514應(yīng)用于智能樓宇
    的頭像 發(fā)表于 01-09 10:01 ?556次閱讀
    HPLC+HRF雙模載波芯片CN8513&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;CN8514應(yīng)<b class='flag-5'>用于</b>智能樓宇

    HPLC+HRF雙模載波芯片CN8513&amp;amp;amp;CN8514用于智能抄表系統(tǒng)

    HPLC+HRF雙模載波芯片CN8513&amp;CN8514用于智能抄表系統(tǒng)
    的頭像 發(fā)表于 01-03 10:04 ?1283次閱讀
    HPLC+HRF雙模載波芯片CN8513&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;CN8514<b class='flag-5'>用于</b>智能抄表系統(tǒng)

    如何判斷產(chǎn)品需不需要做AT&amp;amp;amp;T認(rèn)證?AT&amp;amp;amp;T測(cè)試內(nèi)容和要求分享

    隨著經(jīng)濟(jì)全球化的發(fā)展,國(guó)內(nèi)越來(lái)越多產(chǎn)品廠商選擇將自家產(chǎn)品出口到北美市場(chǎng),而這時(shí)候各位廠商都會(huì)面臨產(chǎn)品需不需要做AT&amp;T的問(wèn)題。今天英利檢測(cè)針對(duì)這問(wèn)題整理了些關(guān)于AT&
    的頭像 發(fā)表于 12-23 17:46 ?631次閱讀
    如何判斷產(chǎn)品需不需要做AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認(rèn)證?AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T測(cè)試內(nèi)容和要求分享

    AI模型部署邊緣設(shè)備的奇妙之旅:目標(biāo)檢測(cè)模型

    器的 one-shot 搜索的工作。目標(biāo)檢測(cè)模型搭配在分類上高性能的主干網(wǎng)絡(luò),可能會(huì)因?yàn)椴煌蝿?wù)間的差異而性能下降。Picodet 沒(méi)有去搜索個(gè)
    發(fā)表于 12-19 14:33

    北美運(yùn)營(yíng)商AT&amp;amp;amp;T認(rèn)證中的VoLTE測(cè)試項(xiàng)

    北美運(yùn)營(yíng)商AT&amp;T的認(rèn)證測(cè)試內(nèi)容涵蓋了多個(gè)方面,以確保設(shè)備和服務(wù)的質(zhì)量、兼容性以及用戶體驗(yàn)。在AT&amp;T的認(rèn)證測(cè)試中,VoLTE(VoiceoverLTE)測(cè)試項(xiàng)是個(gè)
    的頭像 發(fā)表于 12-06 16:52 ?614次閱讀
    北美運(yùn)營(yíng)商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認(rèn)證中的VoLTE測(cè)試項(xiàng)

    浙大、微信提出精確反演采樣器新范式,徹底解決擴(kuò)散模型反演問(wèn)題

    隨著擴(kuò)散生成模型的發(fā)展,人工智能步入了屬于?AIGC?的新紀(jì)元。擴(kuò)散生成模型可以對(duì)初始高斯噪聲進(jìn)行逐步去噪而得到高質(zhì)量的采樣。當(dāng)前,許多應(yīng)用都涉及擴(kuò)
    的頭像 發(fā)表于 11-27 09:21 ?700次閱讀
    浙大、微信<b class='flag-5'>提出</b>精確反演采樣器新范式,徹底解決<b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>反演問(wèn)題

    北美運(yùn)營(yíng)商AT&amp;amp;amp;T認(rèn)證的測(cè)試內(nèi)容有哪些?

    北美運(yùn)營(yíng)商AT&amp;T的認(rèn)證測(cè)試內(nèi)容涵蓋了多個(gè)方面,以確保設(shè)備和服務(wù)的質(zhì)量、兼容性以及用戶體驗(yàn)。以下是英利檢測(cè)整合的AT&amp;T認(rèn)證的主要測(cè)試內(nèi)容:基礎(chǔ)認(rèn)證測(cè)試聯(lián)邦通信委員會(huì)(FCC
    的頭像 發(fā)表于 11-12 17:39 ?838次閱讀
    北美運(yùn)營(yíng)商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認(rèn)證的測(cè)試內(nèi)容有哪些?

    擴(kuò)散模型的理論基礎(chǔ)

    擴(kuò)散模型的迅速崛起是過(guò)去幾年機(jī)器學(xué)習(xí)領(lǐng)域最大的發(fā)展之。在這本簡(jiǎn)單易懂的指南中,學(xué)習(xí)你需要知道的關(guān)于擴(kuò)散模型
    的頭像 發(fā)表于 10-28 09:30 ?1392次閱讀
    <b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>的理論基礎(chǔ)

    北美運(yùn)營(yíng)商AT&amp;amp;amp;T認(rèn)證的費(fèi)用受哪些因素影響

    認(rèn)證標(biāo)準(zhǔn)和流程通常比較嚴(yán)格和全面。北美運(yùn)營(yíng)商AT&amp;T認(rèn)證的費(fèi)用受多種因素影響,以下是英利檢測(cè)收集的些相關(guān)資料分享:產(chǎn)品類型與規(guī)格:不同類型的產(chǎn)品(如智能手機(jī)、平板電腦、物聯(lián)網(wǎng)設(shè)備等)可
    的頭像 發(fā)表于 10-16 17:10 ?652次閱讀
    北美運(yùn)營(yíng)商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認(rèn)證的費(fèi)用受哪些因素影響

    onsemi LV/MV MOSFET 產(chǎn)品介紹 &amp;amp;amp; 行業(yè)應(yīng)用

    系列MOSFET介紹。4.onsemiLV/MVMOSFET市場(chǎng)&amp;應(yīng)用。技術(shù)亮點(diǎn)onsemi最新代T10系列MOSFET優(yōu)勢(shì)&amp;市場(chǎng)前景。學(xué)習(xí)收獲期望了解onsemiSi
    的頭像 發(fā)表于 10-13 08:06 ?915次閱讀
    onsemi LV/MV MOSFET 產(chǎn)品介紹 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; 行業(yè)應(yīng)用