99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于全景分割的全場景圖生成任務(wù)

OpenCV學(xué)堂 ? 來源:新智元 ? 作者:新智元 ? 2022-08-24 10:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導(dǎo)讀】本文提出基于全景分割的全場景圖生成(panoptic scene graph generation,即PSG)任務(wù)。相比于傳統(tǒng)基于檢測框的場景圖生成,PSG任務(wù)要求全面地輸出圖像中的所有關(guān)系(包括物體與物體間關(guān)系,物體與背景間關(guān)系,背景與背景間關(guān)系),并用準(zhǔn)確的分割塊來定位物體。PSG任務(wù)旨在推動計算機視覺模型對場景最全面的理解和感知,用全面的識別結(jié)果更好地支撐場景描述、視覺推理等下游任務(wù)。同時PSG數(shù)據(jù)集提供的關(guān)系標(biāo)注和全景分割也為解決當(dāng)前圖像生成領(lǐng)域?qū)﹃P(guān)系不敏感的問題創(chuàng)造了新的機遇。

現(xiàn)在已經(jīng)2022年了,但是當(dāng)下大多數(shù)的計算機視覺任務(wù)卻仍然只關(guān)注于圖像感知。比如說,圖像分類任務(wù)只需要模型識別圖像中的物體物體類別。

雖然目標(biāo)檢測,圖像分割等任務(wù)進一步要求找到物體的位置,然而,此類任務(wù)仍然不足以說明模型獲得了對場景全面深入的理解。

以下圖1為例,如果計算機視覺模型只檢測到圖片中的人、大象、柵欄、樹木等,我們通常不會認為模型已經(jīng)理解了圖片,而該模型也無法根據(jù)理解做出更高級的決策,例如發(fā)出「禁止投喂」的警告。

事實上,在智慧城市、自動駕駛、智能制造等許多現(xiàn)實世界的AI場景中,除了對場景中的目標(biāo)進行定位外,我們通常還期待模型對圖像中各個主體之間的關(guān)系進行推理和預(yù)測。

例如,在自動駕駛應(yīng)用中,自動車需要分析路邊的行人是在推車還是在騎自行車。根據(jù)不同的情況,相應(yīng)的后續(xù)決策可能都會有所不同。而在智能工廠場景中,判斷操作員是否操作安全正確也需要監(jiān)控端的模型有理解主體之間關(guān)系的能力。

大多數(shù)現(xiàn)有的方法都是手動設(shè)置一些硬編碼的規(guī)則。這使得模型缺乏泛化性,難以適應(yīng)其他特定情況。

場景圖生成任務(wù)(scene graph generation,或SGG)就旨在解決如上的問題。在對目標(biāo)物體進行分類和定位的要求之上,SGG任務(wù)還需要模型預(yù)測對象之間的關(guān)系(見圖 2)。

a77441c4-22e5-11ed-ba43-dac502259ad0.jpg

圖2:場景圖生成

傳統(tǒng)場景圖生成任務(wù)的數(shù)據(jù)集通常具有對象的邊界框標(biāo)注,并標(biāo)注邊界框之間的關(guān)系。但是,這種設(shè)置有幾個固有的缺陷:

(1)邊界框無法準(zhǔn)確定位物體:如圖2所示,邊界框在標(biāo)注人時不可避免地會包含人周圍的物體;

(2)背景無法標(biāo)注:如圖2所示,大象身后的樹木用bounding box標(biāo)注,幾乎覆蓋了整個圖像,所以涉及到背景的關(guān)系無法準(zhǔn)確標(biāo)注,這也使得場景圖無法完全覆蓋圖像,無法達到全面的場景理解。

因此,作者提出全場景圖生成(PSG)任務(wù),攜同一個精細標(biāo)注的大規(guī)模PSG數(shù)據(jù)集。

a790abd4-22e5-11ed-ba43-dac502259ad0.png

圖3:全場景圖生成

如圖 3 所示,該任務(wù)利用全景分割來全面準(zhǔn)確地定位對象和背景,從而解決場景圖生成任務(wù)的固有缺點,從而推動該領(lǐng)域朝著全面和深入的場景理解邁進。

論文信息

a7b9525a-22e5-11ed-ba43-dac502259ad0.png

Paper link: https://arxiv.org/abs/2207.11247

Project Page: https://psgdataset.org/

OpenPSG Codebase: https://github.com/Jingkang50/OpenPSG

Competition Link: https://www.cvmart.net/race/10349/base

ECCV’22 SenseHuman Workshop Link: https://sense-human.github.io/

HuggingFace Demo Link: https://huggingface.co/spaces/ECCV2022/PSG

作者提出的PSG數(shù)據(jù)集包含近五萬張coco的圖片,并基于coco已有的全景分割標(biāo)注,標(biāo)注了分割塊之間的關(guān)系。

作者精細地定義了56種關(guān)系,包括了位置關(guān)系(over,in front of,等),常見的物體間關(guān)系(hanging from等),常見的生物動作(walking on,standing on,等),人類行為(cooking等),交通場景中的關(guān)系(driving,riding等),運動場景中的關(guān)系(kicking等),以及背景間關(guān)系(enclosing等)。

作者要求標(biāo)注員能用更準(zhǔn)確的動詞表達就絕不用更模糊的表達,并且盡可能全地標(biāo)注圖中的關(guān)系。

a7c4f952-22e5-11ed-ba43-dac502259ad0.gif

PSG模型效果展示

任務(wù)優(yōu)勢

作者通過下圖的例子再次理解全場景圖生成(PSG)任務(wù)的優(yōu)勢:

a8536520-22e5-11ed-ba43-dac502259ad0.png

左圖來自于SGG任務(wù)的傳統(tǒng)數(shù)據(jù)集Visual Genome (VG-150)??梢钥吹交跈z測框的標(biāo)注通常不準(zhǔn)確,而檢測框覆蓋的像素也不能準(zhǔn)確定位物體,尤其是椅子,樹木之類的背景。同時,基于檢測框的關(guān)系標(biāo)注通常會傾向于的標(biāo)注一些無聊的關(guān)系,如「人有頭」,「人穿著衣服」。

相比之下,右圖中提出的 PSG 任務(wù)提供了更全面(包括前景和背景的互動)、更清晰(合適的物體粒度)和更準(zhǔn)確(像素級準(zhǔn)確)的場景圖表示,以推動場景理解領(lǐng)域的發(fā)展。

兩大類PSG模型

為了支撐提出的PSG任務(wù),作者搭建了一個開源代碼平臺OpenPSG,其中實現(xiàn)了四個雙階段的方法和兩個單階段的方法,方便大家開發(fā)、使用、分析。

a877c10e-22e5-11ed-ba43-dac502259ad0.png

雙階段的方法利用Panoptic-FPN在第一階段中對圖像進行全景分割。

接下來作者提取全景分割得到的物體的特征以及每一對物體融合的關(guān)系特征,送至下一階段的關(guān)系預(yù)測階段??蚣芤鸭蓮?fù)現(xiàn)了傳統(tǒng)場景圖生成的經(jīng)典方法IMP,VCTree,Motifs,和GPSNet。

a890fe62-22e5-11ed-ba43-dac502259ad0.png

PSGFormer是基于雙decoder DETR的單階段方法。

模型首先在a)中通過卷積神經(jīng)網(wǎng)絡(luò)backbone提取圖片特征并加以位置編碼信息作為編碼器的輸入,同時初始化一組用以表示三元組的queries。

與DETR類似地, 在b)中模型將編碼器的輸出作為key和value與表示三元組的queries一同輸入解碼器進行cross-attention操作。

隨后模型在c)中將解碼完成的每個query分別輸入主謂賓三元組對應(yīng)的預(yù)測模塊,最后得到對應(yīng)的三元組預(yù)測結(jié)果。

a8a60924-22e5-11ed-ba43-dac502259ad0.png

PSGFormer基于雙decode的DETR的單階段方法。

模型在a) 通過CNN提取圖片特征,加以位置編碼信息輸入編碼器,同時初始化了兩組queries分別代表物體和關(guān)系。

接著在b)步驟里,模型基于編碼器編碼的圖片信息,分別在物體解碼器和關(guān)系編碼器中通過cross-attention解碼學(xué)習(xí)物體query和關(guān)系query。

當(dāng)兩類query均學(xué)習(xí)完畢后,在c)中通過映射后匹配,得到成對的三元組query。

最后在d)中通過預(yù)測頭分別完成關(guān)于物體query和關(guān)系query的預(yù)測,并根據(jù)c)中的匹配結(jié)果得到最終的三元組預(yù)測結(jié)果。

PSGTR與PSGFormer都是在DETR的基礎(chǔ)上進行擴展和改進的模型,不同的地方在于PSGTR用一組query對于三元組直接建模而PSGFormer則通過兩組query分別對物體和關(guān)系建模,兩種方法各有利弊,具體可參考論文中實驗結(jié)果。

結(jié)論分享

大部分在SGG任務(wù)上有效的方法在PSG任務(wù)上依舊有效。然而有一些利用較強的數(shù)據(jù)集統(tǒng)計先驗,或主謂賓中謂語方向先驗的方法可能沒那么奏效。這可能是由于PSG數(shù)據(jù)集相較于傳統(tǒng)VG數(shù)據(jù)集的bias沒有那么嚴重,并且對謂語動詞的定義更加清晰可學(xué)。因此,作者希望后續(xù)的方法關(guān)注視覺信息的提取和對圖片本身的理解。統(tǒng)計先驗可能在刷數(shù)據(jù)集上有效,但不本質(zhì)。

相比于雙階段模型,單階段模型目前能達到更好的效果。這可能得益于單階段模型有關(guān)于關(guān)系的監(jiān)督信號可以直接傳遞到feature map端,使得關(guān)系信號參與了更多的模型學(xué)習(xí),有利于對關(guān)系的捕捉。但是由于本文只提出了若干基線模型,并沒有針對單階段或雙階段模型進行調(diào)優(yōu),因此目前還不能說單階段模型一定強于雙階段模型。這還希望參賽選手繼續(xù)探索。

相比于傳統(tǒng)的SGG任務(wù),PSG任務(wù)基于全景分割圖進行關(guān)系配對,要求對于每個關(guān)系中主賓物體的id 進行確認。相比于雙階段直接預(yù)測全景分割圖完成物體id 的劃分,單階段模型需要通過一系列后處理完成這一步驟。若基于現(xiàn)有單階段模型進一步改進升級,如何在單階段模型中更有效的完成物體id的確認,生成更好的全景分割圖,仍是一個值得探索的話題。

最后,歡迎大家試用HuggingFace:

a8d5786c-22e5-11ed-ba43-dac502259ad0.gif

Demo:https://huggingface.co/spaces/ECCV2022/PSG

關(guān)于圖像生成的展望

最近大火的基于文字輸入的生成模型(如DALL-E2) 著實令人驚嘆,但是也有研究表明,這些生成模型可能只是把文本中的幾個實體粘合在一起,甚至都沒有理解文本中表述的空間關(guān)系。

如下圖,雖然輸入的是「杯子在勺子上」,生成的圖片仍然都是「勺子在杯子里」。

a92c6f14-22e5-11ed-ba43-dac502259ad0.png

正巧,PSG數(shù)據(jù)集標(biāo)注了基于mask的scene graph關(guān)系。

作者可以利用scene graph和全景分割mask作為訓(xùn)練對,得到一個text2mask的模型,在基于mask生成更細致的圖片。

因此,PSG數(shù)據(jù)集有可能也為注重關(guān)系的圖像生成提供了潛在的解決方案。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 計算機視覺
    +關(guān)注

    關(guān)注

    9

    文章

    1708

    瀏覽量

    46766
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25438
  • 智能制造
    +關(guān)注

    關(guān)注

    48

    文章

    5889

    瀏覽量

    77850

原文標(biāo)題:南洋理工提出全場景圖生成PSG任務(wù),像素級定位物體,還得預(yù)測56種關(guān)系

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    圓滿收官!科士達全場景光儲生態(tài)點燃全球追光者盛宴

    6月13日,SNECPV+2025圓滿收官??剖窟_以600㎡雙層全景展臺、二十余款硬核產(chǎn)品及智慧能源解決方案,為全球“追光者”呈現(xiàn)了一場集技術(shù)高度、場景深度與互動熱度的光儲充盛宴。展會期間人潮
    的頭像 發(fā)表于 06-18 09:56 ?433次閱讀
    圓滿收官!科士達<b class='flag-5'>全場景</b>光儲生態(tài)點燃全球追光者盛宴

    芯資訊|廣州唯創(chuàng)電子語音識別芯片:全場景覆蓋與長效品質(zhì)

    在人工智能與物聯(lián)網(wǎng)技術(shù)深度融合的今天,語音識別技術(shù)已成為智能設(shè)備交互的核心入口。作為國內(nèi)語音芯片領(lǐng)域的佼佼者,廣州唯創(chuàng)電子憑借其全場景覆蓋的產(chǎn)品矩陣、超長生命周期保障及嚴苛的品質(zhì)管理體系,在語音識別
    的頭像 發(fā)表于 05-20 08:36 ?176次閱讀
    芯資訊|廣州唯創(chuàng)電子語音識別芯片:<b class='flag-5'>全場景</b>覆蓋與長效品質(zhì)

    DuxCam G2S全景相機,提供360°全景測繪解決方案

    DuxCam G2S是一款采用全局快門傳感器的高分辨率高幀率全景相機,可用于全天候條件下在各類移動平臺上采集全景影像。其采用全新計算平臺,至高能夠以7200萬滿分辨率、20FPS幀速率采集全景
    發(fā)表于 04-07 16:26

    科通技術(shù)推出DeepSeek+AI芯片全場景方案

    份有限公司(以下簡稱“科通技術(shù)”)作為AI算力供應(yīng)鏈的核心供應(yīng)商,憑借深厚的技術(shù)積累與產(chǎn)業(yè)資源,推出了DeepSeek大模型與AI芯片相結(jié)合的全場景應(yīng)用方案,在AI芯片應(yīng)用領(lǐng)域持續(xù)發(fā)力。
    的頭像 發(fā)表于 03-24 10:33 ?675次閱讀

    敏捷合成器的技術(shù)原理和應(yīng)用場景

    ,在多個領(lǐng)域具有廣泛的應(yīng)用場景: 通信測試:在通信設(shè)備的研發(fā)和生產(chǎn)過程中,敏捷合成器可用于生成各種調(diào)制信號和測試信號,以驗證設(shè)備的性能和穩(wěn)定性。 雷達系統(tǒng):雷達系統(tǒng)需要高精度和高穩(wěn)定性的信號源來生成雷達
    發(fā)表于 02-20 15:25

    中科創(chuàng)達SmartDrive全場景視覺產(chǎn)品亮相CES 2025

    在CES 2025上,中科創(chuàng)達攜Smart Drive全場景視覺產(chǎn)品強勢登場,憑借卓越的技術(shù)實力與創(chuàng)新解決方案,吸引了眾多主機廠及產(chǎn)業(yè)鏈伙伴的目光,收獲廣泛關(guān)注與贊譽。
    的頭像 發(fā)表于 01-13 11:39 ?933次閱讀

    畫面分割器怎么調(diào)試

    畫面分割器,通常指的是視頻畫面分割器,它是一種可以將一個視頻信號分割成多個小畫面的設(shè)備。這種設(shè)備廣泛應(yīng)用于監(jiān)控系統(tǒng)、視頻會議、多畫面顯示等場景。調(diào)試畫面
    的頭像 發(fā)表于 10-17 09:32 ?1072次閱讀

    海思巴龍無線全場景解決方案助推廣域物聯(lián)產(chǎn)業(yè)升級

    日前,海思巴龍無線全場景解決方案論壇在上海成功舉行。來自中國信息通信研究院信通院、 中國計量協(xié)會水表工作委員會以及電力、工業(yè)、燃氣、車載、消費產(chǎn)品領(lǐng)域等行業(yè)組織、模組終端廠商逾百人參會,共同探討蜂窩
    的頭像 發(fā)表于 08-27 17:37 ?1270次閱讀

    億緯鋰能全場景鋰電池方案,加速萬物互聯(lián)

    日前,The smarter E Europe盛大開幕,億緯鋰能攜全場景鋰電池解決方案驚艷亮相,協(xié)同全球伙伴,展全方位實力。
    的頭像 發(fā)表于 08-20 11:15 ?983次閱讀

    惠普AI PC全場景AI解決方案重磅發(fā)布, AI一步到位,智能觸手可及

    產(chǎn)品組合,并與本土軟件合作伙伴攜手,共同構(gòu)建惠普專屬的AI生態(tài),力求滿足用戶在工作、生活、娛樂全場景下的使用需求,實現(xiàn)AI技術(shù)在日常生活中的無縫融入,助力用戶在工作效率和生活體驗上實現(xiàn)雙重提升。 (:2024惠普AI PC 全場景
    的頭像 發(fā)表于 08-02 17:53 ?987次閱讀
    惠普AI PC<b class='flag-5'>全場景</b>AI解決方案重磅發(fā)布, AI一步到位,智能觸手可及

    專注充電充滿想象,羅馬仕全球品牌升級打造全場景用電體驗生態(tài)

    2024年7月19日,深圳羅馬仕科技有限公司(以下簡稱羅馬仕)召開了“專注充電,充滿想象”為主題的全球品牌升級暨新品發(fā)布會,重點詮釋羅馬仕全場景用電體驗戰(zhàn)略方向。全場景用電體驗戰(zhàn)略是羅馬仕多年來專注
    的頭像 發(fā)表于 07-21 10:15 ?1033次閱讀
    專注充電充滿想象,羅馬仕全球品牌升級打造<b class='flag-5'>全場景</b>用電體驗生態(tài)

    專注充電充滿想象,羅馬仕全球品牌升級打造全場景用電體驗生態(tài)

    2024年7月19日,深圳羅馬仕科技有限公司(以下簡稱羅馬仕)召開了“專注充電,充滿想象”為主題的全球品牌升級暨新品發(fā)布會,重點詮釋羅馬仕全場景用電體驗戰(zhàn)略方向。全場景用電體驗戰(zhàn)略是羅馬仕多年來專注
    發(fā)表于 07-19 20:46 ?498次閱讀
    專注充電充滿想象,羅馬仕全球品牌升級打造<b class='flag-5'>全場景</b>用電體驗生態(tài)

    圖像語義分割的實用性是什么

    圖像語義分割是一種重要的計算機視覺任務(wù),它旨在將圖像中的每個像素分配到相應(yīng)的語義類別中。這項技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用,如自動駕駛、醫(yī)學(xué)圖像分析、機器人導(dǎo)航等。 一、圖像語義分割的基本原理 1.1
    的頭像 發(fā)表于 07-17 09:56 ?910次閱讀

    圖像分割和語義分割的區(qū)別與聯(lián)系

    圖像分割和語義分割是計算機視覺領(lǐng)域中兩個重要的概念,它們在圖像處理和分析中發(fā)揮著關(guān)鍵作用。 1. 圖像分割簡介 圖像分割是將圖像劃分為多個區(qū)域或?qū)ο蟮倪^程。這些區(qū)域或?qū)ο缶哂邢嗨频膶傩?/div>
    的頭像 發(fā)表于 07-17 09:55 ?1949次閱讀

    圖像分割與目標(biāo)檢測的區(qū)別是什么

    圖像分割與目標(biāo)檢測是計算機視覺領(lǐng)域的兩個重要任務(wù),它們在許多應(yīng)用場景中都發(fā)揮著關(guān)鍵作用。然而,盡管它們在某些方面有相似之處,但它們的目標(biāo)、方法和應(yīng)用場景有很大的不同。本文將介紹圖像
    的頭像 發(fā)表于 07-17 09:53 ?2353次閱讀