99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

MaX-DeepLab:雙路徑Transformer架構(gòu)概覽

Tensorflowers ? 來(lái)源:TensorFlow ? 作者:TensorFlow ? 2021-05-31 11:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

全景分割是一個(gè)計(jì)算機(jī)視覺(jué)任務(wù),會(huì)將語(yǔ)義分割(為每個(gè)像素分配類標(biāo)簽)和實(shí)例分割(檢測(cè)和分割每個(gè)對(duì)象實(shí)例)合并。作為實(shí)際應(yīng)用中的核心任務(wù),全景分割通常使用多個(gè)代理 (Surrogate) 子任務(wù)(如使用邊界框檢測(cè)方法)粗略估計(jì)全景分割目標(biāo),來(lái)實(shí)現(xiàn)預(yù)測(cè)一組不相重疊的遮罩 (mask) 及其相對(duì)應(yīng)的類別標(biāo)簽(例如對(duì)象所屬的類別,如“汽車”、“交通指示燈”、“道路”等)。

在此代理樹中,每個(gè)子任務(wù)都會(huì)產(chǎn)生額外的手動(dòng)設(shè)計(jì)模塊,如錨點(diǎn)設(shè)計(jì)規(guī)則、邊界框分配規(guī)則、非極大值抑制 (NMS)、thing-stuff(thing 類物體和 stuff 類物體)合并,等等。雖然對(duì)于單個(gè)子任務(wù)和模塊,不乏一些出色的解決方案,但當(dāng)我們將這些子任務(wù)整合到一個(gè)流水線中進(jìn)行全景分割時(shí),就會(huì)產(chǎn)生不需要的構(gòu)件,在一些比較棘手的情況下更是如此(例如,兩個(gè)具有相似邊界框的人都觸發(fā) NMS,從而導(dǎo)致其中一個(gè)遮罩缺失)。

以往提出的 DETR 方法簡(jiǎn)化邊界框檢測(cè)子任務(wù)成端到端操作來(lái)解決其中一些問(wèn)題,事實(shí)證明,這種做法的計(jì)算效率更高,產(chǎn)生的無(wú)關(guān)構(gòu)件也更少。然而,訓(xùn)練過(guò)程在很大程度上仍然依賴邊界框檢測(cè),這顯然與基于遮罩的全景分割定義不相符。另一種做法是將邊界框從管線中徹底移除,這樣做的好處是消除了整個(gè)子任務(wù)及其相關(guān)模塊和構(gòu)件。例如,Axial-DeepLab預(yù)測(cè)預(yù)定義實(shí)例中心的像素偏移量時(shí),如果圖像平面中有各種各樣的形狀,或相鄰對(duì)象的中心點(diǎn)較為接近,例如下面這張狗狗坐在椅子上的圖像,那它所使用的子任務(wù)則會(huì)遇到對(duì)象嚴(yán)重變形的挑戰(zhàn)。

當(dāng)狗狗的中心和椅子的中心接近重合時(shí),Axial-DeepLab 就會(huì)將它們合并成一個(gè)對(duì)象

在《MaX-DeepLab:利用遮罩 Transformer 實(shí)現(xiàn)端到端全景分割 (MaX-DeepLab: End-to-End Panoptic Segmentation with Mask Transformers)》(將提交給 CVPR 2021 大會(huì))一文中,我們首次為全景分割管線提出了完全的端到端方法——將 Transformer架構(gòu)擴(kuò)展到此計(jì)算機(jī)視覺(jué)任務(wù)中,直接預(yù)測(cè)具有類標(biāo)簽的遮罩。這種方法叫做 MaX-DeepLab,利用 Mask Xformer 對(duì) Axial-DeepLab 進(jìn)行擴(kuò)展。該方法采用雙路徑架構(gòu),引入了全局內(nèi)存路徑,允許與任何卷積層直接通信。MaX-DeepLab 最終在極具挑戰(zhàn)的COCO數(shù)據(jù)集上以及無(wú)邊界框的狀態(tài)下實(shí)現(xiàn)了 7.1% 的顯著全景質(zhì)量 (PQ) 增益,首次消除了有邊界框方法和無(wú)邊界框方法之間的差距。在不增加測(cè)試時(shí)長(zhǎng)的情況下,就 PQ 方面而言,MaX-DeepLab 在 COCO 測(cè)試開發(fā)集上達(dá)到了 51.3% 的水平,這已是目前的最高水準(zhǔn)。

MaX-DeepLab 是完全端到端的:直接從圖像中預(yù)測(cè)全景分割遮罩

端到端全景分割

受 DETR 啟發(fā),我們的模型使用經(jīng)過(guò) PQ 類目標(biāo)優(yōu)化的輸出遮罩和類,直接預(yù)測(cè)一組不相重疊的遮罩及其相應(yīng)的語(yǔ)義標(biāo)簽。具體來(lái)說(shuō),我們受到評(píng)估指標(biāo) PQ 的定義:識(shí)別質(zhì)量(預(yù)測(cè)的類是否正確)乘以分割質(zhì)量(預(yù)測(cè)的遮罩是否正確)的啟發(fā),以一模一樣的方式在兩個(gè)具有類標(biāo)簽的遮罩之間定義了一個(gè)相似度指標(biāo)。直接通過(guò)一對(duì)一匹配,最大化實(shí)際遮罩和預(yù)測(cè)遮罩之間的這種相似度,直接對(duì)模型進(jìn)行訓(xùn)練。這種對(duì)全景分割的直接建模使端到端訓(xùn)練和推理成為可能,消除了現(xiàn)有的有邊界框方法和無(wú)邊界框方法必須手工設(shè)計(jì)先驗(yàn)的弊端。

與卷積神經(jīng)網(wǎng)絡(luò) (CNN) 上堆疊傳統(tǒng) Transformer 的方案不同,我們提出了一種結(jié)合 CNN 與 Transformer 的雙路徑框架。具體而言,我們通過(guò)一個(gè)雙路徑 Transformer 元件,使 CNN 層能夠從全局內(nèi)存中讀寫數(shù)據(jù)。這里所說(shuō)的這個(gè)元件采用了 CNN 路徑和內(nèi)存路徑之間的所有四種注意力 (Attention) 類型,可以插入到 CNN 中的任意位置,從而允許在任何層與全局內(nèi)存通信。MaX-DeepLab 還利用堆疊的沙漏式解碼器,可將多種尺度特征聚合成高分辨率輸出。然后系統(tǒng)會(huì)將該輸出與全局內(nèi)存特征相乘,形成遮罩組預(yù)測(cè)。至于遮罩類別,則使用另一種 Transformer 進(jìn)行預(yù)測(cè)。

雙路徑 Transformer 架構(gòu)概覽

結(jié)果

我們?cè)跇O具挑戰(zhàn)性的 COCO 全景分割數(shù)據(jù)集上,分別使用先進(jìn)的無(wú)邊界框方法 (Axial-DeepLab) 和有邊界框方法 (DetectoRS) 對(duì) MaX-DeepLab 進(jìn)行了評(píng)估。在不增加測(cè)試時(shí)長(zhǎng)的情況下,就 PQ 方面而言,MaX-DeepLab 在 COCO 測(cè)試開發(fā)集上達(dá)到了 51.3% 的水平,這已是目前的最高水準(zhǔn)。

在無(wú)邊界框狀態(tài)下,就 PQ 方面而言,這一結(jié)果比 Axial-DeepLab 高出 7.1%,比 DetectoRS 高出 1.7%,第一次消除了有邊界框方法和無(wú)邊界框方法之間的差距。為了與 DETR 進(jìn)行一致的比較,我們還評(píng)估了與 DETR 參數(shù)數(shù)量和算力均一致的輕量級(jí) MaX-DeepLab 版本。就 PQ 方面而言,此輕量級(jí) MaX-DeepLab 在 val 集上的表現(xiàn)優(yōu)于 DETR 3.3%,在測(cè)試開發(fā)集上的表現(xiàn)優(yōu)于 DETR 3.0%。此外,我們還對(duì)端到端表達(dá)式、模型伸縮、雙路徑架構(gòu)和損失函數(shù)進(jìn)行了廣泛的消融研究和分析。此外,MaX-DeepLab 也不像 DETR 一樣需要超長(zhǎng)訓(xùn)練計(jì)劃。

MaX-DeepLab 正確地分割了一只坐在椅子上的狗。Axial-DeepLab依賴于回歸對(duì)象中心偏移量的代理任務(wù)。它之所以失敗,是因?yàn)楣泛鸵巫拥闹行奶^(guò)于接近。作為代理任務(wù),DetectoRS 會(huì)將對(duì)象的邊界框而非遮罩進(jìn)行分類。由于椅子的邊界框置信度較低,所以就被濾除了。

關(guān)于 MaX-DeepLab 和先進(jìn)的無(wú)邊界框及有邊界框方法的案例研究

還有一個(gè)例子可以證明 MaX-DeepLab 可以在充滿挑戰(zhàn)的條件下正確分割圖像。

MaX-DeepLab 正確分割了相互重疊的斑馬。此例對(duì)于其他方法也非常具有挑戰(zhàn)性,因?yàn)檫@兩只斑馬的邊界框很相似,對(duì)象的中心也很接近

結(jié)論

我們首次證明了全景分割可以進(jìn)行端到端訓(xùn)練。MaX-DeepLab 使用遮罩 Transformer 直接預(yù)測(cè)遮罩和類,消除了手工設(shè)計(jì)對(duì)于經(jīng)驗(yàn)的依賴,如對(duì)象邊界框、thing-stuff(thing 類物體和 stuff 類物體)合并等。借助 PQ 式損失函數(shù)和雙路徑 Transformer,MaX-DeepLab 在極具挑戰(zhàn)性的 COCO 數(shù)據(jù)集上取得了最高水準(zhǔn)的結(jié)果,消除了有邊界框方法和無(wú)邊界框方法之間的差距。

原文標(biāo)題:MaX-DeepLab:用于端到端全景分割的雙路徑 Transformer

文章出處:【微信公眾號(hào):TensorFlow】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 計(jì)算機(jī)視覺(jué)

    關(guān)注

    9

    文章

    1708

    瀏覽量

    46760
  • tensorflow
    +關(guān)注

    關(guān)注

    13

    文章

    330

    瀏覽量

    61165

原文標(biāo)題:MaX-DeepLab:用于端到端全景分割的雙路徑 Transformer

文章出處:【微信號(hào):tensorflowers,微信公眾號(hào):Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【正點(diǎn)原子STM32MP257開發(fā)板試用】基于 DeepLab 模型的圖像分割

    等目標(biāo)的分割。 Demo 測(cè)試 介紹了正點(diǎn)原子官方 AI 例程實(shí)現(xiàn)圖像分割的主要流程。 Demo 例程下載,路徑01、程序源碼/05、AI例程源碼/02、deeplab
    發(fā)表于 06-21 21:11

    從底層邏輯到架構(gòu)設(shè)計(jì):聚徽解析MES看板的技術(shù)實(shí)現(xiàn)路徑

    與數(shù)據(jù)接口的協(xié)同設(shè)計(jì)。本文將從底層邏輯出發(fā),深入解析MES看板的技術(shù)架構(gòu)與實(shí)現(xiàn)路徑。 一、底層邏輯:數(shù)據(jù)驅(qū)動(dòng)的生產(chǎn)管理 MES看板的核心價(jià)值在于將生產(chǎn)現(xiàn)場(chǎng)的離散數(shù)據(jù)轉(zhuǎn)化為可執(zhí)行信息,其底層邏輯圍繞三個(gè)關(guān)鍵維度展開: 實(shí)時(shí)
    的頭像 發(fā)表于 06-16 15:23 ?187次閱讀

    Transformer架構(gòu)中編碼器的工作流程

    編碼器是Transformer體系結(jié)構(gòu)的基本組件。編碼器的主要功能是將輸入標(biāo)記轉(zhuǎn)換為上下文表示。與早期獨(dú)立處理token的模型不同,Transformer編碼器根據(jù)整個(gè)序列捕獲每個(gè)token的上下文。
    的頭像 發(fā)表于 06-10 14:27 ?274次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>架構(gòu)</b>中編碼器的工作流程

    Transformer架構(gòu)概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學(xué)習(xí)領(lǐng)域正在經(jīng)歷一場(chǎng)翻天覆地的變化。這些突破性的架構(gòu)不僅重新定義了自然語(yǔ)言處理(NLP)的標(biāo)準(zhǔn),而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?336次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>架構(gòu)</b>概述

    MAX96716FGMSL2至CSI-2解串器技術(shù)手冊(cè)

    MAX96716F 將 GMSL2 串行輸入轉(zhuǎn)換為 MIPI CSI-2。它還發(fā)送和接收控制通道數(shù)據(jù),從而實(shí)現(xiàn)前向路徑視頻和雙向控制數(shù)據(jù)的傳輸。GMSL2 在正向傳輸方向上以 3Gbps 的固定速率運(yùn)行,而在反向傳輸方向上的速
    的頭像 發(fā)表于 05-27 15:10 ?328次閱讀
    <b class='flag-5'>MAX</b>96716F<b class='flag-5'>雙</b>GMSL2至CSI-2解串器技術(shù)手冊(cè)

    MAX4888/MAX4889 2.5Gbps PCI Express無(wú)源開關(guān)技術(shù)手冊(cè)

    單向PCIe數(shù)據(jù)。MAX4889是八路單刀/擲(8 x SPDT)開關(guān),能夠在四個(gè)接收端之間切換4路單向PCIe數(shù)據(jù)。MAX4888/MAX4889具有一個(gè)數(shù)字控制輸入(SEL),用
    的頭像 發(fā)表于 05-26 15:41 ?216次閱讀
    <b class='flag-5'>MAX</b>4888/<b class='flag-5'>MAX</b>4889 2.5Gbps PCI Express無(wú)源開關(guān)技術(shù)手冊(cè)

    如何使用MATLAB構(gòu)建Transformer模型

    Transformer 模型在 2017 年由 Vaswani 等人在論文《Attentionis All You Need》中首次提出。其設(shè)計(jì)初衷是為了解決自然語(yǔ)言處理(Nature
    的頭像 發(fā)表于 02-06 10:21 ?4001次閱讀
    如何使用MATLAB構(gòu)建<b class='flag-5'>Transformer</b>模型

    transformer專用ASIC芯片Sohu說(shuō)明

    2022年,我們打賭說(shuō)transformer會(huì)統(tǒng)治世界。 我們花了兩年時(shí)間打造Sohu,這是世界上第一個(gè)用于transformer(ChatGPT中的“T”)的專用芯片。 將transformer
    的頭像 發(fā)表于 01-06 09:13 ?1149次閱讀
    <b class='flag-5'>transformer</b>專用ASIC芯片Sohu說(shuō)明

    Transformer是機(jī)器人技術(shù)的基礎(chǔ)嗎

    生成式預(yù)訓(xùn)練Transformer(GPT)被吹捧為將徹底改變機(jī)器人技術(shù)。但實(shí)際應(yīng)用中,GPT需要龐大且昂貴的計(jì)算資源、冗長(zhǎng)的訓(xùn)練時(shí)間以及(通常)非機(jī)載無(wú)線控制,諸多限制之下,GPT技術(shù)真的
    的頭像 發(fā)表于 12-05 10:54 ?670次閱讀
    <b class='flag-5'>Transformer</b>是機(jī)器人技術(shù)的基礎(chǔ)嗎

    Transformer模型的具體應(yīng)用

    如果想在 AI 領(lǐng)域引領(lǐng)一輪新浪潮,就需要使用到 Transformer。
    的頭像 發(fā)表于 11-20 09:28 ?1556次閱讀
    <b class='flag-5'>Transformer</b>模型的具體應(yīng)用

    Transformer模型能夠做什么

    盡管名為 Transformer,但它們不是電視銀幕上的變形金剛,也不是電線桿上垃圾桶大小的變壓器。
    的頭像 發(fā)表于 11-20 09:27 ?1004次閱讀
    <b class='flag-5'>Transformer</b>模型能夠做什么

    自動(dòng)駕駛中一直說(shuō)的BEV+Transformer到底是個(gè)啥?

    在很多車企的自動(dòng)駕駛介紹中,都會(huì)聽到一個(gè)關(guān)鍵技術(shù),那就是BEV+Transformer,那BEV+Transformer到底是個(gè)啥?為什么很多車企在自動(dòng)駕駛技術(shù)中都十分追捧這項(xiàng)技術(shù)?其實(shí)“BEV
    的頭像 發(fā)表于 11-07 11:19 ?1365次閱讀
    自動(dòng)駕駛中一直說(shuō)的BEV+<b class='flag-5'>Transformer</b>到底是個(gè)啥?

    英偉達(dá)推出歸一化Transformer,革命性提升LLM訓(xùn)練速度

    英偉達(dá)團(tuán)隊(duì)近日在AI領(lǐng)域投下了一枚震撼彈,他們提出了一種全新的神經(jīng)網(wǎng)絡(luò)架構(gòu)——?dú)w一化Transformer(nGPT)。這一創(chuàng)新架構(gòu)基于超球面(hypersphere)進(jìn)行表示學(xué)習(xí),為AI領(lǐng)域帶來(lái)
    的頭像 發(fā)表于 10-23 11:30 ?870次閱讀

    康謀分享 | AD/ADAS的性能概覽:在AD/ADAS的開發(fā)與驗(yàn)證中“大海撈針”!

    在AD/ADAS開發(fā)與驗(yàn)證中,如何從海量數(shù)據(jù)中快速獲得性能概覽,進(jìn)而快速定位關(guān)鍵事件?本文康謀帶您了解,如何利用IVEX智能概覽功能,結(jié)合安全與關(guān)鍵績(jī)效指標(biāo),實(shí)現(xiàn)高效檢索與分析,推動(dòng)AD/ADAS系統(tǒng)持續(xù)優(yōu)化!
    的頭像 發(fā)表于 10-23 09:24 ?2694次閱讀
    康謀分享 | AD/ADAS的性能<b class='flag-5'>概覽</b>:在AD/ADAS的開發(fā)與驗(yàn)證中“大海撈針”!

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--全書概覽

    、GPU、NPU,給我們剖析了算力芯片的微架構(gòu)。書中有對(duì)芯片方案商處理器的講解,理論聯(lián)系實(shí)際,使讀者能更好理解算力芯片。 全書共11章,由淺入深,較系統(tǒng)全面進(jìn)行講解。下面目錄對(duì)全書內(nèi)容有一個(gè)整體了解
    發(fā)表于 10-15 22:08