在CVPR 2021中,曠視研究院共入選論文22篇,其中Oral論文2篇,研究領(lǐng)域涵蓋激活函數(shù)、神經(jīng)網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索、光流估計(jì)、無(wú)監(jiān)督學(xué)習(xí)、人體姿態(tài)估計(jì)、目標(biāo)檢測(cè)等。
本篇推文中,我們?yōu)榇蠹規(guī)?lái)了11篇入選論文的精彩摘要,兩篇oral論文也在其中,分享給大家。
1oral論文
Fully Convolutional Networks for Panoptic Segmentation
本文旨在使用全卷積形式統(tǒng)一地表達(dá)和預(yù)測(cè)物體和周邊環(huán)境,從而實(shí)現(xiàn)準(zhǔn)確高效的全景分割。具體來(lái)說(shuō),本文提出卷積核生成器將每個(gè)物體和每類環(huán)境的語(yǔ)義信息編碼至不同的卷結(jié)核中,并同高分辨率的特征圖卷積直接輸出每個(gè)前景和背景的分割結(jié)果。通過(guò)這種方法,物體和環(huán)境的個(gè)體差異和語(yǔ)義一致性可以被分別保留下來(lái)。該方法在多個(gè)全景分割數(shù)據(jù)集上均取得速度和精度的當(dāng)前最佳結(jié)果。關(guān)鍵詞:統(tǒng)一表達(dá),動(dòng)態(tài)卷積,全景分割arxiv: https://arxiv.org/abs/2012.00720github: https://github.com/yanwei-li/PanopticFCN
2oral論文
FFB6D: A Full Flow Bidirectional Fusion Network for 6D Pose Estimation
FFB6D提出一種網(wǎng)絡(luò)全流雙向融合的RGBD表征學(xué)習(xí)框架并應(yīng)用于6D位姿估計(jì)問(wèn)題。我們發(fā)現(xiàn)現(xiàn)有的表征學(xué)習(xí)方法都沒(méi)能很好地利用RGB中的外觀信息和深度圖(點(diǎn)云)中的幾何信息這兩種互補(bǔ)的數(shù)據(jù)源。
對(duì)此,我們?cè)O(shè)計(jì)了一種雙向稠密融合模塊并應(yīng)用到CNN和點(diǎn)云網(wǎng)絡(luò)的每個(gè)編碼和解碼層。這種全流雙向融合機(jī)制能讓兩個(gè)網(wǎng)絡(luò)充分利用彼此提取的局部和全局互補(bǔ)信息,從而獲得更好的表征用于下游預(yù)測(cè)任務(wù)。此外,在輸出表征選擇上,我們結(jié)合物品的紋理和幾何信息設(shè)計(jì)了一種SIFT-FPS關(guān)鍵點(diǎn)選擇算法,簡(jiǎn)化了網(wǎng)絡(luò)定位關(guān)鍵點(diǎn)的難度并提升了位姿精度。我們的方法在多個(gè)基準(zhǔn)上都獲得顯著的提升。并且這種RGBD表征學(xué)習(xí)骨干網(wǎng)絡(luò)能通過(guò)級(jí)聯(lián)不同的預(yù)測(cè)網(wǎng)絡(luò),應(yīng)用在更多以RGBD為輸入的視覺(jué)任務(wù)上。
關(guān)鍵詞:RGBD表征學(xué)習(xí),3D視覺(jué),6D位姿估計(jì)PDF: https://arxiv.org/abs/2103.02242code: https://github.com/ethnhe/FFB6D
3RepVGG: Making VGG-style ConvNets Great Again
科學(xué)技術(shù)總是螺旋式地上升。我們“復(fù)興”了VGG式單路極簡(jiǎn)卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),一路3x3卷到底,在速度和性能上達(dá)到SOTA水平,在ImageNet上超過(guò)80%正確率。
為了克服VGG式架構(gòu)訓(xùn)練困難的問(wèn)題,我們使用結(jié)構(gòu)重參數(shù)化(structural re-parameterization)在訓(xùn)練時(shí)的模型中構(gòu)造恒等映射和1x1卷積分支,然后在訓(xùn)練結(jié)束后將其等效融合進(jìn)3x3卷積中去,因而推理時(shí)模型僅包含3x3卷積。這一架構(gòu)沒(méi)有任何分支結(jié)構(gòu),因此其并行度很高,速度很快。且由于主體部分僅有“3x3-ReLU”這一種算子,特別適合用于定制硬件。
關(guān)鍵詞:結(jié)構(gòu)重參數(shù)化,極簡(jiǎn)架構(gòu),高效模型https://arxiv.org/abs/2101.03697
4Dynamic Region-Aware Convolution
本文提出一種新的卷積操作----動(dòng)態(tài)區(qū)域注意卷積(DRConv: Dynamic Region-Aware Convolution),該卷積可以根據(jù)特征相似度為不同平面區(qū)域分配定制的卷積核。這種卷積方式相較于傳統(tǒng)卷積極大地增強(qiáng)了對(duì)圖像語(yǔ)義信息多樣性的建模能力。標(biāo)準(zhǔn)卷積層可以增加卷積核的數(shù)量以提取更多的視覺(jué)元素,但會(huì)導(dǎo)致較高的計(jì)算成本。DRConv使用可學(xué)習(xí)的分配器將逐漸增加的卷積核轉(zhuǎn)移到平面維度,這不僅提高了卷積的表示能力,而且還保持了計(jì)算成本和平移不變性。
DRConv是一種用于處理語(yǔ)義信息分布復(fù)雜多變的有效而優(yōu)雅的方法,它可以以其即插即用特性替代任何現(xiàn)有網(wǎng)絡(luò)中的標(biāo)準(zhǔn)卷積,且對(duì)于輕量級(jí)網(wǎng)絡(luò)的性能有顯著提升。本文在各種模型(MobileNet系列,ShuffleNetV2等)和任務(wù)(分類,面部識(shí)別,檢測(cè)和分割)上對(duì)DRConv進(jìn)行了評(píng)估,在ImageNet分類中,基于DRConv的ShuffleNetV2-0.5×在46M計(jì)算量的水平下可實(shí)現(xiàn)67.1%的性能,相對(duì)基準(zhǔn)提升6.3%。
https://arxiv.org/abs/2003.12243
5Diverse Branch Block: Building a Convolution as an Inception-like Unit
我們提出一種卷積網(wǎng)絡(luò)基本模塊(DBB),用以豐富模型訓(xùn)練時(shí)的微觀結(jié)構(gòu)而不改變其宏觀架構(gòu),以此提升其性能。這種模塊可以在訓(xùn)練后通過(guò)結(jié)構(gòu)重參數(shù)化(structural re-parameterization)等效轉(zhuǎn)換為一個(gè)卷積,因而不引入任何額外的推理開銷。
我們歸納了六種可以此種等效轉(zhuǎn)換的結(jié)構(gòu),包括1x1-KxK連續(xù)卷積、average pooling等,并用這六種變換給出了一種代表性的形似Inception的DBB實(shí)例,在多種架構(gòu)上均取得了顯著的性能提升。我們通過(guò)實(shí)驗(yàn)確認(rèn)了“訓(xùn)練時(shí)非線性”(而推理時(shí)是線性的,如BN)和“多樣的鏈接”(比如1x1+3x3效果好于3x3+3x3)是DBB有效的關(guān)鍵。
關(guān)鍵詞:結(jié)構(gòu)重參數(shù)化,無(wú)推理開銷,無(wú)痛提升
6Generalized Few-Shot Object Detection without Forgetting
過(guò)去的工作大都聚焦在小類樣本類別性能而犧牲了大類樣本的性能。本文提出一種無(wú)遺忘效應(yīng)的小類樣本目標(biāo)檢測(cè)器,能夠在實(shí)現(xiàn)更好的小類樣本類別性能的同時(shí),不掉落大類樣本類別的性能。在本文中,我們發(fā)現(xiàn)了預(yù)訓(xùn)練的檢測(cè)器很少在未見(jiàn)過(guò)的類別上產(chǎn)生假陽(yáng)性預(yù)測(cè),且還發(fā)現(xiàn)RPN并非理想的類別無(wú)關(guān)組件。基于這兩點(diǎn)發(fā)現(xiàn),我們?cè)O(shè)計(jì)了Re-detector和Bias-Balanced RPN兩個(gè)簡(jiǎn)單而有效的結(jié)構(gòu),只增加少量參數(shù)和推斷時(shí)間即可實(shí)現(xiàn)無(wú)遺忘效應(yīng)的小類樣本目標(biāo)檢測(cè)。
關(guān)鍵詞:小樣本學(xué)習(xí),目標(biāo)檢測(cè)
7
Distribution Alignment: A Unified Framework for Long-tail Visual Recognition
本文提出了一個(gè)處理含有長(zhǎng)尾數(shù)據(jù)分布的視覺(jué)識(shí)別任務(wù)的統(tǒng)一框架。我們首先針對(duì)現(xiàn)有的處理長(zhǎng)尾問(wèn)題的兩階段的方法進(jìn)行了實(shí)驗(yàn)分析,找出現(xiàn)有方法主要的性能瓶頸。基于實(shí)驗(yàn)分析,我們提出了一種分布對(duì)齊策略來(lái)系統(tǒng)性解決長(zhǎng)尾視覺(jué)任務(wù)。
該框架基于兩階段方法設(shè)計(jì),在第一階段,使用instance-balanced 采樣策略進(jìn)行特征表示學(xué)習(xí)(representation learning)。在第二階段,我們首先設(shè)計(jì)了一個(gè)input-aware的對(duì)齊函數(shù),以實(shí)現(xiàn)對(duì)輸入數(shù)據(jù)的得分進(jìn)行矯正。同時(shí),為了引入數(shù)據(jù)集分布的先驗(yàn),我們?cè)O(shè)計(jì)了一個(gè)泛化重加權(quán)(Generalized Re-weight)方案, 來(lái)處理圖像分類,語(yǔ)義分割,物體檢測(cè)和實(shí)例分割等多種視覺(jué)任務(wù)場(chǎng)景。我們?cè)谒膫€(gè)任務(wù)上驗(yàn)證了我們的方法,在各個(gè)任務(wù)上均取得了明顯的性能提升。
關(guān)鍵詞:圖像分類,語(yǔ)義分割,物體檢測(cè),實(shí)例分割
8
End-to-End Object Detection with Fully Convolutional Network
本文首次在全卷積目標(biāo)檢測(cè)器上去除了NMS(非極大值抑制)后處理,做到了端到端訓(xùn)練。我們分析了主流一階段目標(biāo)檢測(cè)方法,并發(fā)現(xiàn)傳統(tǒng)的一對(duì)多標(biāo)簽分配策略是這些方法依賴NMS的關(guān)鍵,并由此提出了預(yù)測(cè)感知的一對(duì)一標(biāo)簽分配策略。此外,為了提升一對(duì)一標(biāo)簽分配的性能,我們提出了增強(qiáng)特征表征能力的模塊,和加速模型收斂的輔助損失函數(shù)。我們的方法在無(wú)NMS的情況下達(dá)到了與主流一階段目標(biāo)檢測(cè)方法相當(dāng)?shù)男阅?。在密集?chǎng)景上,我們的方法的召回率超過(guò)了依賴NMS的目標(biāo)檢測(cè)方法的理論上限。
關(guān)鍵詞:端到端檢測(cè),標(biāo)簽分配,全卷積網(wǎng)絡(luò)
https://arxiv.org/abs/2012.03544
9
OTA: Optimal Transport Assignment for Object Detection
我們提出了一種基于最優(yōu)傳輸理論的目標(biāo)檢測(cè)樣本匹配策略,利用全局信息來(lái)尋找最優(yōu)樣本匹配的結(jié)果,相對(duì)于現(xiàn)有的樣本匹配技術(shù),具有如下優(yōu)勢(shì):1)檢測(cè)精度高。全局最優(yōu)的匹配結(jié)果能幫助檢測(cè)器以穩(wěn)定高效的方式訓(xùn)練,最終在COCO數(shù)據(jù)集上達(dá)到最優(yōu)檢測(cè)性能。
2) 適用場(chǎng)景廣?,F(xiàn)有的目標(biāo)檢測(cè)算法在遇到諸如目標(biāo)密集或被嚴(yán)重遮擋等復(fù)雜場(chǎng)景時(shí),需要重新設(shè)計(jì)策略或者調(diào)整參數(shù),而最優(yōu)傳輸模型在全局建模的過(guò)程中包括了尋找最優(yōu)解的過(guò)程,不用做任何額外的調(diào)整,在各種目標(biāo)密集、遮擋嚴(yán)重的場(chǎng)景下也能達(dá)到最先進(jìn)的性能,具有很大的應(yīng)用潛力。
關(guān)鍵詞:目標(biāo)檢測(cè)、最優(yōu)傳輸、樣本匹配策略
10
IQDet: Instance-wise Quality Distribution Sampling for Object Detection
由于一階段檢測(cè)器的標(biāo)簽分配有靜態(tài)、沒(méi)有考慮目標(biāo)框的全局信息等不足,我們提出了一種基于目標(biāo)質(zhì)量分布采樣的目標(biāo)檢測(cè)器。在本文中,我們提出質(zhì)量分布編碼模塊QDE和質(zhì)量分布采樣模塊QDS,通過(guò)提取目標(biāo)框的區(qū)域特征,并基于高斯混合模型來(lái)對(duì)預(yù)測(cè)框的質(zhì)量分布進(jìn)行建模,來(lái)動(dòng)態(tài)的選擇檢測(cè)框的正負(fù)樣本分配。本方法只涉及訓(xùn)練階段標(biāo)簽分配,就可以在COCO等多個(gè)數(shù)據(jù)集上實(shí)現(xiàn)當(dāng)前最佳結(jié)果。
關(guān)鍵詞:標(biāo)簽分配
11
FSCE: Few-Shot Object Detection via Contrastive Proposal Encoding
論文提出的FSCE方法旨在從優(yōu)化特征表示的角度去解決小樣本物體檢測(cè)問(wèn)題。小樣本物體檢測(cè)任務(wù)中受限于目標(biāo)樣本的數(shù)目稀少,對(duì)目標(biāo)樣本的分類正確與否往往對(duì)最終的性能有很大的影響。FSCE借助對(duì)比學(xué)習(xí)的思想對(duì)相關(guān)候選框進(jìn)行編碼優(yōu)化其特征表示,加強(qiáng)特征的類內(nèi)緊湊和類間相斥,最后方法在常見(jiàn)的COCO和Pascal VOC數(shù)據(jù)集上都得到有效提升。
關(guān)鍵詞:小樣本目標(biāo)檢測(cè),對(duì)比學(xué)習(xí)論文鏈接:https://arxiv.org/abs/2103.05950
編輯;jq
-
檢測(cè)器
+關(guān)注
關(guān)注
1文章
894瀏覽量
48671 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1224瀏覽量
25443 -
voc
+關(guān)注
關(guān)注
0文章
108瀏覽量
15920
原文標(biāo)題:【CVPR2021】曠視研究院入選學(xué)術(shù)成果盤點(diǎn)
文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
曠視榮獲2024北京市數(shù)字經(jīng)濟(jì)標(biāo)桿企業(yè)
軟通動(dòng)力榮獲中移上海產(chǎn)業(yè)研究院“優(yōu)質(zhì)供應(yīng)商”稱號(hào)
導(dǎo)遠(yuǎn)科技與清華大學(xué)無(wú)錫應(yīng)用技術(shù)研究院達(dá)成合作
曠視運(yùn)動(dòng)猿入選2024年度智能體育典型案例
佛山智能裝備技術(shù)研究院機(jī)器人動(dòng)力學(xué)研究成果取得世界級(jí)突破

中科曙光南京研究院方案入選江蘇省信息技術(shù)創(chuàng)新優(yōu)秀解決方案
浪潮信息與智源研究院攜手共建大模型多元算力生態(tài)
睿思芯科受邀參加美團(tuán)機(jī)器人研究院學(xué)術(shù)年會(huì)圓桌論壇
清新電源研究院榮獲深圳市5A級(jí)社會(huì)組織

視爵光旭與浙江清華長(zhǎng)三角研究院戰(zhàn)略合作:推動(dòng)虛擬拍攝專業(yè)人才培育

評(píng)論