對(duì)于視覺識(shí)別中的區(qū)域?qū)哟魏拖袼貙哟螁栴},分類網(wǎng)絡(luò)(如ResNet、VGGNet等)學(xué)到的表征分辨率比較低,在此基礎(chǔ)上恢復(fù)的高分辨率表征空間區(qū)分度仍然不夠強(qiáng),使其在對(duì)空間精度敏感的任務(wù)上很難取得準(zhǔn)確的預(yù)測(cè)結(jié)果。為此,微軟亞洲研究院視覺計(jì)算組提出高分辨率深度神經(jīng)網(wǎng)絡(luò)(HRNet),對(duì)網(wǎng)絡(luò)結(jié)構(gòu)做了基礎(chǔ)性的改變,由傳統(tǒng)的串行連接高低分辨率卷積,改成并行連接高低分辨率卷積,通過全程保持高分辨率和對(duì)高低分辨率表征的多次信息交換來學(xué)到豐富的高分辨率表征,在多個(gè)數(shù)據(jù)集的人體姿態(tài)估計(jì)任務(wù)中取得了最佳的性能。
前言
視覺識(shí)別主要包括三大類問題:圖像層次(圖像分類),區(qū)域?qū)哟危繕?biāo)檢測(cè))和像素層次(比如圖像分割、人體姿態(tài)估計(jì)和人臉對(duì)齊等)。最近幾年,用于圖像分類的卷積神經(jīng)網(wǎng)絡(luò)成為解決視覺識(shí)別問題的標(biāo)準(zhǔn)結(jié)構(gòu),比如圖1所示的LeNet-5。這類網(wǎng)絡(luò)的特點(diǎn)是學(xué)到的表征在空間分辨率上逐漸變小。我們認(rèn)為分類網(wǎng)絡(luò)并不適合區(qū)域?qū)哟魏拖袼貙哟蔚膯栴},因?yàn)閷W(xué)到的表征本質(zhì)上具有低分辨率的特點(diǎn),在分辨率上的巨大損失使得其在對(duì)空間精度敏感的任務(wù)上很難取得準(zhǔn)確的預(yù)測(cè)結(jié)果。
圖1. 典型的卷積神經(jīng)網(wǎng)絡(luò):LeNet-5。其它典型的卷積神經(jīng)網(wǎng)絡(luò),如AlexNet、VGGNet、GoogleNet、ResNet、DenseNet等,表征的空間分辨率均從大逐漸變小。
為了彌補(bǔ)空間精度的損失,研究者們?cè)诜诸惥矸e神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,通過引入上采樣操作和/或組合空洞卷積減少降采樣次數(shù)來提升表征的分辨率,典型的結(jié)構(gòu)包括Hourglass、U-Net等(如圖2)。
在這類網(wǎng)絡(luò)結(jié)構(gòu)中,最終的高分辨表征主要來源于兩個(gè)部分:第一是原本的高分辨率表征,但是由于只經(jīng)過了少量的卷積操作,其本身只能提供低層次的語義表達(dá);第二是低分辨率表征通過上采樣得到的高分辨率表征,其本身雖然擁有很好的語義表達(dá)能力,但是上采樣本身并不能完整地彌補(bǔ)空間分辨率的損失。所以,最終輸出的高分辨率表征所具有的空間敏感度并不高,很大程度上受限于語義表達(dá)力強(qiáng)的表征所對(duì)應(yīng)的分辨率。
圖2. 從低分辨率表征恢復(fù)高分辨率表征
我們認(rèn)為不應(yīng)該局限于從分類卷積神經(jīng)網(wǎng)絡(luò)生成的低分辨率表征來恢復(fù)高分辨率表征這一路線,而應(yīng)該為高分辨率表征學(xué)習(xí)建立新的網(wǎng)絡(luò)結(jié)構(gòu)。基于此,我們提出了高分辨率深度神經(jīng)網(wǎng)絡(luò)(High-Resolution Network,HRNet),在網(wǎng)絡(luò)整個(gè)過程中始終保持高分辨率表征,同時(shí)多次在高低分辨率表征之間進(jìn)行信息交換,從而學(xué)到足夠豐富的高分辨率表征。
實(shí)驗(yàn)證明HRNet在人體姿態(tài)估計(jì),以及圖像分割、人臉對(duì)齊和目標(biāo)檢測(cè)等問題上取得了不錯(cuò)的結(jié)果。我們相信HRNet將取代分類深度神經(jīng)網(wǎng)絡(luò)成為計(jì)算機(jī)視覺識(shí)別等應(yīng)用的新的標(biāo)準(zhǔn)結(jié)構(gòu)。關(guān)于人體姿態(tài)估計(jì)的論文已發(fā)表在CVPR 2019 [1],相關(guān)代碼已在GitHub上開源[2, 3]。
GitHub鏈接:
https://github.com/HRNet
高分辨率網(wǎng)絡(luò)
我們?cè)贖RNet的整個(gè)網(wǎng)絡(luò)中始終保持高分辨率表征,逐步引入低分辨率卷積,并且將不同分辨率的卷積并行連接。同時(shí),我們通過不斷在多分辨率表征之間進(jìn)行信息交換,來提升高分辨率和低分辨率表征的表達(dá)能力,讓多分辨率表征之間更好地相互促進(jìn),結(jié)構(gòu)如圖3所示。HRNet與先前的分類卷積神經(jīng)網(wǎng)絡(luò)有著基礎(chǔ)性的區(qū)別:先前的分類將分辨率從高到低的卷積串行連接,HRNet則是并行連接。
圖3. 高分辨率網(wǎng)絡(luò) (High-Resolution Network,HRNet)
關(guān)于多分辨率表征信息交換,這里以三個(gè)分辨率輸入和三個(gè)分辨率輸出為例,如圖4所示。每一個(gè)分辨率的輸出表征都會(huì)融合三個(gè)分辨率輸入的表征,以保證信息的充分利用和交互。將高分辨率特征降到低分辨率特征時(shí),我們采用stride為2的3x3卷積;低分辨率特征到高分辨率特征時(shí),先利用1x1卷積進(jìn)行通道數(shù)的匹配,再利用最近鄰插值的方式來提高分辨率。相同分辨率的表征則采用恒等映射的形式。
圖4. 多分辨率表征信息交換
實(shí)驗(yàn)
HRNet保持高分辨率表征,利用重復(fù)的多分辨率表征信息交換增強(qiáng)其表達(dá)能力,使模型所學(xué)的表征在空間精度上有顯著的提升。實(shí)驗(yàn)中,我們首先在MS COCO數(shù)據(jù)集中的關(guān)鍵點(diǎn)檢測(cè)任務(wù)上進(jìn)行了消融實(shí)驗(yàn),驗(yàn)證了表征分辨率的重要性和重復(fù)的多分辨率表征信息交換的有效性;然后在MS COCO、PoseTrack等標(biāo)準(zhǔn)數(shù)據(jù)集中與最先進(jìn)的方法進(jìn)行公平對(duì)比,都取得了更好的性能。
1. 表征分辨率對(duì)性能的影響
HRNet可輸出4種分辨率的表征(1x、2x、4x、以及8x),我們針對(duì)不同的網(wǎng)絡(luò)輸出分辨率在兩組模型上做了對(duì)比實(shí)驗(yàn),如圖5所示。
圖5. 網(wǎng)絡(luò)輸出分辨率對(duì)結(jié)果的影響,1x、2x和4x分辨率表征在人體姿態(tài)估計(jì)的性能。
從圖5中,我們可以清楚地看到,網(wǎng)絡(luò)輸出表征的分辨率降低會(huì)使得模型的性能有巨大的損失。分辨率在2x時(shí),性能降低了接近6% AP,4x時(shí)降低了20% AP。這體現(xiàn)了表征分辨率對(duì)于空間精度的重要性。
2. 多分辨率表征信息交換對(duì)性能的影響
圖6. 藍(lán)色框內(nèi)為階段內(nèi)的多分辨率表征信息交換(Int. exchange within),綠色框?yàn)殡A段間的多分辨率表征信息交換(Int. exchange across),紅色框?yàn)樽罱K的多分辨率表征信息交換(Final exchange)。
表1. 多尺度特征融合對(duì)性能的影響,實(shí)驗(yàn)中每個(gè)網(wǎng)絡(luò)是從隨機(jī)初始化開始訓(xùn)練的。
我們考慮了三種信息交換(如圖6),結(jié)果如表1??梢钥吹剑喾直媛时碚餍畔⒔粨Q可以將不同分辨率的表征信息進(jìn)行充分的交換利用,對(duì)表征增強(qiáng)的作用十分明顯,可以到達(dá)2.6% AP的提升。
3. 在標(biāo)準(zhǔn)數(shù)據(jù)集上的性能
MS COCO數(shù)據(jù)集是關(guān)鍵點(diǎn)檢測(cè)的最權(quán)威的數(shù)據(jù)集之一,我們?cè)谠摂?shù)據(jù)上對(duì)我們的方法進(jìn)行驗(yàn)證,結(jié)果如表2所示。
表2. COCO test-dev上與最先進(jìn)方法的性能比較
我們可以看到,在相同的輸入圖像大小下,我們的小模型HRNet-W32在參數(shù)量和計(jì)算量都小于SimpleBaseline(ResNet-152)一半的情況下,取得了1.2% AP的提高,而大模型HRNet-W48取得了1.8% AP的提升,在引入額外數(shù)據(jù)的情況下,大模型展現(xiàn)了更強(qiáng)的表達(dá)能力,有更顯著的提升。
表3. 在Pose-Track數(shù)據(jù)集上與最先進(jìn)方法的性能比較
在表3中,我們?cè)赑ose-Track數(shù)據(jù)集的兩個(gè)任務(wù)上進(jìn)行了驗(yàn)證:(1)多幀人體姿態(tài)估計(jì),可以利用其他幀的信息估計(jì)某幀的姿態(tài);(2)多幀人體姿態(tài)跟蹤,需要把不同幀間的同一個(gè)人的姿態(tài)關(guān)聯(lián)起來。前者性能用mAP來評(píng)價(jià),后者性能用MOTA來評(píng)價(jià)??梢钥吹皆趦蓚€(gè)任務(wù)上,我們都取得了最好的性能。
結(jié)語
我們改變了現(xiàn)有的基于分類網(wǎng)絡(luò)的人體姿態(tài)估計(jì)的網(wǎng)絡(luò)結(jié)構(gòu),提出了高分辨率深度神經(jīng)網(wǎng)絡(luò)(HRNet)。該網(wǎng)絡(luò)能夠成功學(xué)到足夠豐富的高分辨率表征的原因在于,整個(gè)過程保持高分辨率,以及多次對(duì)高低分辨率表征進(jìn)行信息補(bǔ)足。HRNet在多個(gè)數(shù)據(jù)集的人體姿態(tài)估計(jì)任務(wù)中取得了當(dāng)前最好的性能,也在圖像分割、人臉對(duì)齊和目標(biāo)檢測(cè)等問題上取得了不錯(cuò)的結(jié)果。我們相信HRNet將取代以分類網(wǎng)絡(luò)為基礎(chǔ)的網(wǎng)絡(luò)架構(gòu),成為計(jì)算機(jī)視覺識(shí)別等應(yīng)用的新標(biāo)準(zhǔn)結(jié)構(gòu)。
-
微軟
+關(guān)注
關(guān)注
4文章
6686瀏覽量
105794 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103722 -
視覺識(shí)別
+關(guān)注
關(guān)注
3文章
107瀏覽量
17073
原文標(biāo)題:告別低分辨率網(wǎng)絡(luò),微軟提出高分辨率深度神經(jīng)網(wǎng)絡(luò)HRNet | CVPR 2019
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
【AD新聞】中國深圳先進(jìn)院在高分辨率超聲成像領(lǐng)域取得重要進(jìn)展
從AlexNet到MobileNet,帶你入門深度神經(jīng)網(wǎng)絡(luò)
增強(qiáng)高分辨率圖像捕獲的選擇
康耐視兩款高分辨率Checker視覺傳感器
如何設(shè)計(jì)高速高分辨率ADC電路?
如何在基于機(jī)器視覺的應(yīng)用中通過單線傳輸高分辨率視頻數(shù)據(jù)
深度反卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率算法
數(shù)據(jù)外補(bǔ)償?shù)?b class='flag-5'>深度網(wǎng)絡(luò)超分辨率重建
高分辨率遙感圖像飛機(jī)目標(biāo)檢測(cè)

中國深圳先進(jìn)院在高分辨率超聲成像領(lǐng)域取得重要進(jìn)展

超分辨率神經(jīng)網(wǎng)絡(luò)原理

高分辨率陣列感應(yīng)測(cè)井儀的特點(diǎn)以及工作原理
如何在基于機(jī)器視覺的應(yīng)用中單線傳輸高分辨率視頻數(shù)據(jù)

評(píng)論