論文探討了將連續(xù)學(xué)習(xí)用在視覺(jué)定位問(wèn)題中,從而以增量方式在場(chǎng)景中訓(xùn)練模型。一般的將深度學(xué)習(xí)方法與視覺(jué)定位相結(jié)合,比如利用深度神經(jīng)網(wǎng)絡(luò)從輸入圖像直接回歸相機(jī)姿態(tài)或者3D場(chǎng)景坐標(biāo),這些方法都假設(shè)在訓(xùn)練期間可以獲得所有場(chǎng)景的靜態(tài)數(shù)據(jù)分布,因?yàn)槿绻褂梅瞧椒€(wěn)數(shù)據(jù)在視覺(jué)定位的深度網(wǎng)絡(luò)中會(huì)導(dǎo)致災(zāi)難性遺忘,為了解決這個(gè)問(wèn)題,論文提出了一種基于從固定緩沖區(qū)存儲(chǔ)和回放圖像的強(qiáng)基線(xiàn),此外提出了一種新的基于覆蓋分?jǐn)?shù)的采樣方法(Buff-CS),該方法將緩沖過(guò)程中的現(xiàn)有采樣策略用于視覺(jué)定位問(wèn)題,實(shí)驗(yàn)結(jié)果表明,在具有挑戰(zhàn)性的數(shù)據(jù)集(7Scenes、12 Scenes、19 Scenes)上,通過(guò)結(jié)合前一場(chǎng)景,標(biāo)準(zhǔn)緩沖方法得到了改進(jìn)。
為什么使用連續(xù)學(xué)習(xí),它與一般的深度學(xué)習(xí)聯(lián)合訓(xùn)練所有場(chǎng)景數(shù)據(jù)有何不同?連續(xù)學(xué)習(xí)是不斷從傳入的數(shù)據(jù)流中學(xué)習(xí),在這種設(shè)置下,所有場(chǎng)景是依次遇到的,如圖1所示。
與對(duì)所有任務(wù)進(jìn)行聯(lián)合訓(xùn)練相比,以連續(xù)方式學(xué)習(xí)任務(wù)在樣本和記憶效率方面有幾個(gè)好處: 1)在聯(lián)合訓(xùn)練環(huán)境中,每次場(chǎng)景發(fā)生變化時(shí)模型都需要在數(shù)據(jù)庫(kù)中的所有場(chǎng)景上進(jìn)行重新訓(xùn)練,即使是沒(méi)有發(fā)生任何變化的場(chǎng)景。向數(shù)據(jù)庫(kù)中添加新場(chǎng)景還需要模型重新訓(xùn)練,這會(huì)影響可伸縮性,需要將完整的數(shù)據(jù)集存儲(chǔ)在內(nèi)存中。 2)連續(xù)學(xué)習(xí)旨在通過(guò)僅在改變或新場(chǎng)景和存儲(chǔ)在小緩沖區(qū)中的先前場(chǎng)景的圖像上微調(diào)模型來(lái)降低計(jì)算成本,由于僅需要將當(dāng)前場(chǎng)景的數(shù)據(jù)與來(lái)自先前場(chǎng)景的圖像的小緩沖區(qū)一起存儲(chǔ)在存儲(chǔ)器中,因此也降低了存儲(chǔ)器成本。這對(duì)于存儲(chǔ)容量受設(shè)備限制的移動(dòng)應(yīng)用程序更友好。Contributions:1)介紹了視覺(jué)定位背景下的連續(xù)學(xué)習(xí)問(wèn)題。 2)在多個(gè)室內(nèi)數(shù)據(jù)集上,利用現(xiàn)有的基于緩沖方法創(chuàng)建了一個(gè)經(jīng)驗(yàn)回放基線(xiàn)。 3)根據(jù)場(chǎng)景的3D幾何結(jié)構(gòu)提出一種新的緩沖策略.連續(xù)學(xué)習(xí):
Buffering:為了防止在訓(xùn)練時(shí)發(fā)生災(zāi)難性遺忘,少量先前的數(shù)據(jù)存儲(chǔ)在固定大小為B的緩沖區(qū)中。當(dāng)前任務(wù)或類(lèi)的輸入圖像和相應(yīng)的標(biāo)簽存儲(chǔ)在緩沖區(qū)中,將這個(gè)在緩沖區(qū)中存儲(chǔ)圖像的過(guò)程稱(chēng)為Img-buff,除了圖像之外還存儲(chǔ)了提供更好的流形結(jié)構(gòu)的中間表示,例如存儲(chǔ)預(yù)softmax層邏輯提供了類(lèi)概率的分布,該類(lèi)概率對(duì)類(lèi)間語(yǔ)義關(guān)系進(jìn)行編碼。緩沖區(qū)存儲(chǔ)中間表示為Rep-buff。Replay:回放是在學(xué)習(xí)當(dāng)前任務(wù)的同時(shí)對(duì)緩沖區(qū)中存儲(chǔ)的過(guò)去場(chǎng)景的樣本進(jìn)行重新迭代的過(guò)程。當(dāng)前任務(wù)樣本和緩沖區(qū)B中的任務(wù)樣本的最終損失計(jì)算如下:
存儲(chǔ)在B中的中間表示可以通過(guò)知識(shí)蒸餾的過(guò)程用作偽標(biāo)簽。例如來(lái)自當(dāng)前網(wǎng)絡(luò)狀態(tài)的邏輯被約束為與存儲(chǔ)在緩沖存儲(chǔ)器B中的相應(yīng)邏輯相似
緩沖算法:緩沖算法決定當(dāng)前任務(wù)中的哪些樣本將被存儲(chǔ)以供將來(lái)回放以及緩沖區(qū)中存儲(chǔ)的哪些樣本要被替換,算法有兩個(gè)階段,第一階段包括填充緩沖區(qū),直到其充滿(mǎn),然后第二階段決定額外傳入實(shí)例的緩沖概率。將連續(xù)學(xué)習(xí)用在視覺(jué)定位:本文基于之前提出的一種基于學(xué)習(xí)的方法,HSC-Net,其在一組參數(shù)化的分層網(wǎng)絡(luò)層中保持場(chǎng)景的隱式表示,這些分層網(wǎng)絡(luò)層預(yù)測(cè)每個(gè)2D像素位置的3D場(chǎng)景坐標(biāo),然后使用PnP,2D-3D對(duì)應(yīng)關(guān)系用于獲得最終查詢(xún)相機(jī)姿態(tài)估計(jì)。在連續(xù)學(xué)習(xí)設(shè)置中,場(chǎng)景按順序呈現(xiàn),對(duì)于Img buff,僅將輸入圖像和相應(yīng)的3D場(chǎng)景坐標(biāo)y存儲(chǔ)在B中,此外Rep buff存儲(chǔ)了中間聚類(lèi)級(jí)別預(yù)測(cè)(此為HSCNet中的東西),與分類(lèi)問(wèn)題不同,視覺(jué)定位在場(chǎng)景或類(lèi)上是多樣的,并且是獨(dú)立的,在特定子場(chǎng)景的圖像上學(xué)習(xí)定位不會(huì)使場(chǎng)景的其他部分通用化,為了在給定場(chǎng)景的所有子場(chǎng)景上保持定位性能,緩沖區(qū)需要保持最大化場(chǎng)景覆蓋率的圖像,此論文提出了一種方法去采樣圖像從而提供更好的場(chǎng)景覆蓋率,稱(chēng)為Buff-CS,即如果與緩沖圖像觀察到的實(shí)例相比,傳入的新實(shí)例提供了新的場(chǎng)景觀察,則將緩沖概率增加到1,
實(shí)驗(yàn):數(shù)據(jù)集為7Scenes、12Scenes,為了以順序的方式評(píng)估連續(xù)學(xué)習(xí)方法,論文將單獨(dú)的七個(gè)場(chǎng)景和十二個(gè)場(chǎng)景集成到單個(gè)坐標(biāo)系。 采用了兩種緩沖方法作為基線(xiàn),即Reservoir和Class-balance。Reservoir旨在從未知大小的輸入流中采樣k個(gè)數(shù)據(jù)實(shí)例,其中k是預(yù)定義的樣本大小,這種方法保證了單個(gè)幀被選擇到緩沖區(qū)的概率相同。Class-balance旨在進(jìn)一步解決在連續(xù)學(xué)習(xí)中的類(lèi)不平衡問(wèn)題。此方法使類(lèi)盡可能保持平衡,同時(shí)保留每個(gè)類(lèi)/場(chǎng)景的分布。 在視覺(jué)定位的連續(xù)學(xué)習(xí)任務(wù)中,單個(gè)場(chǎng)景以增量方式被饋送到訓(xùn)練網(wǎng)絡(luò),也就是說(shuō)第一場(chǎng)景中的數(shù)據(jù)被訓(xùn)練以估計(jì)場(chǎng)景坐標(biāo),然后訓(xùn)練權(quán)重被用作第二場(chǎng)景的初始化,為了在連續(xù)學(xué)習(xí)設(shè)置中訓(xùn)練HSCNet,在相應(yīng)場(chǎng)景的訓(xùn)練完成后,對(duì)每個(gè)場(chǎng)景的訓(xùn)練數(shù)據(jù)進(jìn)行采樣并存儲(chǔ)在緩沖器中,如前所述,僅緩沖輸入圖像和相應(yīng)標(biāo)簽被稱(chēng)為Img-buff,另外緩沖中間表示被稱(chēng)為Rep-buff,對(duì)于Img-buff將RGB圖像、深度圖和地面真實(shí)姿態(tài)存儲(chǔ)到緩沖區(qū)。對(duì)于Rep-buff還存儲(chǔ)了預(yù)softmax層邏輯和預(yù)測(cè)的場(chǎng)景坐標(biāo)。 表1報(bào)告了訓(xùn)練完成后在所有場(chǎng)景上平均的姿勢(shì)準(zhǔn)確度和覆蓋得分方面的表現(xiàn)
表3中的平均精度評(píng)估了三種方法在完成新任務(wù)后對(duì)先前任務(wù)的性能。表3顯示了平均精度
總結(jié):在多個(gè)室內(nèi)定位數(shù)據(jù)集上對(duì)所提出的方法進(jìn)行了評(píng)估,這些數(shù)據(jù)集在不同設(shè)置下相對(duì)于基線(xiàn)表現(xiàn)出更好的或有競(jìng)爭(zhēng)力的性能。 論文實(shí)驗(yàn)部分可以說(shuō)是論文的亮點(diǎn),有時(shí)間還是去讀一下論文實(shí)驗(yàn)部分,其有更好的分析。
審核八年級(jí):郭婷
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103552 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5561瀏覽量
122783
原文標(biāo)題:把連續(xù)學(xué)習(xí)的思路用在基于圖像的相機(jī)定位問(wèn)題中( ICCV 2021)
文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
采樣電阻的特點(diǎn)與應(yīng)用解析
UWB 單基站二維定位:400 米廣域覆蓋的革新性方案

精準(zhǔn)對(duì)接:焊接機(jī)器人視覺(jué)定位系統(tǒng)如何革新制造工藝
視覺(jué)定位在焊接機(jī)器人中的作用

用于任意排列多相機(jī)的通用視覺(jué)里程計(jì)系統(tǒng)

激光錫焊視覺(jué)定位技術(shù)的應(yīng)用場(chǎng)景

適用于機(jī)器視覺(jué)應(yīng)用的智能機(jī)器視覺(jué)控制平臺(tái)

機(jī)器視覺(jué)要面臨的挑戰(zhàn)及其解決方法
SegVG視覺(jué)定位方法的各個(gè)組件

一種將NeRFs應(yīng)用于視覺(jué)定位任務(wù)的新方法

一種半動(dòng)態(tài)環(huán)境中的定位方法

評(píng)論