欧美成人一二三区精品,91麻豆精品成人一区二区

引言

所謂3D視覺(jué)定位指的是根據(jù)事先構(gòu)建的3D模型及相關(guān)信息，計(jì)算取得某張圖像在拍攝時(shí)相機(jī)的位置和姿態(tài)。這是3D視覺(jué)的一項(xiàng)十分重要的技術(shù)，可以用來(lái)幫助實(shí)現(xiàn)人員定位與導(dǎo)航。本博文將基于2019年CVPR論文From Coarse to Fine: Robust Hierarchical Localization at Large Scale所采用的分級(jí)定位方案對(duì)該技術(shù)進(jìn)行簡(jiǎn)要的介紹。

基本原理

3D視覺(jué)定位的直接目標(biāo)是計(jì)算當(dāng)前圖像的照相機(jī)位姿，解決該問(wèn)題的直接方案是建立3D點(diǎn)與2D點(diǎn)之間的匹配關(guān)系，通過(guò)二者的匹配關(guān)系估計(jì)相機(jī)位姿，這一問(wèn)題被稱作PnP（Pespective-n-Point）問(wèn)題。求解PnP問(wèn)題的方法有很多，常見(jiàn)的有P3P、EPnP、UPnP等，具體的如何實(shí)現(xiàn)本文不做介紹，讀者可以自行搜索PnP問(wèn)題的相關(guān)理論。而視覺(jué)定位需要解決的一大關(guān)鍵問(wèn)題是如何建立3D點(diǎn)與2D點(diǎn)之間的匹配關(guān)系。對(duì)于這一點(diǎn)，論文作者Sarlin提出過(guò)一種分級(jí)定位的方案，以下將詳細(xì)介紹該方案。

分級(jí)定位

分級(jí)定位的框架大約可以分成三步：預(yù)檢索、共視聚類、局部匹配與定位。

預(yù)檢索

預(yù)檢索的意義在于獲取前k張與當(dāng)前圖像最相似的圖像，判斷相似的依據(jù)通常是通過(guò)匹配圖像的全局特征。一般而言，產(chǎn)生全局特征的方法可以依賴于局部特征所組成的詞袋，不過(guò)近些年，一些深度學(xué)習(xí)方案也被引入了進(jìn)來(lái)，例如NetVLAD或更加輕量級(jí)的MobileNetVLAD。最終通過(guò)獲取當(dāng)前圖像的全局特征的k個(gè)最近鄰來(lái)獲取預(yù)檢索得到的相近圖集。

共視聚類

然而由于可能產(chǎn)生的錯(cuò)誤匹配，所獲取到的預(yù)檢索圖集并不一定全部都面向同一場(chǎng)景，這時(shí)就需要先將面向不同場(chǎng)景的圖像區(qū)分開來(lái)，這項(xiàng)技術(shù)就被稱作共視聚類，簡(jiǎn)而言之就是將具有共視關(guān)系的圖像聚成一類。

這一過(guò)程實(shí)際十分簡(jiǎn)單，它是通過(guò)匹配同名點(diǎn)來(lái)獲取的，這些同名點(diǎn)在早先進(jìn)行的3D建模過(guò)程中通過(guò)特征的提取與匹配已經(jīng)建立了對(duì)應(yīng)的關(guān)系。若兩個(gè)圖像中存在穩(wěn)定的同名點(diǎn)，則認(rèn)為二者共視，分成一類，否則分成兩類。

局部匹配與定位

一般認(rèn)為圖像數(shù)量較多的類所對(duì)應(yīng)的場(chǎng)景是正確場(chǎng)景的可能性較大。因此從這一場(chǎng)景開始，嘗試獲取相機(jī)位姿。獲取的方式主要依賴求解PnP問(wèn)題，因此需要首先構(gòu)建當(dāng)前圖像的2D關(guān)鍵點(diǎn)在3D模型中的坐標(biāo)位置。在尚不知道相機(jī)姿態(tài)前，這一信息的獲取需要首先匹配當(dāng)前圖像和場(chǎng)景內(nèi)的圖像，特別要匹配那些能夠?qū)?yīng)到3D位置的2D特征點(diǎn)，若能夠匹配上則確定了當(dāng)前圖像中的2D點(diǎn)和3D點(diǎn)的對(duì)應(yīng)關(guān)系，繼而即可通過(guò)對(duì)PnP問(wèn)題的求解獲取相機(jī)位姿。

總結(jié)

本博文基于當(dāng)前被廣泛采用的分級(jí)視覺(jué)定位方法對(duì)在3D視覺(jué)領(lǐng)域廣泛使用的視覺(jué)定位方法進(jìn)行了簡(jiǎn)要介紹，其主要可以被分為三個(gè)步驟，即預(yù)檢索、共視聚類、局部匹配與定位，最終通過(guò)求解PnP問(wèn)題來(lái)獲取當(dāng)前圖像的位姿，從而確定拍攝者的位置。筆者后續(xù)將繼續(xù)保持對(duì)3D視覺(jué)領(lǐng)域的研究和關(guān)注，并繼續(xù)輸出相關(guān)博文。

參考文獻(xiàn)

Sarlin P E, Cadena C, Siegwart R, et al. From coarse to fine: Robust hierarchical localization at large scale[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 12716-12725.

Sarlin P E, Debraine F, Dymczyk M, et al. Leveraging deep visual descriptors for hierarchical efficient localization[J]. arXiv preprint arXiv:1809.01019, 2018.

Arandjelovic R, Gronat P, Torii A, et al. NetVLAD: CNN architecture for weakly supervised place recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 5297-5307.

來(lái)源：華為云社

文鏈接：https://bbs.huaweicloud.com/blogs/229261

編輯：jq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴