九九九九成人网站,七七婷婷婷婷精品国产

從視頻中估計3D結(jié)構(gòu)和相機(jī)運(yùn)動是計算機(jī)視覺中的一個關(guān)鍵問題，這個技術(shù)在自動駕駛領(lǐng)域有著廣闊的工業(yè)應(yīng)用前景。目前自動駕駛的核心技術(shù)是LiDAR（激光雷達(dá)），一種運(yùn)用雷達(dá)原理，采用光和激光作為主要傳感器的汽車視覺系統(tǒng)。LiDAR傳感器賦予了自動駕駛汽車能夠看到周邊環(huán)境的“雙眼”，激光雷達(dá)技術(shù)越先進(jìn)，視覺感知的精準(zhǔn)程度越高，這是自動駕駛得以實(shí)現(xiàn)的底層技術(shù)基礎(chǔ)。但是最近幾年，放在攝像頭上的深度學(xué)習(xí)研究，發(fā)展很蓬勃。相比之下，雖然激光雷達(dá) (LiDAR)的數(shù)據(jù)有諸多優(yōu)點(diǎn)，但相關(guān)學(xué)術(shù)進(jìn)展并不太多。相機(jī)+數(shù)據(jù)+神經(jīng)網(wǎng)絡(luò)的組合，正在迅速縮小與LiDAR的能力差距。

無需相機(jī)參數(shù)、單目、以無監(jiān)督學(xué)習(xí)的方式從未標(biāo)記場景視頻中搞定深度圖！

什么是深度圖？

深度圖像（depth image)也被稱為距離影像（range image），由相機(jī)拍攝，是指將從圖像采集器到場景中各點(diǎn)的距離（深度）作為像素值的圖像，它直接反映了景物可見表面的幾何形狀。單位為mm，效果參考下圖：

在場景視頻景深學(xué)習(xí)領(lǐng)域，谷歌AI和機(jī)器人實(shí)驗(yàn)室聯(lián)合公布了三項(xiàng)最新研究突破：

第一，證明了可以以一種無監(jiān)督的方式訓(xùn)練深度網(wǎng)絡(luò)，這個深度網(wǎng)絡(luò)可以從視頻本身預(yù)測相機(jī)的內(nèi)在參數(shù)，包括鏡頭失真（見圖1）。

第二，在這種情況下，他們是第一個以幾何方式從預(yù)測深度直接解決遮擋的問題。

第三，大大減少了處理場景中移動元素所需的語義理解量：只需要一個覆蓋可能屬于移動對象的像素的單個掩碼，而不是分割移動對象的每個實(shí)例并跨幀跟蹤它。

圖1：從未知來源的視頻中學(xué)習(xí)深度的方法的定性結(jié)果，通過同時學(xué)習(xí)相機(jī)的外在和內(nèi)在參數(shù)來實(shí)現(xiàn)。由于該方法不需要知道相機(jī)參數(shù)，因此它可以應(yīng)用于任何視頻集。所有深度圖（在右側(cè)可視化，作為差異）都是從原始視頻中學(xué)習(xí)而不使用任何相機(jī)內(nèi)在函數(shù)。從上到下：來自YouTube8M的幀，來自EuRoC MAV數(shù)據(jù)集，來自Cityscapes和來自KITTI的幀。

推特網(wǎng)友對此不吝贊美：“這是我見過的最令人印象深刻的無監(jiān)督結(jié)果之一。來自未標(biāo)記視頻的深度圖對于自動駕駛非常有用:)“

以下是論文具體內(nèi)容：

從視頻中估計3D結(jié)構(gòu)和相機(jī)運(yùn)動是計算機(jī)視覺中的一個關(guān)鍵問題，這個技術(shù)在自動駕駛領(lǐng)域有著廣闊的工業(yè)應(yīng)用前景。

解決該問題的傳統(tǒng)方法依賴于在多個連續(xù)幀中識別場景中的相同點(diǎn)，并求解在這些幀上最大程度一致的3D結(jié)構(gòu)和相機(jī)運(yùn)動。

但是，幀之間的這種對應(yīng)關(guān)系只能針對所有像素的子集建立，這導(dǎo)致了深度估計不確定的問題。與通常處理逆問題一樣，這些缺口是由連續(xù)性和平面性等假設(shè)填充的。

深度學(xué)習(xí)能夠從數(shù)據(jù)中獲得這些假設(shè)，而不是手工指定這些假設(shè)。在信息不足以解決模糊性的地方，深度網(wǎng)絡(luò)可以通過對先前示例進(jìn)行歸納，以生成深度圖和流場。

無監(jiān)督方法允許單獨(dú)從原始視頻中學(xué)習(xí)，使用與傳統(tǒng)方法類似的一致性損失，但在訓(xùn)練期間對其進(jìn)行優(yōu)化。在推論中，經(jīng)過訓(xùn)練的網(wǎng)絡(luò)能夠預(yù)測來自單個圖像的深度以及來自成對或更長圖像序列的運(yùn)動。

隨著對這個方向的研究越來越有吸引力，很明顯，物體運(yùn)動是一個主要障礙，因?yàn)樗`反了場景是靜態(tài)的假設(shè)。已經(jīng)提出了幾個方向來解決該問題，包括通過實(shí)例分割利用對場景的語義理解。

遮擋是另一個限制因素，最后，在此方向的所有先前工作中，必須給出相機(jī)的內(nèi)在參數(shù)。這項(xiàng)工作解決了這些問題，因此減少了監(jiān)督，提高了未標(biāo)記視頻的深度和運(yùn)動預(yù)測質(zhì)量。

首先，我們證明了可以以一種無監(jiān)督的方式訓(xùn)練深度網(wǎng)絡(luò)，這個深度網(wǎng)絡(luò)從視頻本身預(yù)測相機(jī)的內(nèi)在參數(shù)，包括鏡頭失真（見圖1）。

其次，在這種情況下，我們是第一個以幾何方式從預(yù)測深度直接解決遮擋的問題。

最后，我們大大減少了處理場景中移動元素所需的語義理解量：我們需要一個覆蓋可能屬于移動對象的像素的單個掩碼，而不是分割移動對象的每個實(shí)例并跨幀跟蹤它。

這個掩?？赡芊浅４植?，實(shí)際上可以是矩形邊界框的組合。獲得這樣的粗糙掩模是一個簡單得多的問題，而且與實(shí)例分割相比，使用現(xiàn)有的模型可以更可靠地解決這個問題。

除了這些定性進(jìn)展之外，我們還對我們的方法進(jìn)行了廣泛的定量評估，并發(fā)現(xiàn)它在多個廣泛使用的基準(zhǔn)數(shù)據(jù)集上建立了新的技術(shù)水平。將數(shù)據(jù)集匯集在一起，這種能力通過我們的方法得到了極大的提升，證明可以提高質(zhì)量。

表1：總結(jié)了在KITTI上訓(xùn)練的模型和評估結(jié)果，使用給定相機(jī)內(nèi)建和學(xué)習(xí)相機(jī)內(nèi)建兩種方式來評估我們方法的深度估計，結(jié)果顯而易見，我們獲得了當(dāng)前最佳SOTA。

表2：總結(jié)了在Cityscapes上訓(xùn)練和測試的模型的評估結(jié)果，我們的方法優(yōu)于以前的方法，并從學(xué)習(xí)的內(nèi)建中獲益。

表3：深度估計的消融實(shí)驗(yàn)。在所有實(shí)驗(yàn)中，訓(xùn)練集是Cityscapes（CS）和KITTI組合，我們分別在Cityscapes（CS）和KITTI（Eigen partition）上測試模型。每行代表一個實(shí)驗(yàn)，其中與主方法相比進(jìn)行了一次更改，如“實(shí)驗(yàn)”行中所述。數(shù)字越小越好。

除了這些定性的進(jìn)步，我們對我們的方法進(jìn)行了廣泛的定量評估，發(fā)現(xiàn)它在多個廣泛使用的基準(zhǔn)數(shù)據(jù)集上建立了一個新的技術(shù)狀態(tài)。將數(shù)據(jù)集集中在一起，這種方法大大提高了數(shù)據(jù)集的質(zhì)量。

最后，我們首次演示了可以在YouTube視頻上學(xué)習(xí)深度和相機(jī)內(nèi)在預(yù)測，這些視頻是使用多個不同的相機(jī)拍攝的，每個相機(jī)的內(nèi)建都是未知的，而且通常是不同的。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6231

瀏覽量
108187
LIDAR

LIDAR

+關(guān)注

關(guān)注
10

文章
349

瀏覽量
30385

原文標(biāo)題：谷歌AI：根據(jù)視頻生成深度圖，效果堪比激光雷達(dá)

文章出處：【微信號：IV_Technology，微信公眾號：智車科技】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

搜索歷史

場景視頻景深學(xué)習(xí)領(lǐng)域,谷歌AI公布三項(xiàng)最新研究突破

評論