當前基于神經(jīng)輻射場(NeRF)或3D高斯?jié)姙R(3DGS)的SLAM方法在重建靜態(tài)3D場景方面表現(xiàn)出色,但在動態(tài)環(huán)境中的跟蹤和重建方面卻面臨著挑戰(zhàn)?,F(xiàn)有的基于NeRF的SLAM方法解決動態(tài)問題通常依賴于RGB-D輸入,而很少有方法能適應(yīng)純RGB輸入。為了克服這些局限性,我們提出了Dy3DGS-SLAM,這是首個使用單目RGB輸入的針對動態(tài)場景的3D高斯?jié)姙R(3DGS)SLAM方法。實驗結(jié)果證明,Dy3DGS-SLAM在動態(tài)環(huán)境中實現(xiàn)了最先進的跟蹤和渲染效果,優(yōu)于或達到了現(xiàn)有的RGB-D方法的水平。
? 文章:
Dy3DGS-SLAM: Monocular 3D Gaussian Splatting SLAM for Dynamic Environments
? 作者:
Mingrui Li, Yiming Zhou, Hongxing Zhou, Xinggang Hu, Florian Roemer, Hongyu Wang, Ahmad Osman
? 論文鏈接:
https://arxiv.org/abs/2506.05965
? 編譯:
INDEMIND
01 本文核心內(nèi)容
近期,基于NeRF或3DGS的密集SLAM系統(tǒng)引起了廣泛關(guān)注。這些系統(tǒng)在靜態(tài)場景中實現(xiàn)了逼真的渲染效果,并逐漸向大規(guī)模或更具挑戰(zhàn)性的場景拓展。然而,由于現(xiàn)實世界中存在大量動態(tài)物體,這類SLAM系統(tǒng)在應(yīng)對這一挑戰(zhàn)時卻表現(xiàn)不佳。另一個受到關(guān)注的問題是如何在不依賴RGB-D傳感器,僅使用單目RGB輸入的情況下取得更好的效果,該類傳感器更易獲取,且具有更大的潛力。
盡管一些基于NeRF的方法,如DN-SLAM、DDNSLAM、NID-SLAM和RoDyn-SLAM已嘗試解決動態(tài)物體的問題,但它們往往依賴于預(yù)定義的動態(tài)先驗或嚴重依賴深度先驗來確定動態(tài)物體掩碼,這使得它們在僅有單目RGB輸入的環(huán)境中難以適用。
此外,由于NeRF表示的局限性,渲染精度受到限制,常常導(dǎo)致嚴重的渲染偽影?;?DGS的諸如SplaTAM、Photo-SLAM和MonoGS等SLAM系統(tǒng)在靜態(tài)環(huán)境中表現(xiàn)良好,但在動態(tài)場景中往往會遇到跟蹤失敗和建圖錯誤的問題。因此,我們提出了Dy3DGS-SLAM,這是首個專為動態(tài)環(huán)境設(shè)計的僅使用RGB的3DGS-SLAM系統(tǒng)。我們利用光流來獲取動態(tài)掩碼,無需依賴預(yù)定義的移動對象,盡管這些掩碼在紋理均勻或快速運動的區(qū)域可能會有噪聲。為了解決這個問題,我們引入了單目深度估計,提供互補的空間線索,特別是在處理遮擋和深度不連續(xù)性時。然后,我們提出了一種深度正則化的掩碼融合策略,結(jié)合了這兩種模態(tài)的優(yōu)勢,減輕了各自的局限性,生成了更精確、更穩(wěn)健的動態(tài)掩碼。
在跟蹤方面,我們將估計的深度和融合后的掩碼納入運動損失中,有效地在位姿估計網(wǎng)絡(luò)中恢復(fù)尺度和位姿,從而獲得更準確的跟蹤結(jié)果。在渲染方面,為了解決瞬態(tài)干擾和遮擋問題,我們根據(jù)動態(tài)像素的顏色和深度對動態(tài)高斯分布進行懲罰。與基準方法相比,我們的方法顯著減少了渲染偽影,并極大地提高了幾何精度。
本文的貢獻可概括為:
?提出了Dy3DGS-SLAM,這是首個僅基于RGB的適用于動態(tài)環(huán)境的3DGS-SLAM系統(tǒng),能夠在動態(tài)環(huán)境中實現(xiàn)穩(wěn)健的跟蹤和高保真度的重建。
? 提出了一種掩碼融合方法,通過結(jié)合光流的運動線索和深度估計的幾何一致性,能夠準確地覆蓋動態(tài)對象。基于融合后的掩碼,我們引入了新穎的運動和渲染損失,以有效減輕動態(tài)對象在跟蹤和渲染中的干擾。
? 在三個真實數(shù)據(jù)集上的實驗結(jié)果表明,與基準方法相比,我們的方法在跟蹤和渲染性能方面表現(xiàn)更優(yōu)。
02 方法架構(gòu)
我們的系統(tǒng)流程如圖1所示。我們解決了將從光流獲得的動態(tài)掩碼與從單目輸入估計的深度圖融合的問題,從而得到精確的動態(tài)融合掩碼。我們提出了運動估計網(wǎng)絡(luò),并引入了結(jié)合深度估計的運動損失,使網(wǎng)絡(luò)能夠迭代地優(yōu)化精確的相機位姿。我們對被標記為動態(tài)的像素對應(yīng)的高斯分布進行懲罰,并基于單目深度應(yīng)用額外的渲染損失,以優(yōu)化場景細節(jié)。最后,我們利用多視圖一致性合成靜態(tài)場景。
03 實驗結(jié)果
A.實驗細節(jié)與指標
數(shù)據(jù)集和實現(xiàn)細節(jié)
我們在三個來自真實世界的公開數(shù)據(jù)集上進行了評估:TUMRGB-D、AirDOS-Shibuya和BONNRGB-D,這些數(shù)據(jù)集均捕捉了真實的室內(nèi)環(huán)境。
我們在一臺配備單個RTX3090TiGPU的臺式機上進行了SLAM實驗。我們展示了針對實時應(yīng)用設(shè)計的多進程實現(xiàn)的結(jié)果。與3DGS框架一致,時間關(guān)鍵的光柵化和梯度計算均使用CUDA實現(xiàn)。
指標和基線方法
為評估相機跟蹤精度,我們報告關(guān)鍵幀絕對軌跡誤差(ATE)的均方根誤差(RMSE)。對于運行時性能和網(wǎng)絡(luò)迭代速度,我們分別測量每秒幀數(shù)(FPS)和毫秒(ms)。GPU使用情況以兆字節(jié)(MB)為單位進行評估。我們將我們的Dy3DGS-SLAM方法與傳統(tǒng)動態(tài)SLAM方法(如ORB-SLAM3、Droid-SLAM、DynaSLAM、DytanVO和ReFusion以及基于 NeRF 的最新 RGB-D 傳感器方法(包括 NICE-SLAM、ESLAM、Co-SLAM和NID-SLAM)進行比較。此外,我們還考慮了基于3DGS的SplaTAM。
B.在TUM和BonnRGB-D上的跟蹤評估。
跟蹤
如表II所示,我們展示了來自TUM數(shù)據(jù)集的三個高度動態(tài)序列、一個輕度動態(tài)序列和兩個靜態(tài)序列的結(jié)果。
得益于我們提出的動態(tài)掩碼融合方法,我們的系統(tǒng)在跟蹤性能方面優(yōu)于基于RGB-D的方法,甚至可與傳統(tǒng)的SLAM方法相媲美。此外,我們在更復(fù)雜且更具挑戰(zhàn)性的BONN數(shù)據(jù)集上評估了跟蹤性能,如表I所示。即使在這些更復(fù)雜和大規(guī)模的場景中,我們的方法也取得了卓越的性能。我們的方法優(yōu)于所有其他方法,NID-SLAM是唯一一個結(jié)果接近我們的方法。此外,我們的方法在性能上優(yōu)于傳統(tǒng)方法。這表明我們的動態(tài)掩碼融合能夠有效地去除動態(tài)物體并增強跟蹤過程。
建圖
為了全面評估我們所提出系統(tǒng)在動態(tài)場景中的性能,我們分析了從定性角度來看結(jié)果。我們將渲染的圖像與從生成的高斯圖中獲得的真實姿態(tài)進行比較,使用與其他方法相同的視角。選擇了四個具有挑戰(zhàn)性的序列:來自波恩數(shù)據(jù)集的人群和人員跟蹤,以及來自TUMRGBD數(shù)據(jù)集的f3walkxyzval和f3walkstatic。如圖2所示,我們的方法在幾何和紋理細節(jié)方面顯示出顯著優(yōu)勢,尤其是在減少偽影方面。值得注意的是,我們的方法基于單目系統(tǒng),并已在兩個真實世界數(shù)據(jù)集上得到驗證,證明了僅使用簡單相機即可準確記錄動態(tài)場景的能力。這突顯了我們的方法在有效追蹤和重建室內(nèi)環(huán)境方面的潛力,使其成為深度傳感器不可用的應(yīng)用場景中的寶貴工具。
04 總結(jié)
我們提出了Dy3DGS-SLAM,這是首個基于3DGS的單目RGB輸入的動態(tài)場景SLAM方法。該方法首先通過光流估計生成動態(tài)對象掩碼,將這些掩碼與單目深度估計相結(jié)合,創(chuàng)建融合掩碼并恢復(fù)尺度,從而準確捕捉動態(tài)對象掩碼。為了進一步提高位姿精度,我們基于融合掩碼優(yōu)化了損失函數(shù),減少了多次迭代帶來的計算成本。此外,為了增強渲染性能,我們應(yīng)用了額外的光度和深度損失,以消除瞬態(tài)干擾偽影并提高幾何精度。實驗結(jié)果表明,與基線方法相比,Dy3DGS-SLAM在動態(tài)環(huán)境中實現(xiàn)了最先進的跟蹤和渲染性能。
-
相機
+關(guān)注
關(guān)注
4文章
1468瀏覽量
54694 -
RGB
+關(guān)注
關(guān)注
4文章
807瀏覽量
59939 -
SLAM
+關(guān)注
關(guān)注
24文章
441瀏覽量
32505
原文標題:Dy3DGS-SLAM:適用于動態(tài)環(huán)境的3DGS-SLAM,僅需單目RGB
文章出處:【微信號:gh_c87a2bc99401,微信公眾號:INDEMIND】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
一種適用于模擬/數(shù)字混合信號環(huán)境的接地技術(shù)
一種適用于室內(nèi)復(fù)雜環(huán)境的高精度、環(huán)境自適應(yīng)性強的定位算法
一種適用于嵌入式系統(tǒng)的模塊動態(tài)加載技術(shù)
一種適用于醫(yī)學(xué)領(lǐng)域的頻率可調(diào)濾波器
基于一種適用于惡劣安裝環(huán)境的MS6000水情監(jiān)測系統(tǒng)介紹
一種適用于動態(tài)場景的SLAM方法

一種基于直接法的動態(tài)稠密SLAM方案
一種適用于動態(tài)場景的多層次地圖構(gòu)建算法

三維高斯?jié)姙R大規(guī)模視覺SLAM系統(tǒng)解析

評論