1. 全文一覽
激光雷達(dá)全景分割是自動駕駛車輛全面理解周圍物體和場景的關(guān)鍵技術(shù),它要求算法具有實(shí)時(shí)性。最近的無先驗(yàn)方法雖然加快了運(yùn)算速度,但由于難以建模不存在的實(shí)例中心和高昂的基于中心的聚類開銷,其有效性和效率仍然有限。為了實(shí)現(xiàn)準(zhǔn)確和實(shí)時(shí)的激光雷達(dá)全景分割,本文提出了一種新的中心對焦網(wǎng)絡(luò)(CFNet)。具體來說,本文提出了一種中心對焦特征編碼(CFFE)模塊,它通過移動激光雷達(dá)點(diǎn)并填充中心點(diǎn),顯式地建模了原始激光雷達(dá)點(diǎn)與虛擬實(shí)例中心之間的關(guān)系。此外,本文提出了一種中心去重模塊(CDM),它可以高效地保留每個(gè)實(shí)例的唯一中心,消除冗余的中心檢測。在SemanticKITTI和nuScenes兩個(gè)全景分割基準(zhǔn)數(shù)據(jù)集上的評估結(jié)果表明,與所有現(xiàn)有方法相比,我們的CFNet在性能上取得了顯著的提升,同時(shí)速度比最高效的方法快1.6倍。
圖1. SemanticKITTI測試集上的PQ與運(yùn)行時(shí)間。
2. 問題簡介
全景分割是一種將語義分割和實(shí)例分割結(jié)合在一起的技術(shù)。它為不可數(shù)的東西類(例如道路,人行道)分配語義標(biāo)簽,同時(shí)為可數(shù)的東西類(例如汽車,行人)分配語義標(biāo)簽和實(shí)例ID。激光雷達(dá)全景分割是自動駕駛安全的重要基礎(chǔ),它利用激光雷達(dá)傳感器采集的點(diǎn)云有效地描述周圍環(huán)境?,F(xiàn)有的激光雷達(dá)全景分割方法通常先進(jìn)行語義分割,然后通過兩種方式實(shí)現(xiàn)東西類的實(shí)例分割,即基于先驗(yàn)框架和無先驗(yàn)框架的方法。
基于先驗(yàn)框架的方法采用與圖像領(lǐng)域中著名的Mask R-CNN類似的兩階段流程。它首先使用3D檢測網(wǎng)絡(luò)生成物體先驗(yàn)框,然后在每個(gè)先驗(yàn)框內(nèi)單獨(dú)提取實(shí)例分割結(jié)果。如圖1所示,這些方法通常非常復(fù)雜,由于其順序的多階段流水線,難以實(shí)現(xiàn)實(shí)時(shí)處理。
基于無先驗(yàn)框架的方法更為簡潔。為了將東西點(diǎn)與實(shí)例ID關(guān)聯(lián)起來,這些方法通常利用實(shí)例中心。具體來說,它們回歸從點(diǎn)到對應(yīng)中心的偏移量,然后采用與類別無關(guān)的基于中心的聚類模塊或基于鳥瞰圖(BEV)的中心熱力圖。然而,這些方法存在兩個(gè)問題。首先,對于中心特征提取和中心建模,由于激光雷達(dá)點(diǎn)通常是表面聚集的,在大多數(shù)情況下,實(shí)例中心是不存在的,這增加了難度。如圖2(a)所示,這種困難通常導(dǎo)致一個(gè)實(shí)例被錯誤地分割成多個(gè)部分。其次,對于利用冗余檢測到的中心,聚類模塊(例如MeanShift,DBSCAN)的計(jì)算時(shí)間過長,無法滿足實(shí)時(shí)自動駕駛感知系統(tǒng)的需求,而BEV中心熱力圖無法區(qū)分不同高度的物體位于同一個(gè)BEV網(wǎng)格中。
圖2. 一輛車的實(shí)例分割案例,不同顏色表示不同的實(shí)例。不帶我們的CFFE模塊,汽車被分割成部分(a),而CFFE顯著改善了這個(gè)問題(b)。
為了實(shí)現(xiàn)準(zhǔn)確和快速的激光雷達(dá)全景分割,本文提出了一種無先驗(yàn)框架的中心對焦網(wǎng)絡(luò)(CFNet)。為了更好地編碼中心特征,本文提出了一種新的中心對焦特征編碼(CFFE)模塊,它通過移動激光雷達(dá)點(diǎn)并填充中心點(diǎn),以獲得更精確的預(yù)測(如圖2(b)所示)。為了更好地建模中心,CFNet不僅將全景分割任務(wù)分解為廣泛使用的語義分割和中心偏移回歸,而且還提出了一個(gè)新的置信度評分預(yù)測,以指示中心偏移回歸的準(zhǔn)確性。然后,為了高效地利用檢測到的中心,本文設(shè)計(jì)了一個(gè)新的中心去重模塊(CDM),以選擇每個(gè)實(shí)例的唯一中心。CDM保留預(yù)測置信度更高的中心,同時(shí)抑制預(yù)測置信度較低的中心。最后,通過將移動后的東西點(diǎn)分配給最近的中心來實(shí)現(xiàn)實(shí)例分割。為了提高效率,CFNet建立在基于2D投影的分割范式之上。
3. 方法詳析
激光雷達(dá)全景分割任務(wù)的輸入是激光雷達(dá)點(diǎn)云數(shù)據(jù)集(其中是笛卡爾空間中的3D坐標(biāo),表示附加的激光雷達(dá)點(diǎn)特征,例如強(qiáng)度)。該任務(wù)的目標(biāo)是為這些點(diǎn)分配一組標(biāo)簽,其中是語義標(biāo)簽(例如道路、建筑、汽車、行人),是第個(gè)點(diǎn)的實(shí)例ID。此外,可以分為不可數(shù)的東西類(例如道路、建筑)和可數(shù)的東西類(例如汽車、行人)。東西點(diǎn)的實(shí)例ID設(shè)置為0。
圖3. 我們CFNet的概覽。它由四個(gè)步驟組成:1) 基于2D投影的backbone在2D空間上提取特征;2) 提出的中心對焦特征編碼(CFFE)模擬和增強(qiáng)不存在的實(shí)例中心特征;3) 全景分割head預(yù)測輸出結(jié)果;4) 提出的中心去重模塊(CDM)實(shí)現(xiàn)實(shí)例分割,其與語義分割結(jié)果融合生成最終全景分割結(jié)果。虛線表示操作僅在推理時(shí)使用。
為了預(yù)測輸入激光雷達(dá)點(diǎn)云的標(biāo)簽,我們的CFNet將這個(gè)過程分解為四個(gè)步驟,如圖3所示:1)應(yīng)用現(xiàn)成的基于2D投影的backbone在2D空間上高效提取特征;2)使用新的中心對焦特征編碼(CFFE)生成中心對焦特征圖,以獲得更準(zhǔn)確的預(yù)測;3)全景分割head將來自3D點(diǎn)和2D空間的特征進(jìn)行融合,分別預(yù)測語義分割結(jié)果、中心偏移和中心偏移的置信度評分;4)在推理時(shí)進(jìn)行后處理,生成全景分割結(jié)果,其中新的中心去重模塊(CDM)對移動后的東西點(diǎn)操作,選擇每個(gè)實(shí)例的一個(gè)中心,然后分配移動后的東西點(diǎn)到最近的中心以獲取實(shí)例ID。
3.1 中心對焦特征編碼
如上所述,一個(gè)對象的激光雷達(dá)點(diǎn)通常是表面聚集的,尤其對于汽車和卡車類別,這導(dǎo)致對象的中心是虛構(gòu)的,在激光雷達(dá)點(diǎn)云中不存在。為了編碼不存在中心的特征,提出了一種新的中心對焦特征編碼(CFFE),它以backbone提取的2D特征和3D點(diǎn)坐標(biāo)為輸入,生成增強(qiáng)的中心對焦特征圖,如圖3所示。
圖4. 提出的中心對焦特征編碼(CFFE)?!癈onv”表示帶有3×3內(nèi)核、批歸一化和ReLU層的2D卷積。語義分支和實(shí)例分支的細(xì)節(jié)如圖3所示。藍(lán)色箭頭是坐標(biāo)相關(guān)的操作。
CFFE模塊由三個(gè)步驟組成,包括中間結(jié)果預(yù)測、中心特征生成和特征增強(qiáng)模塊,如圖4所示。
中間結(jié)果預(yù)測。在這一步中,CFFE根據(jù)2D特征 和3D點(diǎn)特征 預(yù)測中間結(jié)果(包括語義分割、中心偏移和其置信度分?jǐn)?shù)),以便后續(xù)模擬中心特征。具體來說,在2D特征 上分別應(yīng)用兩個(gè)卷積層,生成語義特征 和實(shí)例特征 (m是特定的2D視圖,如RV、BEV和極坐標(biāo)視圖)。
其中Conv表示順序2D卷積、批歸一化和ReLU操作, 和 是它們的可學(xué)習(xí)參數(shù)。然后,語義分支通過融合點(diǎn)特征和2D語義特征生成每點(diǎn)3D語義特征,
其中Seg是語義分支,是參數(shù)。最后,根據(jù)生成中間語義結(jié)果。中間的中心偏移結(jié)果和置信度分?jǐn)?shù)是通過實(shí)例分支預(yù)測的,輸入為點(diǎn)特征和2D實(shí)例特征,
其中Ins是實(shí)例分支,F(xiàn)C表示全連接層。語義分支和實(shí)例分支的結(jié)構(gòu)及訓(xùn)練目標(biāo)與全景分割head中的相同,在圖3和3.2節(jié)中說明。
**中心特征生成(CFG)**。在這一步中,CFFE通過將3D語義點(diǎn)特征根據(jù)上述中間結(jié)果移位到預(yù)測的中心,生成移位的中心特征。
首先,根據(jù)以下公式計(jì)算一個(gè)預(yù)測中心的坐標(biāo):
其中是原始3D激光雷達(dá)點(diǎn)坐標(biāo),是一個(gè)二值指示器,指示置信度是否大于。換句話說,它不移動?xùn)|西點(diǎn)或置信度低的東西點(diǎn)。
然后,將移位的3D點(diǎn)作為新坐標(biāo)的特征點(diǎn),將3D語義特征 通過Point to Grid (P2G)操作重新投影到具有這個(gè)新坐標(biāo)的2D投影特征圖上。
與相比,更關(guān)注假想的中心,因?yàn)榇蠖鄶?shù)東西點(diǎn)已經(jīng)移位到它們預(yù)測的中心。
**特征增強(qiáng)模塊(FEM)**。CFFE最后融合語義特征圖和重新投影的移位中心特征圖來生成中心對焦語義特征圖和實(shí)例特征圖,它們將由后續(xù)的語義分支和實(shí)例分支進(jìn)行更準(zhǔn)確的預(yù)測。增強(qiáng)模塊由簡單的連接操作和幾個(gè)卷積層組成,詳細(xì)結(jié)構(gòu)在補(bǔ)充材料中。
另外,對于應(yīng)用多視圖融合backbone的情況,每個(gè)視圖的特征圖、、、 (例如m ∈ {RV, BEV})都根據(jù)上述流程獨(dú)立計(jì)算。然后,它們在點(diǎn)融合(PF)模塊中進(jìn)行融合,生成集成的3D點(diǎn)特征和每點(diǎn)預(yù)測。
3.2 全景分割頭
為了更好地建模實(shí)例中心,全景分割頭使用語義分支預(yù)測語義分割,實(shí)例分支同時(shí)估計(jì)中心偏移和新引入的置信度分?jǐn)?shù),給定中心對焦語義特征圖和實(shí)例特征圖。
語義分支。為了進(jìn)行每點(diǎn)預(yù)測,語義分支首先應(yīng)用Grid到點(diǎn)(G2P)操作從2D語義特征圖獲取3D點(diǎn)表示。然后,一個(gè)PF模塊將來自G2P操作的點(diǎn)表示和原始3D點(diǎn)進(jìn)行融合,生成點(diǎn)表示的語義特征。在獲得點(diǎn)的語義特征之后,一個(gè)全連接(FC)層用于預(yù)測最終的每點(diǎn)語義結(jié)果()。 表示第個(gè)激光雷達(dá)點(diǎn)屬于第類的概率。預(yù)測的語義標(biāo)簽通過選擇概率最高的類獲得,即 。
參考CPGNet,采用了相同的損失函數(shù),包括加權(quán)交叉熵?fù)p失、Lovász-Softmax損失和轉(zhuǎn)換一致性損失。
實(shí)例分支。與語義分支類似,實(shí)例分支也采用G2P操作和一個(gè)PF模塊獲得點(diǎn)表示的實(shí)例特征。一個(gè)FC層用于預(yù)測每點(diǎn)的中心偏移。的真值是從第個(gè)點(diǎn)到其對應(yīng)的實(shí)例中心的偏移向量。
對于中心偏移回歸,優(yōu)化的損失函數(shù)僅考慮東西類,形式化如下:
其中是實(shí)例的軸對齊中心。
然后,損失函數(shù)求和如下:
其中和分別是所有點(diǎn)和東西點(diǎn)的數(shù)量。
對于置信度分?jǐn)?shù)回歸,另一個(gè)FC層用于預(yù)測每點(diǎn)的置信度分?jǐn)?shù),以指示的準(zhǔn)確度。通過sigmoid激活函數(shù)激活以確保。監(jiān)督的真值標(biāo)簽由以下生成:
對于東西點(diǎn),越低,越高。這意味著中心偏移回歸更準(zhǔn)確的點(diǎn)有更高的置信度分?jǐn)?shù)。
采用加權(quán)二進(jìn)制交叉熵?fù)p失,
其中東西點(diǎn)被手動強(qiáng)調(diào),因?yàn)樗鼈兊臄?shù)量遠(yuǎn)少于東西點(diǎn)的數(shù)量。
最后,每個(gè)結(jié)果組(來自CFNet或CFFE)的損失定義為:
總損失是來自CFNet和CFFE的兩個(gè)損失之和。
3.3 中心去重模塊
給定最終預(yù)測的語義分割結(jié)果、中心偏移和置信度分?jǐn)?shù),本節(jié)介紹如何在推理時(shí)利用檢測到的中心來獲取全景分割結(jié)果,并闡述關(guān)鍵模塊中心去重模塊(CDM)。
后處理。對于全景分割結(jié)果,首先生成實(shí)例分割,然后通過融合語義分割和實(shí)例分割標(biāo)簽獲得最終全景分割。有五個(gè)步驟生成最終全景分割:
根據(jù)預(yù)測的語義標(biāo)簽選擇東西點(diǎn),以及它們的偏移和置信度分?jǐn)?shù)(其中M是東西點(diǎn)的數(shù)量)。
每個(gè)移位后的東西點(diǎn)作為實(shí)例中心候選。
CDM根據(jù)坐標(biāo)和置信度分?jǐn)?shù)為每個(gè)實(shí)例選擇一個(gè)中心,同時(shí)抑制其他候選中心。
實(shí)例ID 通過將移位后的東西點(diǎn)分配給所有中心中最近的一個(gè)獲得(D是檢測到的實(shí)例數(shù)量)。
多數(shù)投票法將一個(gè)預(yù)測實(shí)例中最頻繁出現(xiàn)的語義標(biāo)簽重新分配給該實(shí)例的所有點(diǎn),以進(jìn)一步確保預(yù)測實(shí)例內(nèi)語義標(biāo)簽的一致性。
**中心去重模塊(CDM)**。CDM以移位點(diǎn)和置信度分?jǐn)?shù)為輸入,為每個(gè)實(shí)例獲得一個(gè)中心。受到邊界框NMS的啟發(fā),如果兩個(gè)中心之間的歐式距離小于閾值,我們的CDM會抑制置信度較低的中心。CDM的偽代碼如算法1所示,其中兩個(gè)中心距離小于被認(rèn)為是同一個(gè)實(shí)例。CDM的過程很簡單,可以輕松在CUDA中實(shí)現(xiàn)。
4. 實(shí)驗(yàn)結(jié)果
本文在SemanticKITTI和nuScenes全景分割基準(zhǔn)上評估了CFNet,在單個(gè)NVIDIA RTX 3090 GPU上進(jìn)行運(yùn)行時(shí)間測量,使用全景質(zhì)量(PQ)指標(biāo)評估性能。經(jīng)驗(yàn)證,CFNet在兩個(gè)基準(zhǔn)上的表現(xiàn)均遠(yuǎn)超現(xiàn)有方法,CFNet比最高效的方法快1.6倍。
圖5. 我們的 CFNet 在 SemanticKITTI 測試集上的可視化。不同的顏色代表不同的類或?qū)嵗?/p>
表1. SemanticKITTI驗(yàn)證集上的ablation研究。RT:運(yùn)行時(shí)間。
表2. 在SemanticKITTI訓(xùn)練集和驗(yàn)證集上,中間結(jié)果和帶CFFE的CFNet的東西中心偏移的平均誤差,單位米(m)。
表3. SemanticKITTI 測試集的結(jié)果。
表4. NuScenes 驗(yàn)證集的結(jié)果。
5. 結(jié)論
本文提出了一種新穎的無先驗(yàn)的中心對焦網(wǎng)絡(luò)(CFNet),用于實(shí)時(shí)的激光雷達(dá)全景分割。為了更好地建模和利用不存在的實(shí)例中心,本文提出了一種新的中心對焦特征編碼(CFFE)模塊,用于生成增強(qiáng)的中心對焦特征圖,以及一種中心去重模塊(CDM),用于為每個(gè)實(shí)例保留唯一的中心,然后將移動后的東西點(diǎn)分配給最近的中心,以獲取實(shí)例ID。從實(shí)驗(yàn)中可以看出,中心建模和利用是無先驗(yàn)的激光雷達(dá)全景分割方法中的一個(gè)關(guān)鍵問題,而模擬不存在的中心特征是有前景的,并且顯示出明顯的優(yōu)勢。
審核編輯:黃飛
?
評論