99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

LargeKernel3D:在3D稀疏CNN中使用大卷積核

jf_pmFSk4VX ? 來(lái)源:GiantPandaCV ? 2023-04-06 09:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導(dǎo)讀

2D CNN 使用大卷積代替小卷積,增大了卷積核的感受野,捕獲到的特征更偏向于全局,效果也得到了提升,這表明較大的 kernel size 很重要。但是,當(dāng)直接在 3D CNN 中應(yīng)用大卷積核時(shí),那些在 2D 中成功的模塊設(shè)計(jì)在 3D 網(wǎng)絡(luò)效果不好,例如深度卷積。為了應(yīng)對(duì)這一重要挑戰(zhàn),本文提出了空間分區(qū)卷積及其大的 kernel size 模塊,它避免了原始 3D 大卷積核的優(yōu)化和效率問(wèn)題。

本文的大卷核 3D CNN 網(wǎng)絡(luò) LargeKernel3D 在語(yǔ)義分割和對(duì)象檢測(cè)的 3D 任務(wù)中取得了顯著改進(jìn)。它在 ScanNetv2 語(yǔ)義分割任務(wù)上實(shí)現(xiàn)了 72.8%的mIOU,在 NDS nuScenes 目標(biāo)檢測(cè)基準(zhǔn)上達(dá)到了 73.9% 的 mIoU,在 nuScenes LIDAR 排行榜上排名第一。通過(guò)簡(jiǎn)單的多模式融合,性能進(jìn)一步提升至 74.2% NDS。此外,LargeKernel3D 在 Waymo 3D 對(duì)象檢測(cè)上可以將卷積核擴(kuò)大到 17×17×17 大小。首次證明大卷積核對(duì)于 3D 視覺(jué)任務(wù)是可行且必不可少的。

簡(jiǎn)介

3D任務(wù)中普遍使用3D稀疏卷積網(wǎng)絡(luò)進(jìn)行特征提取,一些方法使用 Transformer進(jìn)行編-解碼。由于后者的全局和局部自我注意機(jī)制能夠從大空間范圍內(nèi)捕獲上下文信息,這對(duì)前者的有效感受野提出了挑戰(zhàn)。相比之下,常見(jiàn)的 3D 稀疏 CNN 受到了限制。2D CNN中,有一系列結(jié)合大卷積核提高有效感受野范圍的方法,例如,ConvNeXt 采用 7×7 深度卷積,RepLKNet 使用 31×31 的超大卷積核。但是由于3D 和 2D 任務(wù)之間的差異,這些方法并不能直接用于3D 稀疏 CNN 。

因此,3D 大核 CNN 設(shè)計(jì)難點(diǎn)主要分為兩個(gè)方面

(1)效率問(wèn)題

增大3維立方卷積核時(shí),參數(shù)量和計(jì)算負(fù)擔(dān)的增長(zhǎng)速度比 2D CNN 快得多。比如,卷積核從 3x3x3 變?yōu)?7×7×7 時(shí),模型大小增加了不止 10 倍;

(2)優(yōu)化問(wèn)題

相比2D數(shù)據(jù)集,3D數(shù)據(jù)基準(zhǔn)規(guī)模沒(méi)那么大,通常只包含不超過(guò)一千個(gè)場(chǎng)景。同時(shí),3D 點(diǎn)云是稀疏的,而不是密集的,這導(dǎo)致優(yōu)化大卷積核的參數(shù)比較困難而造成過(guò)擬合問(wèn)題。

作者提出空間分區(qū)卷積作為 3D 大核設(shè)計(jì)。通過(guò)在空間相鄰位置之間共享權(quán)重,代替通道級(jí)組的深度卷積。如圖 1 所示,空間分區(qū)卷積通過(guò)對(duì)鄰近空間進(jìn)行分組將大內(nèi)核(例如 7×7)重新映射為小內(nèi)核(例如 3×3),而整個(gè)空間大小保持不變。具體說(shuō)來(lái),就是將內(nèi)核分成不同的部分,由于每個(gè)部分的權(quán)重共享,位置信息可能會(huì)變得模糊,因此,使用相對(duì)位置編碼作為偏差來(lái)補(bǔ)充丟失的位置信息。關(guān)于效率問(wèn)題,它占用很少的模型尺寸來(lái)保持參數(shù)與小內(nèi)核的參數(shù)相同。此外,與普通的大型內(nèi)核對(duì)應(yīng)物相比,所需延遲更低。至于優(yōu)化挑戰(zhàn),空間維度之間的權(quán)重共享為參數(shù)提供了更多更新和克服過(guò)度擬合問(wèn)題的機(jī)會(huì)。

1dc0ddc0-d40b-11ed-bfe3-dac502259ad0.png

不同核大小的稀疏卷積。小核稀疏卷積在局部區(qū)域收集特征,效率高,但由于特征斷開(kāi)和范圍小而丟棄了足夠的信息流。大核稀疏卷積能夠以大量的參數(shù)和計(jì)算為代價(jià)捕獲遠(yuǎn)程信息。本文提出的空間分區(qū)卷積使用大卷積核,并在局部鄰居之間共享權(quán)重以提高效率。

貢獻(xiàn)

本文的貢獻(xiàn)主要有以下幾點(diǎn):

(1) 提出了 LargeKernel3D 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)組合多個(gè)較小的卷積核構(gòu)成的一個(gè)較大的卷積核,從而顯著提高了網(wǎng)絡(luò)的精度,同時(shí)保持相對(duì)較小的參數(shù)量;

(2) 在幾個(gè)常見(jiàn)的3D數(shù)據(jù)集上,LargeKernel3D 都表現(xiàn)出了優(yōu)于其他最先進(jìn)的3D稀疏卷積神經(jīng)網(wǎng)絡(luò)的表現(xiàn);

(3) 提出了相對(duì)位置編碼作為偏差來(lái)補(bǔ)充丟失的位置信息,解決權(quán)重共享導(dǎo)致的模糊問(wèn)題。

通過(guò)這些貢獻(xiàn),這篇論文在3D卷積神經(jīng)網(wǎng)絡(luò)領(lǐng)域提供了一種高效而準(zhǔn)確的解決方案,為3D圖像分析和視覺(jué)任務(wù)提供了有用的工具。

3D Sparse CNNs

3D 稀疏卷積神經(jīng)網(wǎng)絡(luò)是一種針對(duì)三維圖像數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),專門用于處理稀疏(或稱為稀有)的三維數(shù)據(jù),例如醫(yī)學(xué)圖像、點(diǎn)云數(shù)據(jù)等。與傳統(tǒng)的全連接卷積神經(jīng)網(wǎng)絡(luò)不同,稀疏卷積神經(jīng)網(wǎng)絡(luò)僅對(duì)稀疏空間進(jìn)行計(jì)算。這種方法將必要的信息與無(wú)關(guān)的信息分離開(kāi)來(lái),避免處理輸入數(shù)據(jù)中多余的零值點(diǎn),從而可以顯著減少計(jì)算成本,更有效地利用計(jì)算資源,并提高對(duì)不均勻或無(wú)規(guī)則的空間數(shù)據(jù)的識(shí)別能力。

3D 稀疏CNN的構(gòu)建與傳統(tǒng)的3D卷積神經(jīng)網(wǎng)絡(luò)相似,在其基礎(chǔ)上引入了稀疏輸入和輸出,以及乘法卷積(或稱為空間卷積)操作。稀疏卷積同時(shí)考慮了空間和特征通道之間的關(guān)系,這允許它更好地處理具有復(fù)雜空間結(jié)構(gòu)的數(shù)據(jù)。與稠密數(shù)據(jù)相比,空間中的稀疏數(shù)據(jù)包含較少可處理的有效數(shù)據(jù)點(diǎn),3D稀疏CNN在前向計(jì)算過(guò)程中會(huì)自動(dòng)選取非零節(jié)點(diǎn)作為計(jì)算節(jié)點(diǎn),采用特殊的卷積操作(如空間卷積、乘法卷積等)更好的利用稀疏數(shù)據(jù)中的特征。

方法 Method

Spatial-wise Partition Convolution

pYYBAGQuJySAF3DkAACvCtes6Dw445.jpg

本文所提的3D 大卷積 CNN 的空間分區(qū)卷積。它在卷積核上的空間維度 K 之間共享權(quán)重,而不是在通道維度之間共享權(quán)重。也不同于 SGC,后者根據(jù)輸入特征劃分空間組。這里通過(guò)在鄰近空間之間共享權(quán)重,將原始的大卷積核從 7×7 分組為 3×3。由于輸入特征是稀疏的,為了避免卷積核擴(kuò)大帶來(lái)的額外開(kāi)銷,在推理過(guò)程中直接使用小核層,并將其特征分配區(qū)域擴(kuò)大到大核范圍(如圖 3 所示),由于權(quán)重共享操作,它大大節(jié)省了乘法,從 343 次減少到 27 次。

1e0f4ece-d40b-11ed-bfe3-dac502259ad0.png空間分區(qū)卷積

Kernel-wise Position Encoding

鄰近空間之間共享權(quán)重,會(huì)導(dǎo)致局部細(xì)節(jié)模糊。隨著核大小增加,這個(gè)問(wèn)題越來(lái)越嚴(yán)重。為了解決該問(wèn)題,首先初始化位置權(quán)重,讓輸入的特征查詢對(duì)應(yīng)位置的位置權(quán)重,最后進(jìn)行相加:

1e36560e-d40b-11ed-bfe3-dac502259ad0.png

這步的本質(zhì)是將具有相對(duì)位置信息的偏差添加到輸入特征中。如下圖,SW-LK Conv由一個(gè)大核空間分區(qū)卷積和一個(gè)可學(xué)習(xí)的 Position Encodings 組成。Position Encodings 用于彌補(bǔ)大卷積核的細(xì)節(jié)捕獲能力。

1e595c4e-d40b-11ed-bfe3-dac502259ad0.png

空間大核卷積 (SW-LK Conv) 的結(jié)構(gòu)

實(shí)驗(yàn)

首先比較了普通 3D 子流形稀疏卷積與本文卷積之間的效率,隨著卷積核增大,普通3D卷積的參數(shù)量和延遲都急劇上升,而本文的方法效率要高得多。

1e8c5c66-d40b-11ed-bfe3-dac502259ad0.png

普通 3D 稀疏卷積與本文的 SW-LK Conv 之間的效率比較

作者在 3D 分割和檢測(cè)兩個(gè)下游任務(wù)上,進(jìn)行了驗(yàn)證。檢測(cè)任務(wù)使用的是 nuScenes(左), Waym (右)兩個(gè)數(shù)據(jù)集,對(duì)比情況如下,可以看到使用LargeKernel3D ,精度最高。其中,LargeKernel3D 將 CenterPoint 提高到 70.6% 和 72.8% NDS,無(wú)論有沒(méi)有進(jìn)行測(cè)試增強(qiáng),兩者都優(yōu)于其他的 LIDAR 方法。多模態(tài)模態(tài) LargeKernel3DF 進(jìn)一步提高到 74.2% NDS 和 71.2% mAP。

1eb1ec10-d40b-11ed-bfe3-dac502259ad0.png

檢測(cè)任務(wù)對(duì)比情況

下面是分割任務(wù)上的對(duì)比情況,在測(cè)試集上,本文方法達(dá)到SOTA。MinkowskiNet 是 ScanNetv2 中最先進(jìn)的方法, SW-LK Conv(本文方法) 進(jìn)一步提高了它的性能。

1f1263f6-d40b-11ed-bfe3-dac502259ad0.png

ScanNetv2 mIoU 在 3D 語(yǔ)義分割上的比較。

然后是消融實(shí)驗(yàn),作者對(duì)MinkowskiNet-34 和 ScanNetv2 上各種技術(shù)和核大小等進(jìn)行了實(shí)驗(yàn),LargeKernel3D 是有效的。

1f504388-d40b-11ed-bfe3-dac502259ad0.png

消融實(shí)驗(yàn)

結(jié)論 Conclusion

這篇論文與 2D CNN 中的大卷積核有本質(zhì)區(qū)別,深入研究了 3D 卷積網(wǎng)絡(luò)的大卷積的設(shè)計(jì)。所提的專為 3D 大內(nèi)核設(shè)計(jì)的空間分區(qū)卷積 (SW Conv),有效地解決了普通 3D 大核 CNN 中的效率和優(yōu)化問(wèn)題?;谶@種設(shè)計(jì),進(jìn)一步提出了用于 3D 語(yǔ)義分割和對(duì)象檢測(cè)的 SW-LK Conv 和相應(yīng)的 LargeKernel3D。

這種3D 大核網(wǎng)絡(luò)在語(yǔ)義分割和目標(biāo)檢測(cè)任務(wù)上都取得了不錯(cuò)的改進(jìn),并首次展示了可以高效且有效地實(shí)現(xiàn) 3D 大內(nèi)核。但是本文方法也存在局限性,例如 LargeKernel3D 在 3D 語(yǔ)義分割和對(duì)象檢測(cè)基準(zhǔn)測(cè)試中主要依賴于手工設(shè)計(jì)的空間內(nèi)核大小。這些大小對(duì)于其他數(shù)據(jù)集或任務(wù)可能不是最優(yōu)的,具體取決于整體場(chǎng)景大小和數(shù)據(jù)稀疏性。其他基于ENAS等搜索技術(shù)可能會(huì)有幫助,可以嘗試一下。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • SGC
    SGC
    +關(guān)注

    關(guān)注

    0

    文章

    2

    瀏覽量

    6157
  • LiDAR芯片
    +關(guān)注

    關(guān)注

    1

    文章

    18

    瀏覽量

    3336
  • 卷積網(wǎng)絡(luò)
    +關(guān)注

    關(guān)注

    0

    文章

    43

    瀏覽量

    2537

原文標(biāo)題:CVPR 2023 | LargeKernel3D:在3D稀疏CNN中使用大卷積核

文章出處:【微信號(hào):GiantPandaCV,微信公眾號(hào):GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于3D數(shù)據(jù)卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別

    FusionNet的核心是全新的、應(yīng)用于3D物體的三維卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)。我們必須在多個(gè)方面調(diào)整傳統(tǒng)的CNN以使其有效
    發(fā)表于 01-16 16:36 ?3941次閱讀
    基于<b class='flag-5'>3D</b>數(shù)據(jù)<b class='flag-5'>卷積</b>神經(jīng)網(wǎng)絡(luò)的物體識(shí)別

    3D打印技術(shù)及應(yīng)用: 3D打印-FDM打印演示#3d打印

    3D打印
    學(xué)習(xí)硬聲知識(shí)
    發(fā)布于 :2022年11月10日 21:58:30

    3D打印技術(shù)及應(yīng)用: 3D打印工藝的分類#3d打印

    3D打印
    學(xué)習(xí)硬聲知識(shí)
    發(fā)布于 :2022年11月10日 22:04:40

    LabVIEW中使3D控件

    LabVIEW中使3D控件是可以使用自帶的繪圖vi,也可以從CAD軟件中導(dǎo)入,LabVIEW支持導(dǎo)入的外部格式有ASE格式,WRL格式和STL格式(附件圖1),ASE格式
    發(fā)表于 10-27 15:17

    浩辰3D的「3D打印」你會(huì)用嗎?3D打印教程

    ,從而幫助設(shè)計(jì)工程師快速設(shè)計(jì)、試制復(fù)雜曲面、異形結(jié)構(gòu)以及非標(biāo)零部件,高效推進(jìn)新產(chǎn)品的設(shè)計(jì)研發(fā)與設(shè)計(jì)驗(yàn)證。1、模型處理浩辰3D中打開(kāi)模型文件,選擇「3D打印」選項(xiàng)卡,將模型上的裝飾螺紋換成物理螺紋。2
    發(fā)表于 05-27 19:05

    TCL 3D電視閃亮CEF 3D電視2010真的“火”了

    TCL 3D電視閃亮CEF 3D電視2010真的“火”了   3D電視機(jī)去年已經(jīng)嶄露頭角,它能否借《阿凡達(dá)》之勢(shì)今年大行其道呢?
    發(fā)表于 04-12 16:59 ?1124次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)(CNN無(wú)人駕駛中應(yīng)用的3D感知與物體檢測(cè)

    無(wú)人駕駛的感知部分作為計(jì)算機(jī)視覺(jué)的領(lǐng)域范圍,也不可避免地成為CNN發(fā)揮作用的舞臺(tái)。本文是無(wú)人駕駛技術(shù)系列的第八篇,深入介紹CNN卷積神經(jīng)網(wǎng)絡(luò))無(wú)人駕駛
    發(fā)表于 11-16 12:53 ?1.7w次閱讀
    <b class='flag-5'>卷積</b>神經(jīng)網(wǎng)絡(luò)(<b class='flag-5'>CNN</b>)<b class='flag-5'>在</b>無(wú)人駕駛中應(yīng)用的<b class='flag-5'>3D</b>感知與物體檢測(cè)

    基于3D-CNN的無(wú)參考視頻質(zhì)量評(píng)價(jià)方法

    無(wú)參考視頻質(zhì)量評(píng)價(jià)(NR-VQA)無(wú)法獲得原始高質(zhì)量視頻參照的前提下,對(duì)失真視頻的視覺(jué)質(zhì)量進(jìn)行定量度量.常規(guī)NR-VQA方法通常針對(duì)特定失真類型設(shè)計(jì),或者與人的主觀感受存在偏差.首次將3D深度卷積
    發(fā)表于 01-03 10:18 ?2次下載

    3D卷積神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別

    傳統(tǒng)2D卷積神經(jīng)網(wǎng)絡(luò)對(duì)于視頻連續(xù)幀圖像的特征提取容易丟失目標(biāo)時(shí)間軸上的運(yùn)動(dòng)信息,導(dǎo)致識(shí)別準(zhǔn)確度較低。為此,提出一種基于多列深度3D卷積神經(jīng)網(wǎng)絡(luò)(3D
    發(fā)表于 01-30 13:59 ?2次下載
    <b class='flag-5'>3D</b><b class='flag-5'>卷積</b>神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別

    MIT:使用深度卷積神經(jīng)網(wǎng)絡(luò)提高稀疏3D激光雷達(dá)的分分辨率

    為了提高稀疏3D激光雷達(dá)捕獲點(diǎn)云的分辨率,MIT的研究人員通過(guò)研究,將這個(gè)問(wèn)題從3D問(wèn)題轉(zhuǎn)換為2D圖像空間中的圖像超分辨率問(wèn)題,使用深度卷積
    發(fā)表于 05-17 09:47 ?2225次閱讀

    3D的感知技術(shù)及實(shí)踐

    測(cè)量表面法向量估計(jì) 幾何測(cè)量平面提取 3D重建從離散點(diǎn)云得到光滑曲面 3D重建ICP點(diǎn)云配準(zhǔn) 3D重建SDF表面重建 應(yīng)用例子:從稀疏的點(diǎn)云中,構(gòu)造出可以
    的頭像 發(fā)表于 10-23 09:40 ?3625次閱讀
    <b class='flag-5'>3D</b>的感知技術(shù)及實(shí)踐

    基于圖卷積的層級(jí)圖網(wǎng)絡(luò)用于基于點(diǎn)云的3D目標(biāo)檢測(cè)

    (例如稀疏性),所以一些關(guān)鍵的語(yǔ)義信息(如物體形狀)不能被很好的捕捉到。本文提出了一種基于層級(jí)圖網(wǎng)絡(luò)(HGNet)的 圖卷積 (GConv),可以直接將點(diǎn)云作為輸入來(lái)預(yù)測(cè) 3D 的邊界框。形狀注意圖
    的頭像 發(fā)表于 06-21 12:15 ?6520次閱讀
    基于圖<b class='flag-5'>卷積</b>的層級(jí)圖網(wǎng)絡(luò)用于基于點(diǎn)云的<b class='flag-5'>3D</b>目標(biāo)檢測(cè)

    3D姿態(tài)估計(jì) 時(shí)序卷積+半監(jiān)督訓(xùn)練

    在這項(xiàng)工作中,視頻中的3D姿態(tài)可以通過(guò)全卷積模型來(lái)估計(jì),具體是二維關(guān)鍵點(diǎn)上通過(guò)空洞時(shí)間卷積的模型得到3D姿態(tài)。我們還介紹了一種不...
    的頭像 發(fā)表于 12-08 22:54 ?1278次閱讀

    CCV 2023 | SparseBEV:高性能、全稀疏的純視覺(jué)3D目標(biāo)檢測(cè)器

    本文介紹3D 目標(biāo)檢測(cè)領(lǐng)域的新工作:SparseBEV。我們所處的 3D 世界是稀疏的,因此稀疏 3D
    的頭像 發(fā)表于 09-19 10:00 ?1483次閱讀
    CCV 2023 | SparseBEV:高性能、全<b class='flag-5'>稀疏</b>的純視覺(jué)<b class='flag-5'>3D</b>目標(biāo)檢測(cè)器

    模擬中使用ESD保護(hù)裝置作為3D模型

    電子發(fā)燒友網(wǎng)站提供《模擬中使用ESD保護(hù)裝置作為3D模型.pdf》資料免費(fèi)下載
    發(fā)表于 02-13 14:35 ?0次下載
    <b class='flag-5'>在</b>模擬<b class='flag-5'>中使</b>用ESD保護(hù)裝置作為<b class='flag-5'>3D</b>模型