01
文章摘要
鋪設(shè)異常檢測可以幫助減少數(shù)據(jù)存儲、傳輸、標記和處理的壓力。本論文描述了一種基于Transformer和自監(jiān)督學習的新方法,有助于定位異常區(qū)域。實驗結(jié)果顯示,自監(jiān)督學習可以提高在小型未標記圖像數(shù)據(jù)集上的性能。Transformer被證明在路面損壞檢測領(lǐng)域是適用的。文章構(gòu)建的類似于人臉識別的框架可以通過將新的補丁放入圖庫中來增強性能,而移除相似的補丁不會影響識別結(jié)果。該方法足夠高效和小型化,以支持實時工作,并且可以直接應(yīng)用于邊緣檢測。
02
主要工作與貢獻
- 該論文提出了一種新穎的方法,將Transformer模型和自監(jiān)督學習相結(jié)合,用于路面異常檢測。Transformer是一種強大的神經(jīng)網(wǎng)絡(luò)架構(gòu),用于處理序列數(shù)據(jù),在該研究中被應(yīng)用于圖像數(shù)據(jù),并取得了顯著的成果。
- 監(jiān)督學習是一種無需人工標注的學習方法,可以從未標記的數(shù)據(jù)中學習有用的特征。該論文展示了自監(jiān)督學習在小型未標記圖像數(shù)據(jù)集上的應(yīng)用,并證明它能夠顯著提高性能。
- 研究人員構(gòu)建了一個類似于人臉識別的框架,通過將新的圖像補丁加入圖庫中,來增強路面異常檢測的性能。這種方法能夠在不進行訓練的情況下實現(xiàn)性能的提升。
- 該方法被證明足夠高效和小型化,能夠支持實時工作,因此可以在實際應(yīng)用中進行邊緣檢測和路面異常監(jiān)測。
03
所提方法
Transformer可能比CNN更好,因為Transformer天然具有全局感受野,可以捕捉長距離像素之間的關(guān)系。自注意力機制可能有助于解決缺乏數(shù)據(jù)的問題,因為在類似條件下,MAE(掩碼自編碼器)表現(xiàn)良好。本論文將自監(jiān)督學習和Transformer應(yīng)用于路面異常檢測。使用ViT-S的自監(jiān)督學習來重構(gòu)未標記的路面圖像,并提出了一種編碼-檢索-匹配的路面異常檢測方法來解決分類重訓練的問題。文章方法的框架如圖1所示。主要由兩個部分組成:圖庫和編碼器。首先,圖像將被劃分為幾個補丁,并且典型的補丁將被添加到圖庫中。這將降低分辨率并減少背景像素。在模型訓練完成后,將提取編碼器部分。所有的補丁都可以被編碼成特征向量。一旦向量被編碼,計算它們之間的距離得到一個距離向量(一列)。最后,將找到與預測類別最接近的補丁。
圖1 論文方法總體架構(gòu)
01.編碼器
圖2 ViT架構(gòu)
ViT是Transformer在計算機視覺領(lǐng)域的第一個成功應(yīng)用,它簡單地將圖像劃分為補丁作為輸入序列,以便Transformer能夠處理。參考了BERT,ViT在其中添加了一個[class]標記來融合用于分類的信息。如圖2所示,ViT首先通過平均劃分輸入來獲取圖像補丁,然后進行線性投影以獲取圖像標記。一旦生成了標記,將添加位置嵌入以恢復丟失的位置信息。然后,它們將被輸入到Transformer編碼器中。最后,只有[class]標記將在分類中使用。多頭注意力機制可以用公式(1)來描述。
其中,n表示嵌入的數(shù)量,Zh是第h個注意頭的輸出,dk表示K的維度。嵌入E和可學習權(quán)重W進行點積運算,以得到查詢(Query)Q,鍵(Key)K和值(Value)V。
最終輸出是可學習權(quán)重和Z(堆疊Zh)的點生成。不同頭部的權(quán)重是獨立的,以確保從各種表示子空間中提取特征。整個過程可以大致描述為等式(2)-(5)。
其中Z0表示輸入向量,Y是用于分類的圖像表示。Z0L是Z的位置0上的標記(也稱為[class]標記)。LN表示層標準化。
02.Drop path
文章采用“drop path” 作為一種規(guī)范化方法來防止過擬合。簡單來說,它會根據(jù)預先確定的概率隨機地禁用每一層之間的路徑,至少保留一條路徑。在實現(xiàn)中,對于每一層的多個輸入,會隨機丟棄一些輸入。這個效果類似于模型集成,其中不同的路徑組合意味著不同的子網(wǎng)絡(luò),而在預測時不會丟棄路徑來將它們組合起來。
03.監(jiān)督學習
在實驗中,文章使用圖像補丁作為輸入,輸出為正?;虍惓?。因此,這是一個二元分類任務(wù);輸出值是介于0到1之間的sigmoid輸入得分。數(shù)值越接近0,輸入越有可能是異常(類別0)。相反,越接近1,輸入越有可能是正常的(類別1)。在訓練過程中,sigmoid得分(x)與真實值(y)之間的差距越大,二元交叉熵損失就越大。在模型用于推斷時,會設(shè)置一個閾值(通常為0.5)。當sigmoid得分低于閾值時,輸入被視為異常,反之亦然。
04.自監(jiān)督學習
MAE是一種基于部分掩膜圖像的像素級重建任務(wù)的方法。編碼器僅對可見的補丁進行編碼。編碼完成后,[mask]標記將添加到相應(yīng)的位置。解碼器將接收所有標記作為輸入進行重建。
MAE的關(guān)鍵方面可以分為四個部分:掩膜策略、編碼器、解碼器和重建目標。掩膜策略通常選擇隨機掩膜,掩膜比例較大。在這種情況下,被掩膜部分占據(jù)了圖像的大部分區(qū)域,很難找到掩膜周圍的未掩膜區(qū)域,迫使模型學習不依賴局部信息。文章選擇純粹的ViT作為編碼器,因為它沒有引入過多的修改,導致對特定領(lǐng)域過擬合,并且重建目標是均方損失。
05.類似面部識別的框架
通常,模型在超出其訓練數(shù)據(jù)分布范圍的數(shù)據(jù)上表現(xiàn)較差。不同地區(qū)之間存在明顯的道路差異,例如路面分類,將會降低模型的精度。文章從最佳ViT-S模型中提取編碼器作為幀中的編碼器。選擇第11、12、13、10、9、8和6列的圖像塊作為輸入,因為這些位置的異常概率較高。如果Sigmoid輸出低于某個閾值,該類別被認為是異常(類別0)。一旦預測為異常,整個輸入圖像都被視為異常。
04
實驗驗證
1
監(jiān)督學習結(jié)果
表1 ViT-S在不同DA和drop path下的精度比較
監(jiān)督學習的結(jié)果顯示在表格1和圖3、圖4中。表格1顯示數(shù)據(jù)增強(DAs)比隨機刪除路徑(drop paths)可以帶來更多的性能提升。從圖3和圖4可以看出,兩個模型在最后幾個周期開始過擬合。Resnet的結(jié)果較好,因為它收斂到一個更好的局部最優(yōu)點。CNN具有局部相關(guān)性等先驗知識,當數(shù)據(jù)較少時會導致這樣的結(jié)果。而Transformer沒有這樣的知識,因此需要從更多數(shù)據(jù)中進行學習。
圖3 resnet34的學習曲線
圖4 ViT–S的學習曲線
2
自我監(jiān)督學習結(jié)果
表2證明,在微調(diào)中應(yīng)用DA對于提高性能是必要的,因為最高精度主要取決于微調(diào),使模型適應(yīng)二進制分類任務(wù)。如果微調(diào)數(shù)據(jù)的數(shù)量不足,模型仍然會過擬合。根據(jù)有監(jiān)督和自監(jiān)督學習圖,MAE可以顯著加速收斂并提高精度。
表2 在不同位置應(yīng)用DA的準確性
3
可視化視角討論
文章使用GradCAM(梯度加權(quán)類激活映射)來直觀地分析文章的路面異常檢測算法。選擇了兩張分別具有兩種類型的明顯遇險的測試圖像。圖5圖6顯示了結(jié)果?;旌辖Y(jié)果意味著所有頭的平均值。圖中的響應(yīng)越高,它與分類的相關(guān)性就越大。圖6與無MAE的ViT相比,有MAE的ViT在遇險周圍有更集中的活動區(qū)域。這一事實支持了像MAE這樣的自監(jiān)督學習可以幫助模型在數(shù)據(jù)集幾乎沒有標記數(shù)據(jù)的情況下學習更好的表示。此外,我們可以看到,最后兩個區(qū)塊比其他區(qū)塊更關(guān)注遇險區(qū)域。有一些像Block_9這樣的塊具有統(tǒng)一的響應(yīng)。這一發(fā)現(xiàn)在圖5中更為明顯。
圖5 測試圖像A中ViT w/MAE的單獨結(jié)果
圖6 測試圖像A中ViT w/MAE和ViT w/o MAE的混合結(jié)果
05
結(jié)論
研究旨在快速檢測道路異常,以減少路面損壞識別、數(shù)據(jù)存儲和標注的工作量。通過驗證異常檢測任務(wù),自監(jiān)督學習對這個問題產(chǎn)生了顯著影響,其價值比數(shù)據(jù)增強(準確率為0.9268 vs 0.9183)更為重要。Transformer在道路領(lǐng)域適用,因為它具有捕捉長距離關(guān)系的強大能力。第二個重要發(fā)現(xiàn)是,通過定制畫廊,類似于人臉識別的框架可以快速識別不同的損壞類型?;赩iT(Visual Transformer)和MAE,本研究設(shè)計了一種新穎的方法來檢測異常的路面部分。
-
解碼器
+關(guān)注
關(guān)注
9文章
1174瀏覽量
41975 -
編碼器
+關(guān)注
關(guān)注
45文章
3796瀏覽量
138019 -
人臉識別
+關(guān)注
關(guān)注
77文章
4081瀏覽量
84255 -
計算機視覺
+關(guān)注
關(guān)注
9文章
1708瀏覽量
46775 -
Transformer
+關(guān)注
關(guān)注
0文章
151瀏覽量
6517
發(fā)布評論請先 登錄
使用MATLAB進行無監(jiān)督學習

適用于任意數(shù)據(jù)模態(tài)的自監(jiān)督學習數(shù)據(jù)增強技術(shù)

如何用卷積神經(jīng)網(wǎng)絡(luò)方法去解決機器監(jiān)督學習下面的分類問題?
基于半監(jiān)督學習的跌倒檢測系統(tǒng)設(shè)計_李仲年
基于半監(jiān)督學習框架的識別算法
機器學習算法中有監(jiān)督和無監(jiān)督學習的區(qū)別
自監(jiān)督學習與Transformer相關(guān)論文

最基礎(chǔ)的半監(jiān)督學習
半監(jiān)督學習最基礎(chǔ)的3個概念

為什么半監(jiān)督學習是機器學習的未來?
半監(jiān)督學習:比監(jiān)督學習做的更好
機器學習中的無監(jiān)督學習應(yīng)用在哪些領(lǐng)域

自監(jiān)督學習的一些思考

評論