99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

FGIA 中的主要問題和挑戰(zhàn)

lviY_AI_shequ ? 來源:YXQ ? 2019-07-23 16:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在本文中,來自曠視科技、南京大學和早稻田大學的研究者對基于深度學習的細粒度圖像分析進行了綜述,從細粒度圖像識別、檢索和生成三個方向展開論述。此外,他們還對該領域未來的發(fā)展方向進行了討論。

計算機視覺(CV)是用機器來理解和分析圖像的過程,是人工智能中一個重要分支。在 CV 的各個研究領域中,細粒度圖像分析(fine-grained image analysis, FGIA)是一個長期存在的基礎性問題,而且在各種實際應用(比如鳥的種類、汽車模型、商品識別等)中無處不在。由細粒度特性造成的類間(inter-class)小變化和類內(nèi)(intra-class)大變化使得這一問題具有極大的挑戰(zhàn)性。由于深度學習的蓬勃發(fā)展,近年來應用了深度學習的 FGIA 取得了顯著的進步。

本文系統(tǒng)地對基于深度學習的 FGIA 技術進行了綜述。具體來說,本文將針對 FGIA 技術的研究分為三大類:細粒度圖像識別、細粒度圖像檢索和細粒度圖像生成。本文還討論了其他 FGIA 的重要問題,比如公開可用的基準數(shù)據(jù)集及其在相關領域的特定應用。本文在結尾處強調(diào)了未來仍需進一步探討的幾個方向以及待解決的問題。

綜述結構。

在環(huán)太平洋國家舉辦的另一個重要的 AI 會議中,本文作者(魏秀參、吳建鑫)針對細粒度圖像分析組織了具體的教程。該教程中提供了一些關于細粒度圖像分析的額外的細節(jié)信息,所以在此向想深入了解的讀者推薦該教程。

此外,論文作者還開放了一個細粒度圖像分析的主頁,內(nèi)含代表性論文、代碼、數(shù)據(jù)集等。

背景:FGIA 中的主要問題和挑戰(zhàn)

FGIA 與一般的圖像分析之間的區(qū)別在于:在一般的圖像分析中,目標對象屬于粗粒度的元類別(例如:鳥、橙子和狗),因此它們看起來非常不同。但在 FGIA 中,由于對象都屬于一個元類別的子類,細粒度的特性導致它們看起來非常相似。我們以圖像識別為例。如圖 1 所示。

圖 1:細粒度圖像分析(右)與一般的圖像分析(左)

此外,細粒度特性也會導致由子類別高度相似而造成的類間變化較小以及因姿勢、尺寸和角度等不同而造成的類內(nèi)變化大的問題,如圖 3 所示。

圖 3:細粒度圖像分析的關鍵挑戰(zhàn)

基準數(shù)據(jù)集

表 1:主流細粒度圖像數(shù)據(jù)集匯總

表 1 中列出了細粒度問題中常用的圖像數(shù)據(jù)集,并特地標出了它們的元類別、細粒度圖像的數(shù)量、細粒度類別的數(shù)量和額外可用的不同種類的監(jiān)督(即邊界框、部位注釋、層次標簽、屬性標簽以及文本視覺描述等),參見圖 5。

圖 5:帶有 CUB200-2011 監(jiān)督信息的示例圖像

細粒度圖像識別

這些細粒度識別方法可以總結為三個范式:(1)用定位分類子網(wǎng)絡進行細粒度識別;(2)用端到端的特征編碼進行細粒度識別;(3)用外部信息進行細粒度識別。

其中,第一個范式和第二個范式只用和細粒度圖像相關的監(jiān)督(比如圖像標簽、邊界框以及部分注釋等)進行了限制。此外,由于細粒度存在的挑戰(zhàn),自動識別系統(tǒng)還不能實現(xiàn)良好的性能。因此,研究人員逐漸試著在細粒度識別問題中融入外部但易于獲得的信息(比如網(wǎng)頁數(shù)據(jù)、文本描述等)來進一步提升準確率,這對應了細粒度識別的第三個范式。細粒度識別中常用的評估指標是數(shù)據(jù)集所有從屬類別的平均分類準確率。

4.1 用定位分類子網(wǎng)絡進行細粒度識別

為了緩解類內(nèi)變化較大的問題,細粒度社區(qū)注重捕獲細粒度對象具有辨別性的語義部分,然后再建立和這些語義部分相關的中級表征用于最后的分類。具體而言,研究人員為了定位這些關鍵部位,設計出了定位子網(wǎng)絡。之后再連接一個用于識別的分類子網(wǎng)絡。這兩個子網(wǎng)絡合作組成的框架就是第一個范式,也就是用定位分類子網(wǎng)絡進行細粒度識別。

有了定位信息(比如部位邊界框或分割掩碼),就可以獲得更有辨別力的中級(部位)表征。此外,它還進一步提高了分類子網(wǎng)絡的學習能力,這可以顯著增強最終識別的準確率。

屬于這一范式的早期工作依賴于額外的密集部位注釋(又稱關鍵點定位)來定位目標的語義關鍵部位(例如頭部、軀干)。它們中的一些學習了基于部位的檢測器 [Zhang et al.,2014;Lin et al.,2015a],還有一些利用分割方法來定位部位。然后,這些方法將多個部位特征當做整個圖像的表征,并將其饋送到接下來的分類子網(wǎng)絡中進行最終的識別。因此,這些方法也稱為基于部位的識別方法。

但這樣的密集部位注釋是勞動密集型工作,限制了細粒度應用在現(xiàn)實世界中的可擴展性和實用性。最近還出現(xiàn)了一種趨勢,在這種范式下,更多只需要圖像標簽 [Jaderberg et al.,2015;Fu et al.,2017;Zheng et al.,2017;Sun et al.,2018] 就可以準確定位這些部位的技術出現(xiàn)了。它們共同的思路是先找到相對應的部位,然后再比較它們的外觀。具體而言,我們希望能捕獲到在細粒度類別中共享的語義部位(比如頭部和軀干),同時還希望發(fā)現(xiàn)這些部位表征之間的微小差別。像注意力機制 [Yang et al.,2018] 和多階段策略 [He 和 Peng,2017b] 這樣的先進技術可以對集成的定位分類子網(wǎng)絡進行復雜的聯(lián)合訓練。

4.2 用端到端的特征編碼進行細粒度識別

和第一個范式不同,第二個范式是端到端特征編碼,它是通過開發(fā)用于細粒度識別的強大深度模型來直接學習更具辨別力的表征實現(xiàn)的。這些方法中最具代表性的方法是雙線性 CNN(Bilinear CNNs[Lin et al.,2015b]),它用來自兩個深度 CNN 池化后的特征的外積來表征圖像,從而對卷積激活的高階統(tǒng)計量進行編碼,以增強中級學習能力。由于其模型容量較高,雙線性 CNN 在細粒度識別中實現(xiàn)了優(yōu)良的性能。但雙線性特征的維度極高,因此它無法在現(xiàn)實世界中應用,尤其是大規(guī)模應用。

最近也有一些嘗試解決這一問題的工作,比如 [Gao et al.,2016;Kong 和 Fowlkes,2017;Cui et al.,2017],[Pham 和 Pagh,2013;Charikar et al.,2002] 試著用張量草圖(tensor sketching)來聚合低維嵌入,該方法可以近似雙線性特征,還可以保持相當程度或更高的準確率。其他工作,比如 [Dubey et al.,2018] 則專門為細粒度量身設計了特定的損失函數(shù),它可以驅(qū)動整個深度模型學習具有辨別性的細粒度表征。

4.3 用外部信息進行細粒度識別

如前文所述,除了傳統(tǒng)的識別范式外,另一種范式是利用外部信息(比如網(wǎng)絡數(shù)據(jù)、多模態(tài)數(shù)據(jù)或人機交互)來進一步幫助細粒度識別。詳細內(nèi)容參見論文。

細粒度圖像檢索

除了圖像識別,細粒度檢索是 FGIA 的另一個重要方面,它也是當前的研究熱點。在細粒度檢索中,常用的評估指標是平均精度均值(mean average precision,mAP)。在細粒度圖像檢索中,給出同一個子類(比如鳥類或車類)的數(shù)據(jù)庫圖像和要查詢的圖像,它可以在不依賴任何其他監(jiān)督信號的情況下,返回與查詢圖像屬于同一類別的圖像,如圖 7 所示。

圖 7:細粒度檢索圖示。

一般的圖像檢索是基于圖像內(nèi)容(比如紋理、顏色和形狀)的相似性來檢索非常相似的圖像,而細粒度檢索則側重于檢索屬于同一類別(比如同一物種的生物或一種車型)的圖像。同時,細粒度圖像中目標的差別很小,而在姿勢、尺寸以及角度等方面存在差異。

[Wei et al.,2017] 首次試著用深度學習進行細粒度圖像檢索。該模型用預訓練的 CNN 模型,在無監(jiān)督的情況下,通過在細粒度圖像中定位主要目標選出了有意義的深度描述符,進一步揭示了只用去除背景或噪聲的深度描述符可以顯著提高檢索任務的性能。為了打破通過預訓練模型進行無監(jiān)督細粒度檢索的局限性,一些實驗 [Zheng et al.,2018;Zheng et al.,2019] 傾向于在有監(jiān)督指標學習范式下,研究出全新的損失函數(shù)。與此同時,他們還為細粒度目標量身設計了額外的特定子模塊,例如,[Zheng et al.,2018] 受 [Wei et al.,2017] 啟發(fā)后提出的弱監(jiān)督定位模塊。

細粒度圖像生成

除了監(jiān)督學習任務,圖像生成也是無監(jiān)督學習中的代表性主題。它用像 GAN[Goodfellow et al.,2014] 這樣的深度生成模型來學習合成看起來很真實的逼真圖像。隨著生成圖像的質(zhì)量越來越高,更具挑戰(zhàn)性的任務——細粒度圖像生成,出現(xiàn)了。顧名思義,細粒度生成可以在細粒度類別(比如特定人物的面部或從屬類別中的對象)中合成圖像。

這方面的第一項工作是 [Bao et al.,2017] 提出的 CVAE-GAN,它將變分自編碼器和條件生成過程下的生成對抗網(wǎng)絡結合在一起,來解決這一問題。具體而言,CVAE-GAN 將圖像建模成概率模型中的標簽和隱含屬性的組合。通過改變饋入生成模型的細粒度類別,它就可以生成特定類別的圖像。最近,根據(jù)文本描述生成圖像 [Xu et al.,2018b] 因其多樣化和實用性(如藝術生成和計算機輔助設計)而流行起來。執(zhí)行配備了注意力的生成網(wǎng)絡后,模型可以根據(jù)文本描述中的相關細節(jié)來合成細微區(qū)域的細粒度細節(jié)。

與細粒度圖像分析相關領域的特定應用

在真實世界中,基于深度學習的細粒度圖像分析技術在不同領域中都得到了應用,并表現(xiàn)出了很好的性能,例如在推薦系統(tǒng)中檢索衣服或鞋 [Song et al.,2017],在電子商務平臺上識別時尚圖像 [Wei et al.,2016] 以及在智能零售平臺中識別產(chǎn)品 [Wei et al.,2019a] 等。這些應用都和 FGIA 的細粒度檢索與識別高度相關。

此外,如果我們向下移動粒度范圍,極端點說,也可以將人臉識別看作細粒度識別的實例,在這個例子中粒度降到了身份粒度級別之下。此外,人員或機動車的再識別也是細粒度的一項相關任務,這項任務的目標是確定兩張圖像是否屬于同一個特定的人或機動車。顯然,再識別任務的粒度等級也在身份粒度之下。

在實際應用中,這些工作都遵循了 FGIA 的思路,來解決相關領域的特定任務,F(xiàn)GIA 的思路包括捕獲目標極具辨別性的部位(人臉、人和機動車)[Suh et al.,2018]、發(fā)現(xiàn)由粗到細的結構信息 [Wei et al.,2018b] 以及開發(fā)基于屬性的模型 [Liu et al.,2016] 等等。

未來的方向

在這一部分,研究者明確指出了 FGIA 相關領域中尚未解決的問題,以及一些未來的研究趨勢。

自動細粒度模型

AutoML 和 NAS 的最新方法在計算機視覺的各種應用中都取得了和手工設計架構相媲美、甚至更好的結果。因此,希望可以利用 AutoML 或 NAS 技術開發(fā)自動細粒度模型,有望找到更好、更合適的深度模型,同時也可以反向促進 AutoML 和 NAS 研究的進步。

細粒度 few-shot 學習

我們最好的深度學習細粒度系統(tǒng)需要成百上千個標記好的樣本。更糟的是,細粒度圖像的監(jiān)督不僅耗時而且昂貴,因為細粒度目標是由該領域的專家做準確標記的。因此,現(xiàn)實應用迫切需要開發(fā)出基于小樣本的細粒度學習方法(fine-grained few-shot,F(xiàn)GFS)[Wei et al.,2019b]。FGFS 任務需要學習系統(tǒng)以元學習的方式,根據(jù)少量(只有一個或少于五個)樣本構建針對全新細粒度類別的分類器。魯棒的 FGFS 方法可以很大程度上地增強細粒度識別的可用性和可擴展性。

細粒度哈希

在像細粒度圖像檢索這樣的實際應用中,會自然地出現(xiàn)這樣的問題——在參考數(shù)據(jù)非常大的情況下,找到準確的最近鄰的成本是非常高的。哈希 [Wang et al.,2018;Li et al.,2016] 是近似最近鄰搜索中最流行也最有效的技術之一,它有處理大量細粒度數(shù)據(jù)的潛力。因此,細粒度哈希是 FGIA 中值得進一步探索的方向。

在更實際的環(huán)境中進行細粒度分析

細粒度圖像分析還有許多新穎的主題——用域自適應進行細粒度分析、用知識遷移進行細粒度分析、用長尾分布進行細粒度分析以及在資源受限的嵌入設備上運行細粒度分析等。這些更高級也更實際的 FGIA 都很值得進行大量的研究工作。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 深度學習
    +關注

    關注

    73

    文章

    5561

    瀏覽量

    122823
  • 曠視科技
    +關注

    關注

    1

    文章

    154

    瀏覽量

    11650

原文標題:超全深度學習細粒度圖像分析:項目、綜述、教程一網(wǎng)打盡

文章出處:【微信號:AI_shequ,微信公眾號:人工智能愛好者社區(qū)】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    淺談辰達MOSFET在USB PD快充電源的應用挑戰(zhàn)與應對

    在USBPD快充電源設計,MOSFET作為功率控制與轉(zhuǎn)換的核心器件,發(fā)揮著關鍵作用。隨著充電功率向65W、100W甚至更高邁進,對MOSFET的性能提出了更嚴苛的挑戰(zhàn)。本文將從應用挑戰(zhàn)出發(fā),結合
    的頭像 發(fā)表于 07-08 09:43 ?107次閱讀
    淺談辰達MOSFET在USB PD快充電源<b class='flag-5'>中</b>的應用<b class='flag-5'>挑戰(zhàn)</b>與應對

    LPCVD方法在多晶硅制備的優(yōu)勢與挑戰(zhàn)

    本文圍繞單晶硅、多晶硅與非晶硅三種形態(tài)的結構特征、沉積技術及其工藝參數(shù)展開介紹,重點解析LPCVD方法在多晶硅制備的優(yōu)勢與挑戰(zhàn),并結合不同工藝條件對材料性能的影響,幫助讀者深入理解硅材料在先進微納制造的應用與工藝演進路徑。
    的頭像 發(fā)表于 04-09 16:19 ?799次閱讀
    LPCVD方法在多晶硅制備<b class='flag-5'>中</b>的優(yōu)勢與<b class='flag-5'>挑戰(zhàn)</b>

    動力電池測試的直流負載挑戰(zhàn)與應對策略

    一、背景與挑戰(zhàn) 動力電池作為電動汽車的核心部件,其性能測試需模擬真實工況下的直流負載特性。然而,在測試過程,直流負載的高功率、動態(tài)響應及精度要求帶來多重技術挑戰(zhàn): 高功率與能量密度矛盾:大容量
    發(fā)表于 04-02 16:05

    智慧路燈的推廣面臨哪些挑戰(zhàn)?

    引言 在智慧城市建設的宏偉藍圖中,叁仟智慧路燈的推廣面臨哪些挑戰(zhàn)?叁仟智慧路燈作為重要的基礎設施,承載著提升城市照明智能化水平、實現(xiàn)多功能集成服務的使命。然而,盡管叁仟智慧路燈前景廣闊,在推廣過程
    的頭像 發(fā)表于 03-27 17:02 ?291次閱讀

    MEMS工藝制造的首要挑戰(zhàn):揭秘頭號大敵

    MEMS技術發(fā)展的一個重要問題,MEMS 器件的殘余應力會對器件的性能以及可靠性產(chǎn)生重要影響。根據(jù)其產(chǎn)生的原因,一般可將殘余應力分為本征應力和熱失配應力兩大類。本征應力的成因比較復雜,主要
    的頭像 發(fā)表于 02-17 10:27 ?597次閱讀
    MEMS工藝制造<b class='flag-5'>中</b>的首要<b class='flag-5'>挑戰(zhàn)</b>:揭秘頭號大敵

    目前GaN正逐漸廣泛應用的四個主要電壓領域

    這篇技術文章由德州儀器(TEXAS INSTRUMENTS)的 Srijan Ashok 撰寫,主要介紹了電壓氮化鎵(GaN)在四種應用領域的優(yōu)勢和應用情況,強調(diào)其對電子設計轉(zhuǎn)型的推動
    的頭像 發(fā)表于 02-14 14:12 ?629次閱讀
    目前GaN正逐漸廣泛應用的四個<b class='flag-5'>主要</b><b class='flag-5'>中</b>電壓領域

    生產(chǎn)HDI線路板需要解決的主要問

    生產(chǎn)HDI(高密度互連)線路板是一個復雜且技術密集的過程,涉及多個環(huán)節(jié)需要克服的挑戰(zhàn)。以下是生產(chǎn)HDI線路板過程需要解決的一些主要問題: 1. 材料的熱膨脹系數(shù)差異導致的應力問題 問題描述:HDI
    的頭像 發(fā)表于 12-09 16:49 ?811次閱讀

    如何在電路優(yōu)化GND連接 GND在高頻應用挑戰(zhàn)

    在電路優(yōu)化GND連接以及應對GND在高頻應用挑戰(zhàn),是確保電路性能穩(wěn)定、減少干擾和噪聲的關鍵環(huán)節(jié)。以下是對這兩個方面的介紹: 一、優(yōu)化GND連接的方法 使用適當?shù)牟季旨夹g : 在PCB設計
    的頭像 發(fā)表于 11-29 15:25 ?2070次閱讀

    射頻應用挑戰(zhàn)與解決方案

    應用構成的挑戰(zhàn)。本文將提出一個簡單的問題:鑒于受噪聲“污染”的電源可能會破壞您的信號,那您將如何保持電源軌的“清潔”?
    的頭像 發(fā)表于 11-20 17:13 ?1464次閱讀
    射頻應用<b class='flag-5'>中</b>的<b class='flag-5'>挑戰(zhàn)</b>與解決方案

    深度學習RNN的優(yōu)勢與挑戰(zhàn)

    挑戰(zhàn)。 RNN的優(yōu)勢 1. 處理序列數(shù)據(jù)的能力 RNN的核心優(yōu)勢在于其能夠處理序列數(shù)據(jù)。與只能處理固定大小輸入的前饋神經(jīng)網(wǎng)絡不同,RNN可以處理任意長度的序列。這對于自然語言處理(NLP)和語音識別等任務至關重要,因為這些任務的輸入數(shù)據(jù)
    的頭像 發(fā)表于 11-15 09:55 ?1342次閱讀

    DCS系統(tǒng)實施的常見挑戰(zhàn)

    在現(xiàn)代工業(yè)自動化,分布式控制系統(tǒng)(DCS)扮演著至關重要的角色。它通過集成的控制網(wǎng)絡,實現(xiàn)了對工廠或生產(chǎn)過程的高效監(jiān)控和控制。然而,DCS系統(tǒng)的實施并非沒有挑戰(zhàn)。 一、技術整合挑戰(zhàn) 兼容性
    的頭像 發(fā)表于 11-13 09:20 ?1362次閱讀

    數(shù)字孿生技術實施挑戰(zhàn)

    。然而,盡管數(shù)字孿生技術潛力巨大,但在實施過程也面臨著不少挑戰(zhàn)。 1. 數(shù)據(jù)采集與集成 數(shù)字孿生的構建始于對物理實體的全面數(shù)據(jù)采集。這包括傳感器數(shù)據(jù)、操作數(shù)據(jù)、環(huán)境數(shù)據(jù)等。數(shù)據(jù)的采集需要高精度和高頻率,以確保數(shù)字
    的頭像 發(fā)表于 10-25 14:53 ?1553次閱讀

    智能駕駛的挑戰(zhàn)與機遇

    智能駕駛作為未來交通運輸發(fā)展的重要方向,正逐步進入大眾視野,并帶來了諸多機遇與挑戰(zhàn)。以下是對智能駕駛的挑戰(zhàn)與機遇的分析: 智能駕駛的挑戰(zhàn) 技術挑戰(zhàn) : 傳感器性能受限 :激光雷達、攝像
    的頭像 發(fā)表于 10-23 16:00 ?1624次閱讀

    窄像素間距矩陣LED顯示屏的常見LED顯示挑戰(zhàn)

    電子發(fā)燒友網(wǎng)站提供《窄像素間距矩陣LED顯示屏的常見LED顯示挑戰(zhàn).pdf》資料免費下載
    發(fā)表于 09-05 10:57 ?0次下載
    窄像素間距矩陣LED顯示屏<b class='flag-5'>中</b>的常見LED顯示<b class='flag-5'>挑戰(zhàn)</b>

    康謀分享 | 在基于場景的AD/ADAS驗證過程,識別挑戰(zhàn)性場景!

    基于場景的驗證是AD/ADAS系統(tǒng)開發(fā)過程的重要步驟,然而面對海量駕駛記錄數(shù)據(jù)時,如何實現(xiàn)自動且高效地識別、分類和提取駕駛記錄挑戰(zhàn)性場景?本文康謀為您介紹IVEX軟件識別挑戰(zhàn)性場
    的頭像 發(fā)表于 08-28 10:16 ?1430次閱讀
    康謀分享 | 在基于場景的AD/ADAS驗證過程<b class='flag-5'>中</b>,識別<b class='flag-5'>挑戰(zhàn)</b>性場景!