99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

商湯科技及聯(lián)合實(shí)驗(yàn)室37篇論文入選,為你解讀精選論文

電子工程師 ? 來(lái)源:未知 ? 作者:李倩 ? 2018-09-17 09:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導(dǎo)讀】9 月 8 日-14 日,每?jī)赡昱e辦一次的 2018 歐洲計(jì)算機(jī)視覺(jué)大會(huì)(ECCV 2018)在德國(guó)慕尼黑召開(kāi),本次會(huì)議總共收到了 2439 篇有效的論文,相比上一屆 2016年會(huì)議增加了 65% ,其中有 776 篇被接受( 31.8 % )??梢哉f(shuō),今年是國(guó)內(nèi)各高校、企業(yè)研究機(jī)構(gòu)收獲豐富的一年,無(wú)論是過(guò)去的 CVPR、ICCV 大會(huì),都是華人的成果占據(jù)半壁江山,可見(jiàn)國(guó)內(nèi)計(jì)算機(jī)視覺(jué)這兩年來(lái)的迅猛的發(fā)展。

聚焦ECCV 2018

今年 ECCV 2018 大會(huì)共有 11 個(gè) Tutorial,討論的議題涵蓋目前熱門(mén)的方向:對(duì)抗性機(jī)器學(xué)習(xí);對(duì)人、物體和環(huán)境的超快三維感知、重建與理解;面部追蹤及其應(yīng)用、行人重識(shí)別的表征學(xué)習(xí)、視覺(jué)定位、視覺(jué)識(shí)別的前沿課題等。更過(guò)具體信息可訪(fǎng)問(wèn) workshops_tutorials 進(jìn)行了解。

https://eccv2018.org/program/workshops_tutorials/

在 ECCV 還沒(méi)有召開(kāi)之前,大家對(duì)優(yōu)秀論文的關(guān)注度就非常高,可以看到很多關(guān)于有突破、有意義研究成果的分享。例如:

Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images》

由騰訊 AI Lab 與復(fù)旦大學(xué)、普林斯頓大學(xué)、Intel Labs 合作提出一種端對(duì)端的深度學(xué)習(xí)框架,可從單張彩色圖片直接生成三維網(wǎng)格(3d mesh)。

《Recurrent Squeeze-and-Excitation Context Aggregation Net for Single Image Deraining》

北大已經(jīng)開(kāi)源的深度單圖去雨算法。圖像中雨水條紋會(huì)嚴(yán)重降低能見(jiàn)度,導(dǎo)致許多當(dāng)前的計(jì)算機(jī)視覺(jué)算法無(wú)法工作,比如在自動(dòng)駕駛場(chǎng)景下圖像去雨就變得非常重要。該文提出了一種基于深度卷積和遞歸神經(jīng)網(wǎng)絡(luò)的新型深度網(wǎng)絡(luò)體系結(jié)構(gòu),用于單圖像去雨。

華中科技大學(xué)白翔老師團(tuán)隊(duì)在自然場(chǎng)景文本檢測(cè)與識(shí)別領(lǐng)域成果頗豐。

《Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes》是其最新力作。引入 Mask R-CNN 思想通過(guò)語(yǔ)義分割進(jìn)行任意形狀文本檢測(cè)與識(shí)別。

MVSNet:非結(jié)構(gòu)化多視點(diǎn)三維重建網(wǎng)絡(luò)被 ECCV 2018 選為 Oral 的論文,來(lái)自香港科技大學(xué)和Altizure公司的研究團(tuán)隊(duì)提出了一種既高精度又高效率的三維重建網(wǎng)絡(luò)。

巴西阿雷格里港大學(xué)的學(xué)者發(fā)表于 ECCV 2018 的論文《License Plate Detection and Recognition in Unconstrained Scenarios》

給出了一整套完整的車(chē)牌識(shí)別系統(tǒng)設(shè)計(jì),著眼于解決在非限定場(chǎng)景有挑戰(zhàn)的車(chē)牌識(shí)別應(yīng)用,其性能優(yōu)于目前主流的商業(yè)系統(tǒng),代碼已經(jīng)開(kāi)源,非常值得參考。

今年,商湯科技及聯(lián)合實(shí)驗(yàn)室共有 37 篇論文入選,甚至超過(guò)了微軟、Google、Facebook 等國(guó)外科技巨頭公司。在大規(guī)模人臉與人體識(shí)別、物體檢測(cè)與跟蹤、自動(dòng)駕駛場(chǎng)景理解與分析、視頻分析、3D 視覺(jué)、底層視覺(jué)算法、視覺(jué)與自然語(yǔ)言的綜合理解等領(lǐng)域均有重大突破。這些新穎的計(jì)算機(jī)視覺(jué)算法不僅有著豐富的應(yīng)用場(chǎng)景,使得更多的智能視覺(jué)算法能應(yīng)用于日常生活之中,還為后續(xù)研究提供了可貴的經(jīng)驗(yàn)和方向。我們精選了部分論文進(jìn)行了解讀,感興趣的同學(xué)們可以進(jìn)一步研究。

大規(guī)模人臉與人體識(shí)別

▌1.人臉識(shí)別的瓶頸在于數(shù)據(jù)集噪聲(The Devil of Face Recognition is in the Noise)

隨著人臉數(shù)據(jù)集規(guī)模的逐漸擴(kuò)大,研究者們?cè)O(shè)計(jì)出了各種更快更強(qiáng)的人臉識(shí)別網(wǎng)絡(luò)。但是對(duì)于現(xiàn)有人臉數(shù)據(jù)集中的標(biāo)簽噪聲問(wèn)題,學(xué)界的理解依然有限。為了解決這個(gè)問(wèn)題,本文對(duì)于人臉識(shí)別領(lǐng)域作出以下貢獻(xiàn):

(1)清理出了現(xiàn)有大規(guī)模人臉數(shù)據(jù)集(包括 MegaFace 和 MS-Celeb-1M)的干凈子集,并提出了一個(gè)新的無(wú)噪聲人臉數(shù)據(jù)集 IMDb_Face;

(2)利用原始數(shù)據(jù)集以及清理后的干凈子集,對(duì) MegaFace 和 MS-Celeb-1M 數(shù)據(jù)集中的噪聲特性和來(lái)源做了全面的分析,發(fā)現(xiàn)干凈子集對(duì)于提高人臉識(shí)別精度效果顯著;

(3)本文提出了一種用于數(shù)據(jù)清理的標(biāo)注流程,大量的用戶(hù)調(diào)研顯示該流程是高效且可控的。

IMDb-Face 數(shù)據(jù)集開(kāi)源地址:

https://github.com/fwang91/IMDb-Face

▌2.基于模型共識(shí)的大規(guī)模無(wú)標(biāo)注數(shù)據(jù)標(biāo)簽傳播方法(Consensus-Driven Propagation in Massive Unlabeled D ata for Face Recognition)

人臉識(shí)別中,隨著深度學(xué)習(xí)模型參數(shù)量的增大,所需要訓(xùn)練數(shù)據(jù)的人工標(biāo)注量也越來(lái)越多。然而人工標(biāo)注的錯(cuò)誤難以避免,當(dāng)人工標(biāo)注的可靠性不如模型本身的時(shí)候,數(shù)據(jù)標(biāo)注所帶來(lái)的增益會(huì)遠(yuǎn)遠(yuǎn)低于標(biāo)注本身耗費(fèi)的勞動(dòng)量。此時(shí),需要使用一種合理的方式來(lái)利用無(wú)標(biāo)注數(shù)據(jù)。該問(wèn)題與“半監(jiān)督學(xué)習(xí)”任務(wù)相似,但在人臉識(shí)別這類(lèi)數(shù)據(jù)量和類(lèi)別數(shù)量都很大的任務(wù)中,則存在顯著的不同之處:

首先,真實(shí)情況下,無(wú)標(biāo)注數(shù)據(jù)的來(lái)源通常沒(méi)有限制,因此光照、姿態(tài)、遮擋等會(huì)有很大的差異,這種情況下基于單模型的半監(jiān)督方法會(huì)產(chǎn)生較大偏差。其次,傳統(tǒng)的半監(jiān)督學(xué)習(xí)通常假設(shè)無(wú)標(biāo)注數(shù)據(jù)的標(biāo)簽集合和已標(biāo)注數(shù)據(jù)的標(biāo)簽集合是完全重合的,從而標(biāo)簽可以在無(wú)標(biāo)注數(shù)據(jù)上進(jìn)行傳播。然而,在人臉識(shí)別任務(wù)中,由于無(wú)標(biāo)注數(shù)據(jù)來(lái)源無(wú)限制,因此無(wú)法保證獲取的無(wú)標(biāo)注數(shù)據(jù)的標(biāo)簽在已標(biāo)注數(shù)據(jù)中出現(xiàn)過(guò)。這些差異使得傳統(tǒng)的半監(jiān)督學(xué)習(xí)無(wú)法直接運(yùn)用在這個(gè)問(wèn)題上。

本文工作不僅突破了這些限制,還證明了無(wú)標(biāo)注數(shù)據(jù)可以達(dá)到和有標(biāo)注數(shù)據(jù)相接近的效果。作者用 9% 的有標(biāo)注數(shù)據(jù)和 91% 的無(wú)標(biāo)注數(shù)據(jù),在 MegaFace 上達(dá)到了 78.18% 的準(zhǔn)確性,接近使用了 100% 的有標(biāo)注數(shù)據(jù)的結(jié)果 78.52%。

論文地址:

http://cn.arxiv.org/abs/1807.11649

http://cn.arxiv.org/abs/1809.01407

物體檢測(cè)與跟蹤

▌1.量化模仿-訓(xùn)練面向物體檢測(cè)的極小CNN模型(Quantization Mimic: Towards Very Tiny CNN for Object Detection)

由于極小 CNN 模型有限的模型表達(dá)能力,訓(xùn)練針對(duì)復(fù)雜視覺(jué)任務(wù)(如物體檢測(cè))的極小 CNN 通常充滿(mǎn)挑戰(zhàn)。本文致力于提出一種簡(jiǎn)單而通用的框架—量化模仿,來(lái)訓(xùn)練面向物體檢測(cè)任務(wù)的極小 CNN 模型。在本文框架中,作者提出聯(lián)合模仿與量化的方法來(lái)減小物體檢測(cè) CNN 模型的參數(shù)量實(shí)現(xiàn)加速。模仿方法通過(guò)轉(zhuǎn)移教師網(wǎng)絡(luò)(teacher network)所學(xué)習(xí)到的物體檢測(cè)知識(shí),來(lái)增強(qiáng)學(xué)生網(wǎng)絡(luò)(student network)的物體檢測(cè)性能;量化方法在不降低模型檢測(cè)性能的條件下,將全精度網(wǎng)絡(luò)的參數(shù)進(jìn)行量化,實(shí)現(xiàn)網(wǎng)絡(luò)加速。如果大型教師網(wǎng)絡(luò)通過(guò)量化實(shí)現(xiàn)加速,那么小型學(xué)生網(wǎng)絡(luò)的搜索空間會(huì)大大降低。本文基于該性質(zhì),提出了先量化大型教師網(wǎng)絡(luò),然后使用學(xué)生網(wǎng)絡(luò)模仿量化后大型教師網(wǎng)絡(luò)的方法,實(shí)現(xiàn)面向物體檢測(cè)的極小型 CNN 模型的訓(xùn)練。本文使用了不同的主干網(wǎng)絡(luò)(VGG和ResNet)和不同的檢測(cè)框架(Faster R-CNN和R-FCN)充分檢驗(yàn)了該訓(xùn)練框架的性能和泛化能力。在有限計(jì)算量的限制下,該框架在 Pascal VOC 和 WIDER Face 數(shù)據(jù)集的物體檢測(cè)性能超越了當(dāng)前物體檢測(cè)的先進(jìn)水平。

▌2.可分解網(wǎng)絡(luò)--基于子圖表示的高效場(chǎng)景圖生成算法(Factorizable Net: An Efficient Subgraph-based Framework for Scene Graph Generation)

隨著計(jì)算機(jī)視覺(jué)的發(fā)展,場(chǎng)景圖生成得到越來(lái)越多業(yè)內(nèi)研究人員的關(guān)注。場(chǎng)景圖生成不僅需要檢測(cè)出來(lái)圖像中的物體,還需要識(shí)別物體之間的關(guān)系。與一般的物體檢測(cè)任務(wù)相比,場(chǎng)景圖因?yàn)橐肓宋矬w之間的兩兩關(guān)系,極大的擴(kuò)充了輸出結(jié)果的語(yǔ)義空間,因而可以蘊(yùn)含更多圖像的語(yǔ)義信息。但是,由于物體之間可能存在的關(guān)系數(shù)目和圖像中物體數(shù)目的平方成正比,而目前已有的場(chǎng)景圖生成算法往往對(duì)每一個(gè)可能存在的關(guān)系都用一個(gè)特征向量表示,因此大量的關(guān)系特征向量使模型過(guò)于龐大且緩慢,極大限制了物體候選框的數(shù)目。本文針對(duì)已有場(chǎng)景圖生成算法的缺點(diǎn),通過(guò)共享語(yǔ)義相近的關(guān)系特征(稱(chēng)為子圖特征),極大簡(jiǎn)化了網(wǎng)絡(luò)在中間階段的特征表示,并且提高了模型的檢測(cè)速度。此外,本文還提出了“空間加權(quán)信息傳遞”模塊和“空間感知關(guān)系檢測(cè)”模塊,使模型在信息傳遞和最終的物體關(guān)系檢測(cè)時(shí),能夠更加充分的利用物體之間的空間聯(lián)系,得到更好的物體檢測(cè)和關(guān)系識(shí)別結(jié)果。在目前主流的 VRD 和 Visual Genome 上的實(shí)驗(yàn)結(jié)果表明,本文提出的基于子圖特征的高效場(chǎng)景圖生成算法在識(shí)別精度和測(cè)試速度上均超過(guò)目前業(yè)內(nèi)最好結(jié)果。

算法的 PyTorch 版本開(kāi)原地址:

https://github.com/yikang-li/FactorizableNet

▌3.基于干擾對(duì)象感知的長(zhǎng)時(shí)單目標(biāo)跟蹤算法(Distractor-aware Siamese Networks for Visual Object Tracking)

近年來(lái),孿生網(wǎng)絡(luò)結(jié)構(gòu)因?yàn)樾阅芎退俣鹊钠胶庑栽诟欘I(lǐng)域受到了極大的關(guān)注。但是大多數(shù)的孿生網(wǎng)絡(luò)跟蹤器使用的特征都只能區(qū)分前景和非語(yǔ)義背景。而跟蹤過(guò)程中,也有語(yǔ)義的背景帶來(lái)的干擾,其通常是限制跟蹤性能的重要因素。在本文中,作者首先分析了訓(xùn)練過(guò)程中樣本對(duì)跟蹤過(guò)程的影響,發(fā)現(xiàn)正負(fù)樣本不均衡是導(dǎo)致跟蹤性能瓶頸的主要原因。本文從兩個(gè)角度解決這個(gè)問(wèn)題,訓(xùn)練過(guò)程中,通過(guò)控制采樣方式來(lái)控制正負(fù)訓(xùn)練樣本的分布,并且引入含有語(yǔ)義的負(fù)樣本;測(cè)試過(guò)程中提出干擾物感知模塊來(lái)調(diào)整跟蹤器,使其適應(yīng)當(dāng)前的視頻。除此之外,作者還設(shè)計(jì)了一種局部到全局的搜索區(qū)域增長(zhǎng)方法,將算法擴(kuò)展到長(zhǎng)期跟蹤。在 UAV20L、UAV123、VOT2016、VOT2017 數(shù)據(jù)集上,本文提出的方法均可取得目前最好的結(jié)果,同時(shí)速度可達(dá)到160FPS。

本文提出的方法在 ECCV 2018 召開(kāi)的 VOT Challenge Workshop上獲得了實(shí)時(shí)目標(biāo)跟蹤比賽的冠軍。

VOT Challenge 是視覺(jué)目標(biāo)跟蹤領(lǐng)域一年一度的國(guó)際權(quán)威比賽,其為跟蹤領(lǐng)域提供了精細(xì)的數(shù)據(jù)標(biāo)注和評(píng)測(cè)方式,并在 2017 年引入了實(shí)時(shí)比賽:被評(píng)測(cè)算法在跟蹤物體的同時(shí)必須保持至少 60fps 跟蹤速率,來(lái)模擬現(xiàn)實(shí)場(chǎng)景中的跟蹤情況。今年的 VOT 2018 在 ECCV 2018 期間舉辦,共有 72 只隊(duì)伍參賽,包括微軟亞洲研究院、牛津大學(xué)等知名企業(yè)與高校。商湯科技的參賽算法能夠在 60FPS 的速率下獲得精確的跟蹤結(jié)果,并且在其他兩項(xiàng)項(xiàng)目(普通跟蹤和長(zhǎng)時(shí)跟蹤)也獲得了驕人的成績(jī)。

論文地址:

http://cn.arxiv.org/abs/1805.02152

http://cn.arxiv.org/abs/1806.11538

http://cn.arxiv.org/abs/1808.06048?context=cs.CV

視頻分析

▌1.基于視覺(jué)特征鏈接和時(shí)序鏈接的視頻人物檢索

(Person Search in Videos with One Portrait Through Visual and Temporal Links)

雖然人臉識(shí)別和行人再識(shí)別已經(jīng)在學(xué)術(shù)界取得了非常多的研究成果,但是在復(fù)雜龐大的視頻數(shù)據(jù)庫(kù)中(如監(jiān)控視頻或電影數(shù)據(jù)庫(kù)),很多時(shí)候并不能看到人物清晰的正臉,這時(shí)人臉識(shí)別就無(wú)法發(fā)揮作用。而行人再識(shí)別關(guān)注的通常是一小段時(shí)間內(nèi)一個(gè)比較小的區(qū)域的行人匹配,也就是說(shuō)在行人再識(shí)別的問(wèn)題中,人物的服飾裝扮以及周?chē)沫h(huán)境都不會(huì)有太大的變化。該假設(shè)大大限制了行人再識(shí)別技術(shù)在實(shí)際場(chǎng)景中的應(yīng)用。針對(duì)這些缺陷,本文提出了一個(gè)更加貼近實(shí)際應(yīng)用的研究問(wèn)題--人物檢索,即給定一張人物正面照,在一個(gè)非常大的圖像(視頻)庫(kù)中檢索出該人物的所有實(shí)例。例如,給定一個(gè)犯人的畫(huà)像,在一個(gè)城市的監(jiān)控視頻中找出所有他/她出現(xiàn)過(guò)的視頻片段,或者給定一個(gè)演員的自拍,找出他/她在所有電影和電視劇中的鏡頭。為了研究這個(gè)問(wèn)題,本文首先建立了一個(gè)大規(guī)模的數(shù)據(jù)集--Cast Search in Movies (CSM),包含了 1218 位演員以及他們來(lái)自的 192 部電影的超過(guò) 12 萬(wàn)個(gè)短視頻。人物檢索問(wèn)題的主要難點(diǎn)在于,給定的圖像和該人物在數(shù)據(jù)庫(kù)中的實(shí)例在視覺(jué)觀感上有時(shí)有較大差別。為了應(yīng)對(duì)這個(gè)難點(diǎn),本文提出了一種基于基于特征和時(shí)序鏈接的標(biāo)簽傳播算法。并且提出了一種競(jìng)爭(zhēng)共識(shí)機(jī)制,來(lái)解決標(biāo)簽傳播中容易受噪聲影響的問(wèn)題。同時(shí)通過(guò)漸進(jìn)式迭代的方式,大大提高標(biāo)簽傳播的效率。實(shí)驗(yàn)證明,這種傳播算法在人物檢索中大大優(yōu)于單純應(yīng)用人臉識(shí)別和行人再識(shí)別技術(shù)。

論文地址:

http://cn.arxiv.org/abs/1807.10510

自動(dòng)駕駛場(chǎng)景理解與分析

▌1.基于逐點(diǎn)空間注意力機(jī)制的場(chǎng)景解析網(wǎng)絡(luò)(PSANet: Point-wise Spatial Attention Network for Scene Parsing)

場(chǎng)景解析(scene parsing)是基于自動(dòng)駕駛?cè)蝿?wù)中的一個(gè)重要問(wèn)題,能夠廣泛應(yīng)用于機(jī)器人導(dǎo)航、自動(dòng)駕駛等領(lǐng)域。場(chǎng)景圖像中的上下文信息(contextual information),尤其是大范圍的上下文信息,對(duì)于場(chǎng)景解析有著非常重要的作用。傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)因?yàn)槠浣Y(jié)構(gòu),信息流動(dòng)局限在當(dāng)前像素周?chē)木植繀^(qū)域中,對(duì)于大范圍的上下文信息獲取和表達(dá)能力有限。在本篇論文中,作者提出了一種逐點(diǎn)的空間注意力機(jī)制神經(jīng)網(wǎng)絡(luò)模塊(point-wise spatial attention network),來(lái)有效獲取圖片中大范圍的上下文信息,顯著改善神經(jīng)網(wǎng)絡(luò)的場(chǎng)景解析性能。針對(duì)視覺(jué)特征圖(feature map)中的每一點(diǎn)對(duì),該模塊會(huì)預(yù)測(cè)兩個(gè)點(diǎn)之間的上下文依賴(lài),且該預(yù)測(cè)會(huì)同時(shí)考慮到兩個(gè)點(diǎn)原本的語(yǔ)義信息以及兩個(gè)點(diǎn)之間的位置關(guān)系。最終預(yù)測(cè)出的點(diǎn)與點(diǎn)之間的上下文依賴(lài)關(guān)系,可以用逐點(diǎn)的注意力機(jī)制進(jìn)行表示。為了充分實(shí)現(xiàn)特征圖中大范圍的信息流通,作者設(shè)計(jì)了一種雙向信息流動(dòng)機(jī)制,來(lái)實(shí)現(xiàn)上下文信息的充分融合,提升模型的場(chǎng)景解析性能。實(shí)驗(yàn)表明,本文提出的逐點(diǎn)空間注意力模型能夠顯著改善基準(zhǔn)模型的場(chǎng)景解析性能,在多個(gè)場(chǎng)景解析與語(yǔ)義分割數(shù)據(jù)集上,本文算法都達(dá)到了當(dāng)前的最優(yōu)性能。

▌2.基于局部相似性的半監(jiān)督單目深度估計(jì)(Monocular Depth Estimation with Affinity, Vertical Pooling, and Label Enhancement)

單目深度估計(jì)在基于視覺(jué)傳感器的自動(dòng)駕駛和輔助駕駛?cè)蝿?wù)中有著重要的作用。雖然邊緣、紋理等絕對(duì)特征可以被卷積神經(jīng)網(wǎng)絡(luò)(CNNs)有效地提取出來(lái),但基于卷積神經(jīng)網(wǎng)絡(luò)的方法大多忽略了圖像中相鄰像素之間存在的約束關(guān)系,即相對(duì)特征。為了克服這個(gè)缺陷,本文提出了一種結(jié)合相對(duì)特征和絕對(duì)特征的端到端網(wǎng)絡(luò),對(duì)不同圖像位置的關(guān)系進(jìn)行了顯式的建模。另外,作者利用了深度圖中一個(gè)顯著的先驗(yàn)知識(shí),即深度圖中距離變化主要處于豎直方向上,認(rèn)為對(duì)豎直方向上的特征進(jìn)行建模將有利于深度圖的精細(xì)化估計(jì)。本文的算法中使用了豎直方向的池化操作來(lái)對(duì)圖像在豎直方向上的特征進(jìn)行了顯式建模。此外,由于從激光雷達(dá)獲得的真實(shí)深度圖中的有效數(shù)值非常稀疏,作者采用了已有的立體匹配的算法生成高質(zhì)量的深度圖,并用生成的密集深度圖作為輔助數(shù)據(jù)用于訓(xùn)練。本文實(shí)驗(yàn)證明了提出的算法在 KITTI 數(shù)據(jù)集上取得了優(yōu)異的效果。

3D 視覺(jué)

▌1.基于參數(shù)化卷積的點(diǎn)云深度學(xué)習(xí)

(SpiderCNN: Deep Learning on Point Sets with Parameterized Convolutional Filters)

盡管深度學(xué)習(xí)在大量計(jì)算機(jī)視覺(jué)問(wèn)題上取得了成功,如何將深度學(xué)習(xí)應(yīng)用于非規(guī)則數(shù)據(jù)上依然是一個(gè)極富挑戰(zhàn)性的問(wèn)題。在這篇文章中,作者提出一種新型的卷積結(jié)構(gòu) SpiderCNN,來(lái)有效提取點(diǎn)云中的幾何特征。具體來(lái)說(shuō),SpiderCNN 利用參數(shù)化卷積技術(shù),將傳統(tǒng)的卷積操作從規(guī)則網(wǎng)格拓展到非規(guī)則網(wǎng)格。我們利用階躍函數(shù)之積來(lái)表征點(diǎn)云的局部幾何特征,然后利用泰勒多項(xiàng)式來(lái)保證該結(jié)構(gòu)的表達(dá)能力。SpiderCNN 同時(shí)繼承了傳統(tǒng)CNN 的多尺度特性,從而能夠有效地提取層級(jí)化的深度語(yǔ)義信息。SpiderCNN 在 ModelNet40 這個(gè)標(biāo)準(zhǔn)測(cè)試集上取得 92.4% 的優(yōu)異結(jié)果。

論文地址:

http://cn.arxiv.org/abs/1803.11527

底層視覺(jué)算法

▌1.基于生成對(duì)抗網(wǎng)絡(luò)的增強(qiáng)超分辨率方法

(ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks)

基于生成對(duì)抗網(wǎng)絡(luò)的圖像超分辨率模型SRGAN能夠生成更多的紋理細(xì)節(jié)。然而,它恢復(fù)出來(lái)的紋理往往不夠自然,也常伴隨著一些噪聲。為了進(jìn)一步增強(qiáng)圖像超分辨率的視覺(jué)效果,本文深入研究并改進(jìn)了 SRGAN 的三個(gè)關(guān)鍵部分——網(wǎng)絡(luò)結(jié)構(gòu)、對(duì)抗損失函數(shù)和感知損失函數(shù),提出了一個(gè)增強(qiáng)的ESRGAN 模型。具體地,本文引入了一個(gè)新網(wǎng)絡(luò)結(jié)構(gòu)單元 RRDB (Residual-in-Resudal Dense Block);借鑒了相對(duì)生成對(duì)抗網(wǎng)絡(luò)(relativistic GAN)讓判別器預(yù)測(cè)相對(duì)的真實(shí)度而不是絕對(duì)的值;還使用了激活前的具有更強(qiáng)監(jiān)督信息的特征表達(dá)來(lái)約束感知損失函數(shù)。得益于以上的改進(jìn),本文提出的 ESRGAN 模型能夠恢復(fù)更加真實(shí)自然的紋理,取得比之前的 SRGAN 模型更好的視覺(jué)效果。ESRGAN 模型同時(shí)在 ECCV 2018 的 PIRM-SR 比賽中獲得了最好的感知評(píng)分,取得了第一名。

論文地址:

http://cn.arxiv.org/abs/1809.00219

GitHub地址:

https://github.com/xinntao/ESRGAN

視覺(jué)與自然語(yǔ)言的綜合理解

▌1.重新研究圖像語(yǔ)言描述中隱變量的表達(dá)(Rethinking the Form of Latent States in Image Captioning)

本文重新審視了圖像描述模型中隱變量的表示方式。循環(huán)神經(jīng)網(wǎng)絡(luò)如 LSTM 作為解碼器在圖像語(yǔ)言描述中有大量的應(yīng)用,現(xiàn)有的圖像描述模型通常固定得將解碼器的隱變量表示成一維向量。這樣帶來(lái)兩個(gè)問(wèn)題:

(1)為了和隱變量保持一致,圖像也被壓縮成了一維向量,丟失了重要的空間信息,導(dǎo)致描述生成時(shí)的條件減弱,模型更多得依賴(lài)于多元詞組的統(tǒng)計(jì)信息,更容易產(chǎn)生出現(xiàn)頻率更高的詞組;

(2)一維向量的表示,使得對(duì)隱變量在解碼過(guò)程中的變化,即解碼過(guò)程的內(nèi)部動(dòng)態(tài),難以進(jìn)行可視化和分析。

基于以上幾點(diǎn)考慮,本文提出將隱變量表示為多通道二維特征是更好的選擇。其利用二維特征的空間性提出一種簡(jiǎn)單有效的方式成功的可視化和分析了解碼過(guò)程中神經(jīng)網(wǎng)絡(luò)的內(nèi)部動(dòng)態(tài),以及中間介質(zhì)的隱變量、作為輸入的圖片、作為輸出的單詞三者之間的聯(lián)系。同時(shí),由于二維特征保留了更多的圖片信息,對(duì)應(yīng)的描述模型能產(chǎn)生與圖片更匹配的描述。在擁有同樣的參數(shù)數(shù)量的情況下,采用二維特征來(lái)表示隱變量的描述模型僅使用最簡(jiǎn)單的 cell,即 RNN,也超過(guò)了采用一維向量來(lái)表示隱變量的描述模型使用LSTM 的效果。

▌2.面向視覺(jué)問(wèn)答的問(wèn)題引導(dǎo)混合卷積(Question-Guided Hybrid Convolution for Visual Question Answering)

本文提出了一種面向視覺(jué)問(wèn)答任務(wù)的問(wèn)題引導(dǎo)混合卷積操作,能夠有效的融合輸入問(wèn)題和輸入圖像的高層語(yǔ)義信息,實(shí)現(xiàn)高準(zhǔn)確率的視覺(jué)問(wèn)答?,F(xiàn)有的視覺(jué)問(wèn)答系統(tǒng)在融合輸入問(wèn)題和圖像時(shí),拋棄了圖像中的空間信息。為了解決該問(wèn)題,本文提出由輸入問(wèn)題預(yù)測(cè)卷積核,對(duì)圖像特征圖進(jìn)行問(wèn)題引導(dǎo)的卷積操作,得到語(yǔ)言和圖像的融合特征圖。雖然這種由問(wèn)題引導(dǎo)卷積生成的融合特征圖能夠充分的融合語(yǔ)言和視覺(jué)的多模態(tài)信息,但是往往也會(huì)帶來(lái)更多的學(xué)習(xí)參數(shù)。為了降低參數(shù)量,作者提出在視覺(jué)特征卷積時(shí)使用組卷積(group convolution),僅用問(wèn)題來(lái)引導(dǎo)生成一部分卷積核,而另一部分卷積核與問(wèn)題解耦,該方案能夠有效的降低模型參數(shù)量并且防止模型過(guò)擬合。本文提出的問(wèn)題引導(dǎo)卷積方法,能夠作為現(xiàn)有多模態(tài)特征整合方法的有效補(bǔ)充,實(shí)現(xiàn)高準(zhǔn)確率的視覺(jué)問(wèn)答,在多個(gè)視覺(jué)問(wèn)答的數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果證明了該方法的有效性。

論文地址:

http://cn.arxiv.org/abs/1807.09958

http://cn.arxiv.org/abs/1808.02632

商湯原創(chuàng)技術(shù)的不斷進(jìn)步在重要的比賽中也得到了驗(yàn)證,不僅在 VOT 2018 上奪冠,在 2018 年的 COCO 比賽中,商湯科技研究員和香港中文大學(xué)-商湯聯(lián)合實(shí)驗(yàn)室同學(xué)組成的團(tuán)隊(duì),在最核心的物體檢測(cè)(Detection)項(xiàng)目中奪得冠軍。在此次競(jìng)賽中,商湯團(tuán)隊(duì)創(chuàng)造性地開(kāi)發(fā)了三項(xiàng)全新的技術(shù),獲得了大幅度的性能提升:

(1)新的多任務(wù)混合級(jí)聯(lián)架構(gòu)(hybrid cascade)。通過(guò)把不同子任務(wù)進(jìn)行逐級(jí)混合,這種新架構(gòu)有效地改善了整個(gè)檢測(cè)過(guò)程中的信息流動(dòng)。

(2)通過(guò)特征導(dǎo)引產(chǎn)生稀疏錨點(diǎn),而不是使用傳統(tǒng)的規(guī)則分布的密集錨點(diǎn)。這種特征導(dǎo)引的方案使得錨點(diǎn)的投放更為精準(zhǔn),平均召回率提升了超過(guò)10個(gè)百分點(diǎn)。

(3)采用一種新型的FishNet網(wǎng)絡(luò)結(jié)構(gòu),它有效地保留和修正多個(gè)尺度的信息,能更有效地用于圖像級(jí),區(qū)域級(jí),以及像素級(jí)預(yù)測(cè)任務(wù)。

在 test-dev 上,商湯團(tuán)隊(duì)對(duì)上述框架進(jìn)行了全面測(cè)試,其中單模型和多模型(最終提交的結(jié)果來(lái)自于五個(gè)模型混合的框架)的 mask AP 分別達(dá)到了47.4% 和 49.0%,比去年冠軍(也是商湯團(tuán)隊(duì)獲得)的結(jié)果,44.0% 和 46.3%,有約 3 個(gè)百分點(diǎn)的明顯提高。 在傳統(tǒng)的基于檢測(cè)框的指標(biāo) bbox AP上,這個(gè)新的框架也分別達(dá)到了單模型 54.1% 和多模型的 56.0% 的性能,比去年冠軍的結(jié)果,50.5% 和 52.6%,也有較大的提升。

此外,在 ECCV 期間,香港中文大學(xué)-商湯聯(lián)合實(shí)驗(yàn)室還開(kāi)源了檢測(cè)庫(kù) mm-detection。這個(gè)開(kāi)源庫(kù)提供了已公開(kāi)發(fā)表的多種視覺(jué)檢測(cè)核心模塊。通過(guò)這些模塊的組合,可以迅速搭建出各種著名的檢測(cè)框架,比如 Faster RCNN,Mask RCNN,和 R-FCN 等,以及各種新型框架,從而大大加快檢測(cè)技術(shù)研究的效率。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:ECCV 2018|商湯37篇論文入選,為你解讀精選論文(附鏈接+開(kāi)源資源)

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    經(jīng)典論文40

    經(jīng)典論文40 不看會(huì)后悔! [hide]經(jīng)典論文(40).rar[/hide]
    發(fā)表于 12-01 10:54

    實(shí)驗(yàn)室的朋友們看過(guò)

    `各位實(shí)驗(yàn)室的同胞們,小女子是清華科研幫的,我們長(zhǎng)期做加工、測(cè)試、定制、3d打印、論文修改等業(yè)務(wù),需要的科研同胞們請(qǐng)聯(lián)系我的微信:a1903190015.下面上宣傳手冊(cè):`
    發(fā)表于 04-11 10:30

    實(shí)驗(yàn)室無(wú)線(xiàn)充電系統(tǒng)_論文

    實(shí)驗(yàn)室無(wú)線(xiàn)充電系統(tǒng)_論文
    發(fā)表于 01-24 17:35

    關(guān)于智能車(chē)的優(yōu)秀論文(43論文

    關(guān)于智能車(chē)的優(yōu)秀論文(43論文)關(guān)于智能車(chē)的優(yōu)秀論文(43論文)關(guān)于智能車(chē)的優(yōu)秀
    發(fā)表于 11-13 15:56 ?0次下載

    WSDM精選論文分析機(jī)器學(xué)習(xí)

    學(xué)者和從業(yè)人員所頭痛的問(wèn)題。這個(gè)欄目就是要幫助大家篩選出有意思的論文,解讀論文的核心思想,精讀提供閱讀指導(dǎo)。 數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)應(yīng)用的頂級(jí)會(huì)議The Tenth ACM Inter
    發(fā)表于 09-30 14:29 ?0次下載

    ACL收錄京東智能廣告實(shí)驗(yàn)室論文

    近日,京東智能廣告實(shí)驗(yàn)室和倫斯勒理工學(xué)院聯(lián)合發(fā)表了題為“基于多語(yǔ)言多任務(wù)的低資源序列標(biāo)注架構(gòu)”的學(xué)術(shù)論文,論文首次提出了一種多語(yǔ)言多任務(wù)的監(jiān)督學(xué)習(xí)架構(gòu),該架構(gòu)對(duì)中文自然語(yǔ)言處理以及低資
    的頭像 發(fā)表于 06-08 14:17 ?2497次閱讀

    商湯科技在美國(guó)新澤西成立智慧醫(yī)療實(shí)驗(yàn)室

    近日,商湯科技公司宣布在美國(guó)新澤西成立智慧醫(yī)療實(shí)驗(yàn)室,人工智能醫(yī)療領(lǐng)域的國(guó)際專(zhuān)家Dimitri Metaxas教授加盟并擔(dān)任實(shí)驗(yàn)室醫(yī)學(xué)影像分析首席科學(xué)家。
    的頭像 發(fā)表于 08-22 16:36 ?3853次閱讀

    商湯科技及聯(lián)合實(shí)驗(yàn)室37論文入選ECCV 2018

    商湯科技ECCV 2018錄取論文在以下領(lǐng)域?qū)崿F(xiàn)突破:大規(guī)模人臉與人體識(shí)別、物體檢測(cè)與跟蹤、自動(dòng)駕駛場(chǎng)景理解與分析、視頻分析、3D視覺(jué)、底層視覺(jué)算法、視覺(jué)與自然語(yǔ)言的綜合理解等。這些新穎的計(jì)算機(jī)視覺(jué)
    的頭像 發(fā)表于 09-13 15:50 ?4709次閱讀

    商湯科技57論文入選ICCV 2019,13項(xiàng)競(jìng)賽奪冠

    數(shù)量、質(zhì)量以及諸多競(jìng)賽項(xiàng)目中刷新紀(jì)錄,彰顯中國(guó)原創(chuàng)技術(shù)的領(lǐng)先性及深厚學(xué)術(shù)底蘊(yùn),引領(lǐng)計(jì)算機(jī)視覺(jué)學(xué)術(shù)發(fā)展。 商湯科技及聯(lián)合實(shí)驗(yàn)室共有57論文
    發(fā)表于 10-30 07:40 ?499次閱讀

    62論文入選十年來(lái)最難CVPR,商湯研究再創(chuàng)佳績(jī)

    根據(jù)官方數(shù)據(jù),本屆CVPR大會(huì)共收到6656投稿,接收論文1470,錄用率約22%,低于ICCV 2019論文錄用率(25%),十年以
    的頭像 發(fā)表于 05-12 14:42 ?2854次閱讀

    計(jì)算機(jī)專(zhuān)業(yè)畢業(yè)設(shè)計(jì)-ASP+ACCESS實(shí)驗(yàn)室設(shè)備管理系統(tǒng)(源代碼+論文)

    計(jì)算機(jī)專(zhuān)業(yè)畢業(yè)設(shè)計(jì)-ASP+ACCESS實(shí)驗(yàn)室設(shè)備管理系統(tǒng)(源代碼+論文)(樹(shù)莓派 電源12v)-計(jì)算機(jī)專(zhuān)業(yè)畢業(yè)設(shè)計(jì)-ASP+ACCESS實(shí)驗(yàn)室設(shè)備管理系統(tǒng)(源代碼+論文)
    發(fā)表于 07-26 11:27 ?13次下載
    計(jì)算機(jī)專(zhuān)業(yè)畢業(yè)設(shè)計(jì)-ASP+ACCESS<b class='flag-5'>實(shí)驗(yàn)室</b>設(shè)備管理系統(tǒng)(源代碼+<b class='flag-5'>論文</b>)

    創(chuàng)造歷史!商湯聯(lián)合團(tuán)隊(duì)斬獲CVPR最佳論文,推出首個(gè)“感知決策一體化”自動(dòng)駕駛通用大模型

    最佳論文,一最佳論文候選,共計(jì)54論文被接收 ,商湯
    的頭像 發(fā)表于 06-22 06:15 ?780次閱讀
    創(chuàng)造歷史!<b class='flag-5'>商湯</b><b class='flag-5'>聯(lián)合</b>團(tuán)隊(duì)斬獲CVPR最佳<b class='flag-5'>論文</b>,推出首個(gè)“感知決策一體化”自動(dòng)駕駛通用大模型

    理想汽車(chē)八論文入選ICCV 2025

    ,最終僅接受2698論文,錄用率24%,競(jìng)爭(zhēng)激烈。理想汽車(chē)此次入選8論文,展示出深厚的技術(shù)
    的頭像 發(fā)表于 07-03 13:58 ?256次閱讀

    格靈深瞳六論文入選ICCV 2025

    近日,國(guó)際頂級(jí)會(huì)議ICCV 2025(計(jì)算機(jī)視覺(jué)國(guó)際大會(huì))公布論文錄用結(jié)果,格靈深瞳團(tuán)隊(duì)共有6論文入選
    的頭像 發(fā)表于 07-07 18:23 ?420次閱讀

    思必馳與上海交大聯(lián)合實(shí)驗(yàn)室研究成果入選兩大頂級(jí)會(huì)議

    近日,計(jì)算語(yǔ)言學(xué)與自然語(yǔ)言處理領(lǐng)域全球頂級(jí)會(huì)議ACL 2025及語(yǔ)音研究領(lǐng)域旗艦會(huì)議INTERSPEECH 2025相繼公布論文錄用結(jié)果。思必馳-上海交大聯(lián)合實(shí)驗(yàn)室表現(xiàn)亮眼,共有13
    的頭像 發(fā)表于 07-11 16:24 ?157次閱讀
    思必馳與上海交大<b class='flag-5'>聯(lián)合</b><b class='flag-5'>實(shí)驗(yàn)室</b>研究成果<b class='flag-5'>入選</b>兩大頂級(jí)會(huì)議