第五屆全球人工智能與機器人峰會(CCF-GAIR 2020)在深圳正式開幕。
CCF-GAIR 2020 峰會由中國計算機學會(CCF)主辦,香港中文大學(深圳)、雷鋒網(wǎng)聯(lián)合承辦,鵬城實驗室、深圳市人工智能與機器人研究院協(xié)辦。
作為中國最具影響力和前瞻性的前沿科技活動之一,CCF-GAIR 大會已經(jīng)度過了四次精彩而又輝煌的歷程。
在第二天的人工智能前沿專場上,澎思科技首席科學家、新加坡研究院院長申省梅以“遷移學習”為主題發(fā)表了精彩演講。
申省梅從傳統(tǒng)機器學習的痛點、深度學習帶來的突破、深度遷移學習、遷移學習中用到的一些技術(shù)和實例方面進行了分享,并分析了遷移學習在視覺智能方向上的應用需求。
傳統(tǒng)機器學習的痛點之一是泛化能力差,原因之一是它使用手工特征,靠設計者的經(jīng)驗得到,并無法掌握數(shù)據(jù)中的非線性變化,每種特征只能對特定的場景或特定的任務才有效。泛化能力差導致魯棒性差,落地成本高,用戶滿意度差。
另一方面,深度學習模型為計算機視覺帶來的突破,也是在給定的數(shù)據(jù)集上訓練出來的,可以很好地反映給定數(shù)據(jù)的特點。而給定的數(shù)據(jù)集僅僅代表了某一領(lǐng)域。盡管在這些特定數(shù)據(jù)集訓練的模型具有很高的準確性,遠遠超過傳統(tǒng)機器學習,但在新的場景下它的性能無法維持,并且在用于新任務的時候可能會導致性能顯著下降。深度學習的突破仍然取決于數(shù)據(jù)。
另外,申省梅還指出深度學習 AI 落地痛點:
1、感知環(huán)境及應用場景的千變?nèi)f化:天氣、光線、角度、遮擋等因素變化導致成像質(zhì)量不同并且質(zhì)量不佳;訓練數(shù)據(jù)與落地場景的不一致導致 AI 模型性能陡然下降;
2、重新訓練模型需要大量的 AI 專業(yè)人才來完成,周期長成本高見效慢,已經(jīng)成為 AI 普惠的障礙;
3、AI 人才的短缺以及成本昂貴會阻礙企業(yè)采納人工智能以及它帶來的效益。
通用智能是下一代 AI 發(fā)展的必然趨勢,申省梅表示,澎思會在遷移學習、無監(jiān)督、自監(jiān)督學習、小樣本學習、多模態(tài)學習這幾個真正反映 AI 落地實際情況的領(lǐng)域里面落地生根。
以下為申省梅的現(xiàn)場演講內(nèi)容, AI 掘金志作了不改變原意的編輯及整理:
大家好,我是申省梅,澎思科技首席科學家,也是新加坡研究院的負責人,我今天的主題是“基于遷移學習的視覺智能發(fā)展與應用”。
我會從傳統(tǒng)機器學習的痛點、深度學習帶來的突破,以及深度遷移學習、遷移學習中用到的一些技術(shù)和實例做分享,也會給大家展望一下遷移學習在視覺智能方向上的應用需求。
傳統(tǒng)機器學習的痛點:泛化能力差
傳統(tǒng)機器學的痛點就是泛化能力差,原因之一是它的特征不是針對數(shù)據(jù)的自適應性,它是用一個手工特征預先經(jīng)過很多先驗知識得到的 HOG、LBP、SIFT 這樣的特征,再進行提取特征的。不像深度學習能夠用深度神經(jīng)網(wǎng)絡自動地提取。
由于泛化能力差,在實際落地的時候,魯棒性也會差,導致每次訓練好的模型在換場景時,全部都需要重新搜集數(shù)據(jù)訓練,落地的成本非常高,用戶的滿意程度也很差。
在傳統(tǒng)機器學習時代,也有一個很好的 Benchmark 數(shù)據(jù)庫,叫 PASCAL VOC。學術(shù)界、工業(yè)界都在上面訓練,測評自己訓練的模型。我們在 2010 年到 2012 年期間與新加坡國立大學的顏水成團隊一起打比賽,并且獲得三年的冠軍。這個比賽包括目標的分類、檢測和分割。
當時另外一個 Benchmark 的比賽叫 VOT Tracking,是一個視覺跟蹤任務的國際比賽,2013 到 2014 年我們也獲得這個比賽的冠軍。這個性能評價不僅僅包括跟蹤的精度,還有跟蹤的速度、魯棒性以及實現(xiàn)的復雜性。我們的冠軍模型可以在當時的英特爾 i5 上跑到每秒 200 幀以上。
深度學習帶來的突破:仍取決于數(shù)據(jù)
深度學習能夠解決泛化性和魯棒性,并且精度大幅度提升,所以 2013 年《麻省理工科技評論》把深度學習列在十大技術(shù)的突破之一。
我們當時也意識到深度學習可以讓機器學習更加逼近人的大腦智能:它不僅是精度從 95%升到 99%,更是一個商業(yè)模式的改變。它可以實現(xiàn)過去很多不能實現(xiàn)的東西,能夠挖掘出比人類大腦更智能化的東西。最近這幾年,風險投資公司投入了很多,尤其是在深度學習和計算機視覺領(lǐng)域,我們也看到了越來越多這方面的技術(shù)得到落地。
深度學習帶來的突破,我們都不會忘記最大的貢獻者,ImageNet 數(shù)據(jù)庫。由于它的量很大,標注干凈,噪聲少,吸引了大量的研究機構(gòu)在上面進行模型訓練和比賽。
最早開始的機器學習還只能夠達到 70%多的準確率,26%的分類誤差。接下來的四五年內(nèi),準確率越來越高,很快就超越了人眼判斷的精度。當時大家都認為 ImageNet 是計算機視覺年度的奧林匹克大賽。
除了大數(shù)據(jù)很重要以外,算力也非常重要。如果沒有提取大數(shù)據(jù)的超級算力,沒有 GPU 的算力,沒有這些耕耘在深度學習網(wǎng)絡的開拓者們,大家不會看到今天的變化。
澎思在各個行業(yè)耕耘時發(fā)現(xiàn),產(chǎn)業(yè)對計算機視覺技術(shù)要求、性能要求非常高,我們很快就在不同的需求下開發(fā)出自己的人臉技術(shù)、行人技術(shù)、車輛技術(shù)、人機非技術(shù)、人群分析、行為識別、圖象增強恢復技術(shù),以及聲紋和指紋技術(shù),還有自主導航、3D 重建的技術(shù)。在這之前,通過傳統(tǒng)機器學習,大部分的技術(shù)都能實現(xiàn),但是使用深度學習后,性能極大提升,澎思也以此將自研的計算機視覺技術(shù)應用在自家的很多產(chǎn)品和各個落地業(yè)務當中。
澎思科技在成立短短的兩三年中,15 次取得了國際比賽冠軍,也刷新了各種權(quán)威數(shù)據(jù)集的世界紀錄。去年 ICCV 的輕量級人臉識別挑戰(zhàn)賽的 4 個賽道中,我們在三個賽道的成績都是名列第一。
澎思 AIoT 的藍圖中,深度學習算法可以應用在智慧樓宇、智慧社區(qū)、智慧園區(qū)、智慧工廠等多個場景中,中間一層是澎思的算法,不僅僅用在服務器端,即澎思云端,也應用在邊緣端和前端智能設備。
深度學習模型,比如 CNN(卷積神經(jīng)網(wǎng)絡)為計算機視覺帶來很大突破,但它也是在給定的數(shù)據(jù)上訓練出來的,可以很好地反應給定數(shù)據(jù)的特點。
而給定的數(shù)據(jù)集僅僅代表某個領(lǐng)域、某些場景、某種特定任務,比如 CCTV 監(jiān)控下的自然圖像領(lǐng)域、戶外場景、任務是人臉識別、行人再識別和行為分析。
盡管在這些特定數(shù)據(jù)上訓練的模型具有很高的準確性,遠遠超過傳統(tǒng)機器學習,但在新場景下它的性能會下降。舉個簡單的例子,比如它的人臉識別是針對亞洲女性,就很難把這個模型應用在男性甚至是白人女,或者是兒童的識別上。
深度學習還是完全取決于給定的數(shù)據(jù)。也因此,目前依然存在著 AI 落地的痛點:
1、感知環(huán)境及應用場景的千變?nèi)f化:
相機在各個環(huán)境下捕捉到的圖像,隨著天氣、光線、角度、遮擋等因素變化、成像質(zhì)量也不同;
訓練數(shù)據(jù)與落地場景的不一致導致 AI 模型性能陡然下降,比如在路面架著相機捕捉的行人、車輛和無人機捕捉的形狀是非常不同的。
2、重新訓練模型需要大量的 AI 專業(yè)人才來完成,成本高、周期長、見效慢,已經(jīng)成為 AI 普惠的障礙。
3、AI 人才的短缺以及成本昂貴會阻礙企業(yè)采納人工智能以及它帶來的效益。
澎思的使命就是“AI 即服務”,在澎思的 AIoT 的平臺,通過“AI 服務+AI 功能定制終端”的技術(shù)部署,形成一個閉環(huán)生態(tài),從而解決這些痛點。
深度遷移學習:AI 大規(guī)模落地的希望
遷移學習并不是新的概念,在 1995 年 NIPS 的研討會上大家就討論過如何歸納系統(tǒng)的知識,整合并遷移到新的領(lǐng)域,在 2016 年的 NIPS 上,吳恩達教授在他的演講里面也強調(diào)了下一個深度學習重要方向應該是遷移學習。
這是我們的遷移學習平臺,我們專注在某個任務上訓練出一個很好的預訓練模型,當然數(shù)據(jù)量是一個很好的條件,我們可以進行在線遷移學習、在線優(yōu)化,自動下載到邊緣端。當目標域的數(shù)據(jù)出現(xiàn)各種各樣的情況時,我們會選擇不同的遷移算法。比如無監(jiān)督學習、自監(jiān)督學習、小樣本學習,以及 GAN 的遷移,還有多任務的學習,以及原域到目標域的映射,到新領(lǐng)域的一些遷移學習。
剛才提到一個很重要的遷移條件,預訓練模型。如果有一個很好的預訓練模型,任務就具備了很好的完成條件。ImageNet 在計算機視覺領(lǐng)域在圖像分類 / 目標檢測 / 分割中有著無法撼動的地位,從李飛飛等人在 CVPR2009 發(fā)表的論文以來,很多人在 ImageNet 上訓練出越來越好的模型,受惠于各行各業(yè)。比如從 2012 年開始的 AlexNet,后來有 VGGNet、GoogleNet、ResNet、DenseNet,ResNeXt,這些模型大家今天都還在用,我們在場景下可以進行預訓練的方式,在這個場景上應用后,可以遷移到新的域。
這是一個應用案例,比如在某個特定的場景下需要高性能無人看管包的檢測,通過預訓練模型(人的檢測、包的檢測),應用遷移學習的框架,使得在遷移學習框架上性能從 30%達到 98%以上,加上其他的算法,就可以做到高性能的無人看管包的檢測。
另一個例子是人臉識別,如果有一個很好的預訓練模型,但訓練數(shù)據(jù)里,只有很少的兒童人臉識別,或者不同膚色人臉的識別、暗光的識別,就可能存在性能下降,所以遷移學習可以在特定的情況下達到源域一樣的性能,并且在源域的場景下,性能不打折扣。
另一個研究熱點是行人再識別。人臉識別之后,人們想用行人再識別,從圖像和外貌上尋找并鑒別是否是同一個人,在應用上我們叫跨相機場景下搜尋一個人。但是不像人臉和指紋,人體是非剛性的,受相機的角度、光線遮擋、分辨率變化,行人姿態(tài) / 遮擋不同影響,它的因素是在變化的,到底人體的哪些特征是專屬一個特定人的,沒有一個確定的獨特性。行人圖像在監(jiān)控下千變?nèi)f化,使得這個課題在計算機領(lǐng)域還是極具挑戰(zhàn),也是一個研究的熱點和難點。
2019 年 7 月份,澎思科技在行人再識別三大主流的測試數(shù)據(jù)上得到了業(yè)內(nèi)最好的成績,刷新了世界紀錄,去年 8 月份我們又在基于視頻的行人再識別數(shù)據(jù)庫上再次取得了突破性的進展,刷新了歷史紀錄。
這些都是同一個域、同一類數(shù)據(jù)集取得的成績。當跨數(shù)據(jù)集或者跨域時會有什么問題?比如說在 Duke 上訓練出的模型,你要運用在 Market-1501 上,直接跨域,得到的數(shù)值是 17.5mAP,如果進行遷移學習,可以提升到 54.1 以上。今年 6 月份在一個 ReID 的比賽上,澎思科技通過遷移學習,在三個數(shù)據(jù)集上都取得了很好的成績,大幅提升了跨域 ReID 算法的準確率。
本次比賽,澎思創(chuàng)新性地將對抗生成網(wǎng)絡與自監(jiān)督學習算法結(jié)合進行模型訓練,通過遷移學習,進行高準確率的跨場景(數(shù)據(jù)庫)行人再識別算法研發(fā)。
對抗生成網(wǎng)絡在算法中主要有兩個功能:
一方面,進行數(shù)據(jù)庫的域遷移,具體為原域到目標域的風格遷移;另一方面,進行目標域數(shù)據(jù)庫的數(shù)據(jù)增強,具體為生成跨攝像頭數(shù)據(jù)并給模型賦予相機風格不變的約束。自監(jiān)督學習則是通過聚類的方式給目標域數(shù)據(jù)庫打虛擬標簽并微調(diào)之前訓練好的網(wǎng)絡。
澎思在今年 6 月舉辦的 CVPR 2020 的一個跨域小樣本挑戰(zhàn)賽上也拿到了很好的成績。
傳統(tǒng)的機器學習和現(xiàn)在的深度學習都依賴大量的標注數(shù)據(jù),并在監(jiān)督下訓練出表現(xiàn)優(yōu)異以及具備較強泛化能力的模型。最大的痛點是數(shù)據(jù)標注費時費力,訓練數(shù)據(jù)對應的場景和實際應用的場景不一致,這成為人工智能落地和廣泛普及的一大障礙。在此背景下,遷移學習和小樣本學習成為近年來研究的前沿熱點。
這個小樣本挑戰(zhàn)賽設計的前提是,目標域條件是樣本無法標注,且只有少量的樣本(5、20 或 50 個樣本),目標域常與原域不同,而且標注數(shù)據(jù)非常耗時費力,尤其是一些醫(yī)學圖像,需要醫(yī)生專家的監(jiān)督下來標注。在此情況下,他們設計的原域是自然圖像,怎么樣通過遷移學習和小樣本學習方式,讓它能夠在 4 個不同的域上,比如說農(nóng)作物的疾病、衛(wèi)星圖像和皮膚病變,以及胸部 X 光上達到很好的性能。
這是我們的成績,可以看到在農(nóng)作物疾病上,在僅有 5 個樣本的情況下,遷移達到了 96%的性能,隨著樣本的增加,到 20、50 個樣本時,可以達到接近 99%的精度。隨著跨域越來越大,性能會下降,當樣本越來越多,性能也會相應的提高。平均的情況下,我們比 Benchmark 的 67%多了 7%,我們的結(jié)論是 73.78%。在這個比賽中,我們用了一個框架叫元遷移學習+圖網(wǎng)絡,可以用在各種前端網(wǎng)絡。
多任務學習,在人臉屬性上,先在已有的源數(shù)據(jù)集(多種屬性)訓練一個對人臉屬性有好的表征性的模型,由于在我們要求的目標域的任務上,這個模型的數(shù)據(jù)沒那么多,但是我們利用了這個預訓練模型的泛化性,在目標域的多個任務上進行了優(yōu)化,使得它能夠達到多個任務高性能的指標。
另外一個例子是在各種各樣的攝像頭角度下異常行為的檢測,比如說打架,各種各樣角度的打架,不同的表現(xiàn)方式、不同的光線,怎么樣訓練出來一個好的模型,使它能夠在不同的目標域上進行快速地遷移。
前沿算法研究以實現(xiàn) AI 快速落地
通用智能是下一代 AI 發(fā)展的必然趨勢,代表智能革命的未來。所以澎思會在遷移學習、無監(jiān)督、自監(jiān)督學習、小樣本學習、多模態(tài)學習這幾個真正反映 AI 落地實際情況的領(lǐng)域中落地生根。
我們的核心算法方向就是基于應用場景開發(fā)一站式服務,從場景的理解到解決方案,利用我們的算法池和工具箱,與前端設備、數(shù)據(jù)庫來進行端側(cè)和上云管理的優(yōu)化,以及云計算的 Cluster,讓我們無論是在云端算法還是邊緣端的算法,都有很好的一站式服務。
澎思的目標是在算法技術(shù)上走在國際計算機視覺的前沿,基于 AI 落地為主的前沿技術(shù)開發(fā),建設云端 AI 在線遷移學習平臺,加強端側(cè) AI 輕量化的設計體系,推動以用戶價值為導向的 To B/To C 產(chǎn)品創(chuàng)新。
最后展望一下遷移學習在視覺智能當中的應用需求。計算機視覺領(lǐng)域的預訓練模型目前還是不夠泛化、不夠魯棒,拿行人再識別做例子,在現(xiàn)有的數(shù)據(jù)上都無法在跨域當中提高到可用的性能。在現(xiàn)實的應用場景下,ReID 的標注也是非常費力、耗時的,希望能夠在無標簽、少標簽的情況下,遷移學習能夠大幅度的提高。另外一個跨域場景的人的行為檢測,可以看到很多現(xiàn)實問題還待解決,希望遷移學習能夠在接下來 AI 落地和惠普進程中有更多突破。
? ? ? ?責任編輯:pj
評論