近日,******強調(diào)人工智能具有溢出帶動性很強的“頭雁”效應(yīng),必須把增強原創(chuàng)能力作為重點,夯實新一代人工智能發(fā)展的基礎(chǔ)。這把原本就火熱的人工智能推向新的高潮,也可以看到發(fā)展人工智能原創(chuàng)技術(shù)的重要性。
“堅持原創(chuàng),讓AI引領(lǐng)人類進(jìn)步”是商湯科技的使命。11月8日,在“2018中國AI開發(fā)者大會(AINEXTCon)”上,商湯科技副總裁、工程院院長沈徽發(fā)表了主題為“創(chuàng)新極限賦能百業(yè)——商湯智能視覺的產(chǎn)業(yè)化落地”的演講。
沈徽認(rèn)為,人工智能特別是計算機視覺技術(shù)不是一個單點上的突破,如果我們要真正把它做好,是整個技術(shù)平臺性的提升。當(dāng)AI跟越來越多的場景結(jié)合之后,能夠獲得新的需求,這些需求點會成為技術(shù)提升的輸入和數(shù)據(jù)。從實踐中來到實踐中去,AI產(chǎn)業(yè)不斷發(fā)揚光大。
如下是商湯君整理的沈徽演講內(nèi)容:
很高興能夠有機會和大家分享商湯科技在智能視覺方面的進(jìn)展和落地應(yīng)用方面的實踐。
首先講下大背景,人類社會的演進(jìn)背后都有技術(shù)在推進(jìn),如青銅器的出現(xiàn)讓農(nóng)業(yè)有了較大發(fā)展。
過去幾年,由于深度學(xué)習(xí)技術(shù)突破所帶來的AI領(lǐng)域革命性的突破,對社會影響非常深遠(yuǎn)。往次的技術(shù)革命,技術(shù)延展了我們的手和腳,增強了我們的肌肉。而AI則延展了我們的大腦,使人類能夠更加敏銳,AI技術(shù)進(jìn)步對人類社會的影響和文化影響都是非常深遠(yuǎn)的,大家應(yīng)該感到非常激動,因為我們正處在這樣一個時代的開始。
人工智能從技術(shù)領(lǐng)域來說是個很泛的技術(shù),人能做計算機不能做的我們都認(rèn)為是智能。人工智能的技術(shù)路線有很多模塊,基于統(tǒng)計思路的機器學(xué)習(xí)是人工智能里很重要的技術(shù)方向,經(jīng)歷了三次浪潮,1957年感知器,1986年神經(jīng)網(wǎng)絡(luò),以及近些年基于深度學(xué)習(xí)技術(shù)所帶來的AI感知層面的突破。我們現(xiàn)在處在第三次浪潮中,2010、2011年由深度學(xué)習(xí)真正實用化開始為代表的一次浪潮。
計算機視覺處在一個超越大眾的階段
什么是機器學(xué)習(xí)?輸入x輸出y,假設(shè)y滿足一定規(guī)律,機器學(xué)習(xí)就能找出f,能更好的擬合概率分布。第一類是物體識別,是貓還是狗,還有一種應(yīng)用是低分辨率圖像變成高分辨率圖像。在機器學(xué)習(xí)里面擬合f有多種不同的技術(shù),神經(jīng)網(wǎng)絡(luò)是中間技術(shù)的一種,神經(jīng)網(wǎng)絡(luò)由多個神經(jīng)元以及之間互相連接形成的一個網(wǎng)絡(luò),如果看到每個神經(jīng)元都有一個或者多個輸入通常一個輸出,一個輸出可能連接到多個神經(jīng)元的輸入里,在神經(jīng)網(wǎng)絡(luò)里每個神經(jīng)元都要找到相應(yīng)的位置,得出一個輸出函數(shù)。
我們看神經(jīng)網(wǎng)絡(luò)的時候,X1、X2、X3這些輸入叫做特征,特征在深度學(xué)習(xí)出現(xiàn)之前大量都是人手工把它做出來的,人根據(jù)自己的經(jīng)驗、自己的技術(shù)把現(xiàn)實世界中的數(shù)據(jù)轉(zhuǎn)化成可以被神經(jīng)網(wǎng)絡(luò)消費的特征。
我們在很大程度上不需要人工做特征的識別,而是可以用神經(jīng)網(wǎng)絡(luò)把這樣的特征學(xué)出來,這是深度學(xué)習(xí)網(wǎng)絡(luò)帶來的很重要的突破,它的應(yīng)用會變得更加普適,因為不需要針對每個場景做特征指令級,我們可以把算力變成真正的智能,這樣一個通路就打開了。
我想很客觀的評價一下我們現(xiàn)在處在什么階段,技術(shù)必須要到一定程度才能真正轉(zhuǎn)化為生產(chǎn)力,否則之前更多的是研究的狀態(tài)。第一階段往往技不如人,五年前的人臉識別、語音識別和人的差距還很大,從錯誤率來看大概幾倍甚至幾十倍的差距。第二階段是我們真正能達(dá)到甚至超越普通人的水準(zhǔn)。第三階段是超越專家,AlphaGo在圍棋這個領(lǐng)域超越了專家。
計算機視覺現(xiàn)在大概還處在第二階段,處在一個超越大眾的階段。一方面,在一些細(xì)分領(lǐng)域定義的很清楚,我們用深度學(xué)習(xí)的辦法有足夠的數(shù)據(jù)能夠做得非常好,超越人類;另一方面,它的普適性還有很大的欠缺,包括對數(shù)據(jù)的依賴沒有達(dá)到人工智能需要的量。在這個階段,AI已經(jīng)變成一個非常可用的東西了。
下面我分三方面介紹一下商湯所做的事,從技術(shù)與平臺、產(chǎn)品和行業(yè)解決方案三個角度進(jìn)行介紹。
技術(shù)與平臺
深度學(xué)習(xí)最重要的三個點,第一是算法模型,第二是數(shù)據(jù),第三是算力。
商湯在三年前構(gòu)建的DNN(深層神經(jīng)網(wǎng)絡(luò)),有1200多層,在ImageNet上第一次贏得世界冠軍。
再講一下商湯的深度學(xué)習(xí)平臺SenseParrots。大家知道AI領(lǐng)域有各種各樣的開源平臺,商湯為什么要建立自己的SenseParrots平臺?因為商湯的數(shù)據(jù)資源處于世界領(lǐng)先地位,如果想取得不斷的突破必須要很好的工具,這個訓(xùn)練平臺是非常重要的工具,而領(lǐng)先的工具很難從開源平臺獲取,很多時候想真正滿足用戶的需求不是一個網(wǎng)絡(luò)模型就能解決問題,我們需要能夠在這樣的平臺上構(gòu)建完整的網(wǎng)絡(luò),這是構(gòu)建這個平臺的原因。商湯內(nèi)部大量的研發(fā)工作都在這個平臺上完成,未來我們也會向合作伙伴輸出這樣的能力。
算力方面,今年商湯會擁有超過14000塊GPU,體現(xiàn)了旺盛的需求,商湯在超過18個行業(yè)有各種各樣的落地場景,在這些行業(yè)里必然有各種各樣不同的基于計算機視覺的需求,所以造成對算力巨大的渴望。我們一方面把我們算力的總量提升,另一方面把算力的效率提高。
第三是數(shù)據(jù),我們有海量可以用來訓(xùn)練的數(shù)據(jù),涵蓋超過18個行業(yè),人臉只是當(dāng)中的一小部分。
產(chǎn)品和行業(yè)解決方案
接下來講一下應(yīng)用。
這是基于商湯AR引擎的應(yīng)用,把王者榮耀里的虛擬化人物放到真實的場景中,它不是簡單的疊加,必須要對物理環(huán)境有3D感知,這樣才能真正把虛擬人物非常自然的放在里邊。手機雙攝頭可以獲取場景的3D信息,借此我們重構(gòu)出一個3D的場景,用六自由度實時跟蹤技術(shù),確定很多場景的關(guān)鍵點,根據(jù)這些關(guān)鍵點之間的關(guān)系以及變化,對虛擬物體做3D的構(gòu)建,進(jìn)而產(chǎn)生這種自然的效果。
商湯的SenseAR技術(shù)在兩年前,就已廣泛應(yīng)用于各類短視頻、直播等用戶原創(chuàng)內(nèi)容(UGC)視頻平臺中。我們利用人臉關(guān)鍵點技術(shù),用計算機理解人臉。左邊第一張圖在方框里綠色的點標(biāo)出了五官的位置,這樣就很容易做出好玩的AR效果,這就是關(guān)鍵點技術(shù)實現(xiàn)的。
自動駕駛中的視覺感知,左邊是行駛區(qū)域的檢測和車道線檢測,右邊是在這個基礎(chǔ)上對信號燈的檢測和路邊物體的檢測,這些都是用智能視覺技術(shù)對環(huán)境做感知。除了感知道路也能感知車輛,更重要的是能夠感知運動方向并做出相應(yīng)的預(yù)測。
我們當(dāng)時發(fā)了一篇關(guān)于在復(fù)雜情況下車道線檢測算法的Paper,除了用程序視覺技術(shù)對環(huán)境做理解之外,我們還把視覺技術(shù)和結(jié)構(gòu)化技術(shù)做結(jié)合,使我們對遮擋或視覺不清情況下的車道線恢復(fù)能起到很好的效果,中間用傳統(tǒng)CNN做,很多車道線不是特別清晰,右邊做了一個解析,效果好了很多。這個創(chuàng)新告訴我們當(dāng)做AI技術(shù)或深度學(xué)習(xí)技術(shù)時一定不要限制在窄的范圍內(nèi)。
這是DMS中的視覺感知,是用于智慧車艙的技術(shù),可以對大貨車、出租車司機進(jìn)行檢測和監(jiān)控,看他是不是注意力集中,有沒有危險動作,有沒有疲勞等等,這是多種視覺技術(shù)的結(jié)合。第一張圖是注意力,注意力是如何檢測的呢?我們看他視線的方向,在DMS中做視覺跟蹤,我們做眼球檢測,計算出注意力的方向進(jìn)而做一個預(yù)估,可以達(dá)到非常高的精度。
下面講一下智能視覺賦能城市大腦,舉一個用于尋人的真實案例:今年初南方某地公安局使用我們的技術(shù)在三小時之內(nèi)就找到了一位走失三天、患阿爾茨海默癥的老人。
我們不光看人臉,還看很多其他信息,比如一個交通路口,信息和道路狀況結(jié)合之后可以做自動交通管控。很多時候大家會說這個就是去識別和做一些檢索,但是當(dāng)數(shù)據(jù)量級很大的時候就很難做了,為此我們構(gòu)建了SenseFoundry方舟城市級視覺開放平臺,同時做實時檢測、實時跟蹤和實時分析,這在北上廣深等大城市中已經(jīng)應(yīng)用了。
它一方面要有系統(tǒng)的提升,另一方面要有算法的提升。如果想從十個人里識別一個人,和一千萬人里識別一個人,對算法的要求是完全不一樣的。我們?nèi)四樧R別的技術(shù)在不斷提升,包括采用增量學(xué)習(xí)的技術(shù),對不同環(huán)境高容忍度、高普適性的技術(shù)。在此之上我們做了人臉和人體的聯(lián)合搜索,大量的環(huán)境下很難捕捉到一個完整的人臉,這個時候人臉、人體再加上其他信息去做聯(lián)合搜索能大大提高搜索的準(zhǔn)確度。
去年蘋果第一次在手機上推出了3D人臉解鎖,但對人臉解鎖的研究商湯早就進(jìn)行了。和iPhone不一樣,我們要想在安卓系統(tǒng)上為多家廠商提供人臉解鎖的能力,我們需要有一定的算法優(yōu)化。人臉解鎖不單單是簡單的臉和臉的比對,很重要的是活體檢測和注意力檢測,不能拿一張照片就給手機解鎖,別人不能在你睡覺的時候拿著你的臉給手機解鎖。人臉解鎖雖然已經(jīng)實現(xiàn)了一個功能但是它在不斷迭代,單純用人臉解鎖手機時,準(zhǔn)確率可能需要達(dá)到10的負(fù)4次方量級,相當(dāng)于4位密碼,但當(dāng)你要做支付、認(rèn)證等和金融相關(guān)的應(yīng)用時就需要有10的負(fù)6次方,甚至負(fù)8次方量級才能達(dá)到要求,我們現(xiàn)在已經(jīng)超過了10的負(fù)8次方。
活體檢測方面,進(jìn)攻方會想出各種各樣的辦法用人臉攻擊識別系統(tǒng),識別系統(tǒng)不斷發(fā)現(xiàn)潛在漏洞,避免系統(tǒng)性的活體檢測失誤。商湯有一個專門的團隊每天的任務(wù)就是想著怎么把活體檢測的系統(tǒng)突破掉,這里有幾個簡單的攻擊手段,包括紙質(zhì)照片、面具、三維面具和視頻等,我們一方面不斷尋找新的方式做攻擊,同時做防守。
這是人臉3D重建,拿著一個手機的前攝從五個角度拍到人臉,當(dāng)拍到五張照片之后用五個方向的人臉做一個3D的重建。
下面看一些其他產(chǎn)品。想必大家已經(jīng)在一些小區(qū)、大樓看到刷臉進(jìn)門,從以前刷卡按指紋變成了刷臉。當(dāng)人在運動當(dāng)中走過一個閘門時,我們希望以最快的速度檢測到人臉,并用最快的速度判定應(yīng)該開門還是關(guān)門。大家可以想象隨著人步入通道臉的大小不斷變化,怎樣能獲取更高精度的檢測?最簡單的是把圖片按照不同的大小進(jìn)行分割,但這樣算法效率非常低,99%的計算都是無用的計算,我們是在模型里做一些優(yōu)化,能大大提高效率,訓(xùn)練的時候精度提升會變得更快。
這是一些數(shù)據(jù),右上角的表用不同的技術(shù)把它疊加在一起,包括精度和速度提升,我們可以通過不同的硬件做選型。
此外,刷臉技術(shù)還用于很多不同的場景,包括身份驗證、門禁、閘機等等。商湯是通過刷臉進(jìn)辦公室的,今年北京航空航天大學(xué)9月份新生入學(xué)時,也用了商湯SenseHello刷臉系統(tǒng)做注冊。
剛才說的技術(shù)產(chǎn)品都是由內(nèi)向外的,行業(yè)解決方案是因為大量客戶很多時候并不在乎用什么技術(shù),更在乎能幫助他解決什么問題,我們要提供解決方案,這樣才能把他的精力從痛點移開,進(jìn)而去關(guān)注他的業(yè)務(wù)。
今年九月,在上海召開的世界人工智能大會上,我們在人工智能大會現(xiàn)場的黃浦江西岸做了智慧公共空間管理系統(tǒng),融合了多種感知技術(shù),用視覺技術(shù)和IOT技術(shù)做觀察、理解、預(yù)判和行動形成一個管理閉環(huán)。只有提供這樣的完整解決方案客戶才能夠?qū)崒嵲谠诟惺艿剿膬r值。
AI必須要跟行業(yè)結(jié)合才能產(chǎn)生價值
介紹了這么多產(chǎn)品和技術(shù)落地的事情,我想談的是人工智能特別是計算機視覺技術(shù)不是一個單點上的突破,如果我們要真正的把它做好,它是整個技術(shù)平臺性的提升,也是商湯在過去多年不斷積累,在各個行業(yè)尋求問題,構(gòu)建研究能力和技術(shù)上的突破。
AI技術(shù)本身是不能產(chǎn)生價值的,必須要跟行業(yè)結(jié)合,跟實際場景結(jié)合。當(dāng)AI技術(shù)跟越來越多場景結(jié)合之后,一方面能夠提供價值,另一方面能夠獲得新的需求,這些需求點會成為技術(shù)提升的輸入和數(shù)據(jù),從實踐中來到實踐中去,AI產(chǎn)業(yè)不斷發(fā)揚光大,真正拓展我們的腦力和感知能力,使社會生產(chǎn)力進(jìn)步。我覺得每一位都可以加入到AI系統(tǒng)里面來,擁抱AI,從中獲取能更好地解決現(xiàn)在問題的方案,把社會帶到一個新的高度,謝謝大家。
-
計算機視覺
+關(guān)注
關(guān)注
9文章
1708瀏覽量
46771 -
ai技術(shù)
+關(guān)注
關(guān)注
1文章
1308瀏覽量
25153 -
商湯科技
+關(guān)注
關(guān)注
8文章
563瀏覽量
36792
原文標(biāo)題:商談丨商湯工程院院長沈徽:AI技術(shù)本身不產(chǎn)生價值 必須要跟行業(yè)結(jié)合
文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
云知聲與商湯科技達(dá)成戰(zhàn)略合作
解析SMA接口在電磁兼容性方面的卓越表現(xiàn)

解析 SMA 接口在電磁兼容性方面的卓越表現(xiàn)

SOLIDWORKS教育版——全方面的學(xué)習(xí)資源與教程

新唐科技微控制器在觸控應(yīng)用方面的優(yōu)勢
華納云:VFS在提升文件系統(tǒng)性能方面的具體實踐
AI在環(huán)境可持續(xù)發(fā)展方面的作用
UPS電源與EPS電源在功能和應(yīng)用方面的區(qū)別
微處理器在人工智能方面的應(yīng)用
bnc插頭鍍金有哪些方面的提升

評論