99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

計算機視覺的三生三世

機器視覺智能檢測 ? 來源:YXQ ? 2019-07-15 08:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

7 月 12 日-7 月 14 日,2019 第四屆全球人工智能機器人峰會(CCF-GAIR 2019)于深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網(wǎng)、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協(xié)辦,得到了深圳市政府的大力指導,是國內(nèi)人工智能和機器人學術界、工業(yè)界及投資界三大領域的頂級交流博覽盛會,旨在打造國內(nèi)人工智能領域極具實力的跨界交流合作平臺。

7 月 12 日,騰訊 AI Lab & Robotics X 主任,ACM Fellow, IEEE Fellow, CVPR 2017 大會主席張正友博士為 CCF-GAIR 2019 主會場「AI 前沿專場」做了題為「計算機視覺的三生三世」的大會報告。以下為報告全文——

大家好!非常感謝雷鋒網(wǎng)的邀請,讓我有這個機會給大家做個分享。今年是中國人工智能四十周年,在這四十年間發(fā)生了很多事情,雷鋒網(wǎng)讓我跟大家講一講計算機視覺的前世、今生和可能的未來。其實這個報告應該由我的好朋友香港科技大學權龍教授來講,他比我早一年出國,而且他現(xiàn)在還在港科大潛心研究計算機視覺。我這些年間,還有好多年在做語音處理和識別、多媒體處理和機器人,所以我在計算機視覺上的研究史還不算很長。不過權龍教授有事沒法參加,我只能濫竽充數(shù),給大家講講計算機視覺的一些故事。

雷鋒網(wǎng)找我是聽說我開始研究計算機視覺比較早。我 1985 年浙大本科畢業(yè),1986 年去法國,參與研發(fā)了可能是世界上第一臺用立體視覺導航的移動機器人。

圖像處理

1986 年其實發(fā)生了很多事情,1986 年是我第一次參加國際會議,是在巴黎召開的 ICPR(世界模式識別大會)。在這次大會上,我碰到了復旦大學的吳立德教授,他帶領了一支中國的代表團,并在會上做了一場大會報告,介紹了中國在模式識別上的研究現(xiàn)狀,他們準備申請 1988 年的 ICPR 在中國召開。

這里需要提到一個關鍵性的人物,那就是普渡大學的傅京孫教授,他是模式識別領域的鼻祖。他是 1973 年第一屆 ICPR 的主席,1976 年創(chuàng)建了 IAPR,1978 年創(chuàng)刊了 IEEE TPAMI,并擔任第一屆主編。本來他是支持 1988 年 ICPR 在中國召開的,但不幸的是 1985 年他去世了,所以 1988 年的申請沒有成功。如果 1988 年 ICPR 能在中國召開,也許中國在模式識別和計算機視覺上的發(fā)展會更提前。當然歷史沒有如果。ICPR 在中國的召開等到了三十年以后,2018 年在譚鐵牛院士的帶領下,ICPR 第一次在中國召開。

1986 年還有一個很重要的事件,就是我的法國學長馬頌德回國,他創(chuàng)立了 NLPR(國家模式識別重點實驗室)。NLPR 創(chuàng)立之后,吸引了大批國外的學者回國,同時邀請了很多國外的訪問學者,中國計算機視覺領域開始與國際接軌。當然馬頌德是中國科技界重要人物,后來擔任科技部副部長。1997 年他還創(chuàng)立了中法聯(lián)合實驗室,這個實驗室一半的研究人員都是法國人,這在中國也是一個壯舉。

提到計算機視覺,離不開一個標志性人物,MIT 的教授 David Marr。1979 年,剛好 40 年前,他提出了視覺計算的理論框架。Marr 的理論框架有三個層次,從計算什么,到如何表達和計算,到硬件的實施。

具體到三維重建,Marr 認為從圖像要經(jīng)過幾個步驟,第一個步驟叫 primal sketch,也就是圖像處理,比如邊緣提取。所以到八十年代中葉,計算機視覺的主要工作是圖像處理。最有名的工作可能是 1986 年 MIT 一個碩士生發(fā)表的 Canny 邊緣檢測算子,基本上解決了邊緣提取的問題。如下圖所示,左邊是原始圖像,右邊是檢測出的邊緣。

那時候還有一個比較有名的工作是華人科學家沈俊做的,他那時在法國波爾多大學。他比較了不同的算子。他的算子在有些圖像方面要比 Canny 檢測器要好。所以到了八十年代中葉,當我留學法國的時候,圖像處理已經(jīng)做的差不多了。

立體視覺及三維重建

幸運的是,幾何視覺剛開始興起。有兩位代表人物,一位是法國的 Olivier Faugeras,他是我的博士導師,另一位是美國的 Thomas Huang,我們叫他 Tom。他們是好朋友,還一起寫過文章。我 1987 年就認識 Tom,他對我有非常大的幫助。他培養(yǎng)了 100 多位博士,包括不少活躍在中國學術界和工業(yè)界的計算機視覺專家,他對中國計算機視覺的貢獻是非常巨大的。

我很榮幸?guī)煆?Olivier Faugeras,參與開發(fā)了世界上第一臺用立體視覺導航的移動機器人。1988 年我的第一個研究成果發(fā)表在第二屆 ICCV 上,右邊是在美國 Florida 開會的一張照片。那時候計算機視覺還沒有紅火,那屆 ICCV 大概只有 200 個參會者,華人就更少了,大概只有我、權龍,還有 Tom 的學生翁巨揚。我在博士期間圍繞三維動態(tài)場景分析做了不少工作,1992 年把這些整合成一本書發(fā)表。

現(xiàn)在我想舉一個簡單的例子,不定性的建模和計算,希望通過下面這一頁 PPT 你們就能明白什么是三維計算機視覺。

這里需要用到概率與統(tǒng)計,這非常重要,但現(xiàn)在做視覺的人往往忽略了。下面兩條線代表了兩個圖像平面。左邊圖像上一個白點對應右邊圖像上一個白點。每個圖像點對應空間一條直線,兩條直線相交就得到一個三維點,這就是三維重建。同樣,左邊圖像的黑點對應右邊圖像的黑點,兩線相交得到一個三維點。但是圖像的點是檢測出來的,是有噪聲的。我們用橢圓來代表不定性,那么圖像的一個點就不對應一條線了,而是一個椎體。兩個椎體相交,就代表了三維重建的點的不定性。這里可以看到,近的點要比遠的點精確。當我們用這些三維重建點的時候就需要考慮這些不定性。比如當機器人從一個地方移動到另一個地方,需要估計它的運動時就必須考慮數(shù)據(jù)的不定性。

90 年代初我提出了 ICP 算法,通過迭代點的匹配來對齊不同的曲線或曲面。這個算法也用在很多地方。我們現(xiàn)在經(jīng)常聽到的SLAM,它其實就是我們以前做的從運動中估計結構,三維重建,不定性估計,ICP。事實上,SLAM 在 90 年代初理論上已經(jīng)解決了。

1995 年我提出了魯棒的圖像匹配和極線幾何估計方法,同時把程序放到網(wǎng)上,大家都以此作為參照。這可能是世界上第一個,至少是之一,把計算機視覺的程序放到網(wǎng)上讓別人用真實圖像來測試的。所以這個算法那時候就成為計算機視覺的通用方法。

1998 年我提出了一個新的攝像機標定法,后來大家都稱它為「張氏方法」,現(xiàn)在它已經(jīng)在全世界的三維視覺、機器人、自動駕駛上普遍應用,也獲得了IEEE Helmholtz 時間考驗獎。

1998 年我和馬頌德對日益成熟的幾何視覺做了總結,作為研究生教材由科學出版社出版。

1998 年還發(fā)生了很多事情,一個是 MSRA(微軟亞洲研究院)的成立,一個是騰訊公司的成立。這兩家看似無關的機構其實對中國計算機視覺的發(fā)展,對中國人工智能的發(fā)展,起了不可估量的作用。MSRA 給中國帶來了國際先進的研究方法和思路,培養(yǎng)了一大批中國的優(yōu)秀學者,同時也請了一些國外的研究學者來到中國。騰訊促進了中國互聯(lián)網(wǎng)的發(fā)展,因為有互聯(lián)網(wǎng),中國研究人員能夠幾乎實時地接觸到國際最頂尖的研究成果。所以這兩個結合,對中國人工智能領域的發(fā)展起到了很大的作用。

中國計算機視覺界一個重要的標志性事件是 2005 年 ICCV 在北京召開,馬頌德和 Harry Shum 擔任大會主席,這標志著中國計算機視覺的研究水平已經(jīng)得到國際的認同。我也很榮幸地從 Tom Huang 前輩手中接過 IEEE Fellow 的證書。

深度學習的崛起

可能幾何視覺的理論已經(jīng)比較成熟了,90 年代末,計算機視覺的研究開始進入物體和場景的檢測和識別,主要方法是傳統(tǒng)特征加上機器學習。

那時候我做幾何視覺做了很長時間,1997 年,我也開始嘗試,開發(fā)了世界上第一個用神經(jīng)網(wǎng)絡來識別人臉表情的系統(tǒng),用的特征是 Gabor 小波。雖然 20 多年前就開始人臉表情識別,但那時數(shù)據(jù)太少,一直到 2016 年我們才在微軟把人臉表情識別技術商業(yè)化,在微軟的認知服務上,大家都可以調(diào)用。

在傳統(tǒng)特征加機器學習的年代,需要提一下一個里程碑的工作,那就是 2001 年的 Viola-Jones Detector。通過 Harr 特征加級聯(lián)分類器,人臉的檢測能夠做得非??欤?20 年前的機器上就能做到實時。這對計算機視覺產(chǎn)生了很大的影響。此后的循環(huán)是一波一波的新數(shù)據(jù)集推出,加一波一波的算法刷榜。

2009 年一個叫 ImageNet 的數(shù)據(jù)集出現(xiàn)了,這是斯坦福大學李飛飛團隊推出的,這個數(shù)據(jù)集非常重要,它的意義不在于這個數(shù)據(jù)集很大,而在于幾年后催生了深度學習時代。

2012 年,Geoffrey Hinton 的兩個學生開發(fā)了 AlexNet,用了 8 層神經(jīng)網(wǎng)絡,6 千萬參數(shù),誤差比傳統(tǒng)方法降了十幾個百分點,從 26% 降到 15%,從此開啟了計算機視覺的深度學習時代。這個 AlexNet 結構其實和 1989 年 Yann LeCun 用于手寫數(shù)字識別的神經(jīng)網(wǎng)絡沒有很大區(qū)別,只是更深更大。

由于 Geoffrey Hinton, Yoshua Bengio, Yann LeCun 對深度學習的貢獻,他們共同獲得了 2018 年的圖靈獎。這個獎他們當之無愧。要知道 Geoffrey Hinton 1986 年就提出了 backpropagation,坐了 25 年的冷板凳。

在深度學習時代還有一個里程碑的工作,2015 年,微軟亞洲研究院的何愷明和孫劍提出 ResNet,用了 152 層神經(jīng)網(wǎng)絡,在 ImageNet 測試集上的誤差比人還低,降到了 4% 以下。

我在深度學習領域也有一點貢獻。2014 年我和 UCSD 的屠卓文合作,提出了 DSN(Deeply- Supervised Nets)深度監(jiān)督網(wǎng)絡,雖然影響沒有 ResNet 大,但也有近一千次引用。我們的想法是直接讓輸出監(jiān)督中間層,使得最底層盡可能最大逼近要學習的函數(shù),同時也緩解梯度「爆炸」或「消失」。

剛剛過去的 CVPR2019 可以被稱為是華人的盛典,在組織者里面有很多華人面孔,包括大會主席朱松純、程序委員會主席華剛和屠卓文。在五千多篇投稿中,40% 來自大陸,最佳論文獎和最佳學生論文獎的第一作者也都是華人。所以中國的計算機視覺能力還是很強的,這一點值得驕傲。

計算機視覺的研究要回歸初心

現(xiàn)在讓我們回顧一下計算機視覺研究的演變,從最初的圖像處理、立體視覺與三維重建、物體檢測和識別,到光度視覺、幾何視覺和語義視覺,到現(xiàn)在的深度學習打遍天下。這是讓我擔憂的。深度學習有很多局限性。

我認為接下來應該要回歸初心,讓光度視覺、幾何視覺和語義視覺緊密結合起來,同時注入常識和領域知識,和語言進行多模態(tài)融合,通過學習不斷演變。

我們騰訊 AI Lab 在這方面也開始做了一點點工作。比如我們的看圖說話項目能夠用語言描述一張照片的內(nèi)容,2018 年 1 月,我們上線 QQ 空間 app 讓視障用戶「看到」圖片。

我們還整合了計算機視覺、語音識別和自然語言處理技術,開發(fā)了一個虛擬人產(chǎn)品,探索多模態(tài)人機交互,賦能其他場景,助力社交。我們還開發(fā)了二次元的虛擬人來做游戲解說,它能實時理解游戲場景并將它描述出來。

那么現(xiàn)在的人工智能真的智能嗎?想象一下,如果一個人想要蓋住你的眼睛,你會怎么做?我是會躲開的。但是從我剛才播放的視頻中可以看到,現(xiàn)在的監(jiān)控系統(tǒng)顯然沒有這樣的舉止?,F(xiàn)在的人工智能只是機器學習:從大量的標注數(shù)據(jù)去學習一個映射。

什么是真正的智能?我想目前還沒有定論,而且我們對我們自己的智能還沒有足夠的了解。不過我很認同瑞士認知科學家 Jean Piaget 說的,智能是當你不知道如何做的時候你用的東西。我認為這個定義是非常有道理的。當你無法用你學到的東西或天賦去面對時,你動用的東西就是智能。如何去實現(xiàn)有智能的系統(tǒng)呢?可能有很多條路,但我認為一條很重要的路是需要把載體考慮進去,做有載體的智能,也就是機器人。

在機器人領域,我提出了 A2G 理論。A 是 AI,機器人必須能看能聽能說能思考,B 是 Body 本體,C 是 Control 控制,ABC 組成了機器人的基礎能力。D 是 Developmental Learning,發(fā)育學習,E 是 EQ,情感理解、擬人化,F(xiàn) 是 Flexible Manipulation,靈活操控。最后要達到 G,G 是 Guardian Angel,守護天使。

騰訊做了三款機器人:絕藝圍棋機器人、桌上冰球機器人,還有機器狗??梢詾榇蠹艺故緳C器狗的視頻,機器狗具備感知系統(tǒng),能夠繞開障礙物,看到懸空的障礙物能匍匐前進,看到前面一個人能蹲下來看著人。

我的報告就到這里,騰訊的 AI 使命是 Make AI Everywhere,我們一定會善用人工智能,讓人工智能造福人類,因為科技向善。謝謝大家。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1807

    文章

    49029

    瀏覽量

    249688
  • 計算機視覺
    +關注

    關注

    9

    文章

    1709

    瀏覽量

    46785

原文標題:騰訊張正友:計算機視覺的三生三世

文章出處:【微信號:machine_vision_1,微信公眾號:機器視覺智能檢測】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    三生國健入選2024年國家級綠色工廠名單

    近日,工業(yè)和信息化部辦公廳節(jié)能與綜合利用司發(fā)布了2024年度綠色制造名單,其中包括國家層面綠色工廠1382家、綠色工業(yè)園區(qū)123家、綠色供應鏈管理企業(yè)126家。三生國健成功入選2024年國家級綠色工廠名單。
    的頭像 發(fā)表于 02-15 10:13 ?520次閱讀

    AR和VR中的計算機視覺

    ):計算機視覺引領混合現(xiàn)實體驗增強現(xiàn)實(AR)和虛擬現(xiàn)實(VR)正在徹底改變我們與外部世界的互動方式。即便是在引人入勝的沉浸式
    的頭像 發(fā)表于 02-08 14:29 ?1586次閱讀
    AR和VR中的<b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>

    專業(yè)的第類醫(yī)療器械經(jīng)營企業(yè)計算機系統(tǒng),確保合規(guī)無憂

    類醫(yī)療器械經(jīng)營企業(yè)計算機系統(tǒng)因其簡單明了的特性而受到了眾多用戶的歡迎。與其他第類醫(yī)療器械經(jīng)營企業(yè)計算機系統(tǒng)相比,盤谷醫(yī)療的快速上手為用戶提供了極大的便利。該系統(tǒng)還支持遠程操作,用
    的頭像 發(fā)表于 12-12 16:05 ?457次閱讀
    專業(yè)的第<b class='flag-5'>三</b>類醫(yī)療器械經(jīng)營企業(yè)<b class='flag-5'>計算機</b>系統(tǒng),確保合規(guī)無憂

    量子計算機與普通計算機工作原理的區(qū)別

    ? 本文介紹了量子計算機與普通計算機工作原理的區(qū)別。 量子計算是一個新興的研究領域,科學家們利用量子力學,制造出具有革命性能力的計算機。雖然現(xiàn)在的量子
    的頭像 發(fā)表于 11-24 11:00 ?1508次閱讀
    量子<b class='flag-5'>計算機</b>與普通<b class='flag-5'>計算機</b>工作原理的區(qū)別

    【小白入門必看】一文讀懂深度學習計算機視覺技術及學習路線

    一、什么是計算機視覺?計算機視覺,其實就是教機器怎么像我們?nèi)艘粯?,用攝像頭看看周圍的世界,然后理解它。比如說,它能認出這是個蘋果,或者那邊有輛車。除此之外,還能把拍到的照片或者視頻轉換
    的頭像 發(fā)表于 10-31 17:00 ?1248次閱讀
    【小白入門必看】一文讀懂深度學習<b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>技術及學習路線

    本源產(chǎn)品集納之一 :量子計算機整機系列

    本源量子研制的中國第一代、第二代、第代自主超導量子計算機均已交付中國用戶使用,使中國成為世界上第個具備量子計算機整機交付能力的國家。圖為中國第
    的頭像 發(fā)表于 10-25 16:08 ?1729次閱讀
    本源產(chǎn)品集納之一 :量子<b class='flag-5'>計算機</b>整機系列

    計算機接口位于什么之間

    計算機接口是計算機硬件和軟件之間、計算機與外部設備之間以及計算機各部件之間傳輸數(shù)據(jù)、控制信息和狀態(tài)信息的硬件設備和軟件程序。它在計算機系統(tǒng)中
    的頭像 發(fā)表于 10-14 14:02 ?1326次閱讀

    ARMxy嵌入式計算機在機器視覺中的卓越表現(xiàn)

    嵌入式視覺是指在嵌入式系統(tǒng)中使用計算機視覺技術,與經(jīng)常所說的機器視覺系統(tǒng)的區(qū)別在于嵌入式視覺系統(tǒng)是多合一的設備,簡單來說嵌入式
    的頭像 發(fā)表于 10-10 14:47 ?552次閱讀
    ARMxy嵌入式<b class='flag-5'>計算機</b>在機器<b class='flag-5'>視覺</b>中的卓越表現(xiàn)

    晶體管計算機和電子管計算機有什么區(qū)別

    晶體管計算機和電子管計算機作為計算機發(fā)展史上的兩個重要階段,它們在多個方面存在顯著的區(qū)別。以下是對這兩類計算機在硬件、性能、應用以及技術發(fā)展等方面區(qū)別的詳細闡述。
    的頭像 發(fā)表于 08-23 15:28 ?3624次閱讀

    計算機視覺有哪些優(yōu)缺點

    計算機視覺作為人工智能領域的一個重要分支,旨在使計算機能夠像人類一樣理解和解釋圖像和視頻中的信息。這一技術的發(fā)展不僅推動了多個行業(yè)的變革,也帶來了諸多優(yōu)勢,但同時也伴隨著一些挑戰(zhàn)和局限性。以下是對
    的頭像 發(fā)表于 08-14 09:49 ?2061次閱讀

    計算機網(wǎng)絡中的種通信方式

    計算機網(wǎng)絡中的種通信方式,即單工通信、半雙工通信和全雙工通信,是理解和設計高效網(wǎng)絡架構的基礎。每種通信方式都有其獨特的特性、應用場景及優(yōu)缺點。以下是對這種通信方式的詳細分析,旨在提供深入的理解。
    的頭像 發(fā)表于 08-07 15:00 ?5162次閱讀

    態(tài)緩沖器在計算機中的應用

    態(tài)緩沖器(Tri-state Buffer)在計算機系統(tǒng)中扮演著至關重要的角色,其應用廣泛且深入。態(tài)緩沖器不僅具備基本的信號放大、去噪和波形整形功能,還能通過特定控制信號實現(xiàn)開關效果,使得單個
    的頭像 發(fā)表于 08-02 17:48 ?1879次閱讀

    計算機視覺中的圖像融合

    在許多計算機視覺應用中(例如機器人運動和醫(yī)學成像),需要將多個圖像的相關信息整合到單一圖像中。這種圖像融合可以提供更高的可靠性、準確性和數(shù)據(jù)質(zhì)量。多視圖融合可以提高圖像分辨率,并恢復場景的維表示
    的頭像 發(fā)表于 08-01 08:28 ?1145次閱讀
    <b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>中的圖像融合

    地平線科研論文入選國際計算機視覺頂會ECCV 2024

    近日,地平線兩篇論文入選國際計算機視覺頂會ECCV 2024,自動駕駛算法技術再有新突破。
    的頭像 發(fā)表于 07-27 11:10 ?1468次閱讀
    地平線科研論文入選國際<b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>頂會ECCV 2024

    計算機視覺技術的AI算法模型

    計算機視覺技術作為人工智能領域的一個重要分支,旨在使計算機能夠像人類一樣理解和解釋圖像及視頻中的信息。為了實現(xiàn)這一目標,計算機視覺技術依賴于
    的頭像 發(fā)表于 07-24 12:46 ?1821次閱讀