本文為將門線上技術(shù)社群直播兩周年&100期特別活動第一期、阿里巴巴集團(tuán)副總裁、高級研究員華先勝老師強(qiáng)勢回歸的分享回顧。華老師結(jié)合阿里巴巴在電商、城市計(jì)算、工業(yè)、醫(yī)療和設(shè)計(jì)等領(lǐng)域的人工智能技術(shù)和應(yīng)用上的探索和實(shí)踐,通過每一個Case Study,和我們一起詳細(xì)探討了如何才能讓人工智能成為實(shí)實(shí)在在創(chuàng)變未來的持續(xù)力量。
最近我正好看到一個文件,說美國綜合了很多調(diào)研報(bào)告,總結(jié)了20項(xiàng)在未來30年將會改變世界的技術(shù),我自己看了一眼,發(fā)現(xiàn)前面10項(xiàng)基本上都跟人工智能直接、或間接相關(guān)。
所以,看得出來人工智能在將來的世界里未來30年會扮演非常重要的角色,它將會影響各行各業(yè)。
那這些行業(yè)到底會發(fā)生什么樣的變化,是被顛覆、會被改變、還是會對它整個布局、整個發(fā)展、整個狀態(tài)發(fā)生或大或小的變化,我們分享完以后可以回來再看一下。
前面是一個引子,接下來解釋一下今天的題目。無行業(yè),不AI有兩種解釋方法。
第一,無行業(yè)不AI。沒有一個行業(yè)沒有AI,也就是說所有行業(yè)都會有AI降臨(這個可能有些夸張,可以說是大部分行業(yè)吧),就是說AI將會滲透到各行各業(yè)里。
第二,無行業(yè),不AI。就是說不深入行業(yè)的話是沒有成功的AI的。我經(jīng)常聽到的、也是經(jīng)常講的一句話,也是在阿里里經(jīng)常討論的一句話,就是說今天我們通用的計(jì)算是有的,但通用的AI是沒有的。所以,AI的技術(shù)要讓它真正的落地,一定是要深入一個行業(yè),為什么這么說、為什么這樣做才可以?后面我們會根據(jù)實(shí)例來一步步拆解。
第三,視覺智能。因?yàn)槲沂亲鲆曈X的,所以重點(diǎn)從視覺智能案例一起來分析。視覺智能也是這次人工智能的熱點(diǎn),因?yàn)楫吘箯膽?yīng)用的場景看,從今天技術(shù)成熟度來看,也是視覺方面做的更為靠前。人的信息獲取絕大部分都是視覺,有人是70%、有人是80%、有人是90%,但至少有70%以上是從視覺獲取的。所以,這一部分的信息也是最重要的。
第四,探索與實(shí)踐。我今天講的例子還算相對比較成功的。其實(shí)背后還有很多辛酸、眼淚,今天就不見得給大家分享了,但中間一些坑我可能會提到。
今天的AI,我套用主席的一句詩叫“天生一個仙人洞,無限風(fēng)光在險(xiǎn)峰”。確實(shí)首先AI非常風(fēng)光,AI行業(yè)的工資也非常高,現(xiàn)在AI的人才也比較難雇。不管是從工資也好、還是融資、估值等之類的角度看,都很風(fēng)光,但這個風(fēng)光確實(shí)有點(diǎn)像在險(xiǎn)峰上。
所以我后面想接一句“卻是容易翻車處”。要保證不翻車的話,很重要的是要在商業(yè)上要有成功。商業(yè)上的成功很重要的一條是誰來買單。我們不希望只是VC買單,一個個往下接盤,看上去好像也有人買單似的,但這個肯定不是我們希望的,也是不能長久的。
在商業(yè)上的成功關(guān)鍵是什么呢?刷榜、PR、融資還是估值?我想除了這些以外,還有一個就是我們今天的主題,即行業(yè)壁壘。
我講行業(yè)壁壘的時候,并不是著重說我們需要跟這個行業(yè)誰誰誰有什么關(guān)系,也不僅僅是行業(yè)的知識。
今天我講的行業(yè)壁壘是我們對行業(yè)深入的理解,對行業(yè)的數(shù)據(jù)、對行業(yè)的問題、對行業(yè)的用戶非常深入地理解它,為解決這個行業(yè)真正的問題,為這個行業(yè)的用戶、客戶帶來真正不可帶替代的價(jià)值。從這個角度來講,它會成為一個壁壘,而且這個壁壘我個人認(rèn)為可能會是更重要的壁壘。
前面說了一些自己的觀點(diǎn),后面我們還是從具體例子看一下。
視覺設(shè)計(jì)
這個其實(shí)做的人會比較少一點(diǎn)。曾經(jīng)Google的DeepMind做過這個,今天我講的是更能夠商用的,更有商業(yè)價(jià)值的一種設(shè)計(jì),而不是看著好玩的。
設(shè)計(jì)行業(yè),我們這里主要講二維設(shè)計(jì)平面設(shè)計(jì),但實(shí)際上還有三維、還有動畫、視頻等。這個行業(yè)據(jù)說有4000萬從業(yè)人員,他有很多工具,離線工具、在線工具,還有很多模塊、很多素材,據(jù)說中國整個市場容量是3000億,其實(shí)還是蠻大的。
現(xiàn)在這個行業(yè)基本上都是人工來做,效率還是比較低的。有很多工作并不需要頂級設(shè)計(jì)師來完成,但又不是說隨便一個人就能設(shè)計(jì)出來的。我們看到這個情況以后,尤其在電商領(lǐng)域,阿里有這樣一個很大的應(yīng)用場景,有大量的商品廣告(我們把它叫“Banner”),我們就開始思考這個問題的解決方案。
這個廣告在電商的網(wǎng)站上經(jīng)常出現(xiàn),每天的需求量也非常大,我們就以這個作為突破口開始去看,我們能不能依靠算法能夠達(dá)到初級設(shè)計(jì)師的水平。
在AI行業(yè),大部分人做的都是識別、理解、搜索。這個基本上是從視覺的信號里去獲取語義、或特征,而設(shè)計(jì)其實(shí)是反過來的,是生成或融合視覺信號。
今天也有一些這個方向的學(xué)術(shù)工作,像Style Transfer,很早就有人做了,也不難實(shí)現(xiàn)。但說真正商用的東西,還不多見,今天我來介紹的就是一個這樣的例子。
整個2D設(shè)計(jì),目標(biāo)是可控視覺內(nèi)容的設(shè)計(jì)與生成。給定一些要求、一些素材以后,要設(shè)計(jì)成一個稿子,每個人設(shè)計(jì)出來的都是不一樣的,不大可能有兩個互相不參考的人能夠設(shè)計(jì)出同樣一個東西來。我們也是這樣的。我們既要給他足夠大的自由度,但也有一定的可控性。所以我們這個系統(tǒng)做出來以后,其實(shí)每次同樣的輸入,每次輸出的數(shù)據(jù)結(jié)果都可以是不一樣的。
所以,我們的目標(biāo)是:可控視覺內(nèi)容設(shè)計(jì)與生成,讓AI做設(shè)計(jì),使數(shù)據(jù)內(nèi)容、制造變得高質(zhì)、高效、普惠、低成本。愿景是:“所想、即所見、即所得”。這個稍微夸張了一點(diǎn),但實(shí)際上你還是要把一些素材,例如文字、圖片送到系統(tǒng)中去,后面出來的就是你想要的東西。
這里基本的技術(shù)包括了圖像的理解,包括了增強(qiáng)、編輯、渲染、生成、評估等,因?yàn)槲覀儽仨氈牢覀冏龀鰜淼臇|西是好還是壞,而且要自動做出評估。
下面這張圖是一個非常High level的系統(tǒng)構(gòu)成,所想+云上的視覺(智能生成引擎),我們即所見、即所得的是三類東西。
第一類的東西應(yīng)該很快就會面世、發(fā)布,我們內(nèi)部叫鹿班,也就是二維圖像的設(shè)計(jì)和生成?,F(xiàn)在我們還在做的是三維的圖像生成。
這項(xiàng)技術(shù)在去年的雙11上得到了非常充分的運(yùn)用。這項(xiàng)技術(shù)有了以后,對于每一個不同的產(chǎn)品會有不同的設(shè)計(jì)出來。我們做個性化推薦、搜索的時候是要千人千面,每個人的結(jié)果不一樣。有了這項(xiàng)技術(shù)之后,是千貨千面,合起來就是千人、千貨、千千面。
所以,每一個不同的人對同一件商品會得到不同的設(shè)計(jì),因?yàn)橄到y(tǒng)會根據(jù)他的喜好會得到不同的設(shè)計(jì),可以以他更喜歡的方式來展現(xiàn)這個商品。
在去年雙11的時候,有4.1億的設(shè)計(jì)是用算法生成的。峰值的時候,每天可以生成5000萬個,生成完以后直接就上線了。
我們把這個系統(tǒng)成功做出來,其中一定要有設(shè)計(jì)師一起來深度參與的,因?yàn)楫吘刮覀兪亲黾夹g(shù)的人,不熟悉設(shè)計(jì)的原理。
大家可以看到剛才這個技術(shù)實(shí)際上有點(diǎn)想革設(shè)計(jì)師的命,那設(shè)計(jì)師怎么會跟你合作呢。我們在做很多行業(yè)的時候,比如像醫(yī)療,有時也會引起一些恐慌。其實(shí)我想這可能是還沒有真正理解AI到底能做什么、到底什么東西是不能做的。
我們在尋求設(shè)計(jì)師合作的時候一定要找頂級設(shè)計(jì)師來合作,然后才能做出來一個AI的設(shè)計(jì)師(大概是一個入門級水平的設(shè)計(jì)師)。
但現(xiàn)在我們的AI設(shè)計(jì)師也只能做到這種比較有模式的設(shè)計(jì)。如果要做的非常有創(chuàng)新,今天的算法還是完成不了的。
所以,實(shí)際上設(shè)計(jì)師是不會失業(yè)的。但如果你只是一個二流、三流的平面設(shè)計(jì)師,可能會失業(yè)。這個其實(shí)也是在深入行業(yè)的時候碰到了一個很有意思的問題。有些行業(yè)我們雖然會顛覆它,但這個行業(yè)里的頂尖高手一定會有他們的未來,我想也會促使我們每個行業(yè)的從業(yè)者,從簡單、重復(fù)的腦力勞動中、或有復(fù)雜但有模式的腦力勞動中解放出來,這是第一個例子。
視頻廣告
我記得在很多年前,YouTube剛出來,以及在國內(nèi)很多視頻網(wǎng)站還在為贏得用戶而戰(zhàn)斗的時候,可能沒有多少人關(guān)注廣告,因?yàn)槟菚r候要吸引用戶,后來慢慢地開始做廣告了。
今天廣告仍然是視頻網(wǎng)站很重要的收入來源,當(dāng)然也還有會員費(fèi)的收入。但這個視頻廣告的體驗(yàn)到底好不好?我放一幅圖在這其實(shí)就是這個意思,今天我們看到視頻的廣告體驗(yàn)有點(diǎn)像這個人拿著標(biāo)槍就想把它砸掉,我不知道大家有沒有這個體驗(yàn)。
那有沒有更好的方式來做視頻廣告。那我們先來看一下廣告的分類,大致可以分為三類。
一.Video-In。就是把廣告的內(nèi)容插到視頻里去,其實(shí)in有不同的做法。第一種是直接把視頻的片段放進(jìn)去,也有把廣告overlay疊加到視頻里面去,還有把廣告信息作為三維的placement放到場景里面去。
二.Video-Out。就是說從video已有的內(nèi)容往外做,里面有什么商品、有什么人物,然后給一個上下文相關(guān)的廣告。
三.廣告設(shè)計(jì)。這個跟剛才講到的內(nèi)容是類似的,這里就不再講了。
這里我給大家講兩個例子。
案例一:場景關(guān)聯(lián)的廣告。這個我們也是在優(yōu)酷土豆上做過的技術(shù),是基于對視頻的里的目標(biāo)和場景進(jìn)行分析來做上下文關(guān)聯(lián)廣告。今天的視頻識別技術(shù)遠(yuǎn)遠(yuǎn)比以前做得更精細(xì),所以我們可以根據(jù)識別的目標(biāo)和場景做內(nèi)容更為相關(guān)的廣告。
這里還有一些關(guān)于大場景判斷的問題,這種方式比那種直接放一個完全不相關(guān)的廣告,用戶的體驗(yàn)會要好一些。
案例二:植入式的廣告。廣告植入能不能做到更好?做到更好的話就是這種方式——我經(jīng)常把它叫“優(yōu)雅的廣告”,者叫“植入式的廣告”。比如說我們檢測到視頻里有一個平面,我們就把這個廣告貼進(jìn)去,像這個東西本來就在真實(shí)場景里存在一樣。
這個技術(shù)當(dāng)然也是要建立在識別的基礎(chǔ)上,一定要對這個場景有非常好的理解,這種理解就分兩類。
對語義的理解。
對三維結(jié)構(gòu)的理解。
我們對它進(jìn)行理解以后,就要找到合適的地方。剛才我們講的是平面上去替換了,其實(shí)在桌面上它還可以放一個東西,比如放一瓶酸奶,把礦泉水換成別的東西之類的。所以平面的檢測不管是水平還是豎直的,然后進(jìn)行廣告位的篩選。
這個技術(shù),包括還有光照分析、模糊分析、遮擋分析之類的,到廣告位的存儲,再到線上的實(shí)時渲染。聽起來有點(diǎn)像增強(qiáng)現(xiàn)實(shí),其實(shí)這里有很多是相通的技術(shù),只不過在這里它的要求不一樣,它的難度也不一樣。
從難度上來講,它容易的地方在于我們不需要做到實(shí)時,因?yàn)槲覀兪请x線尋找廣告位,然后在線把它放進(jìn)去,所以大量的計(jì)算是離線完成。
它的難處是我們只有一個視頻,我沒有深度、沒有雙目、沒有設(shè)備、沒有相機(jī)的位置,什么都不知道,完全根據(jù)視頻來做。所以,一般來說只有運(yùn)動的視頻,我們才可以通過structure from motion或類似的技術(shù)去估計(jì)場景的三維信息。
從應(yīng)用角度講,因?yàn)槲覀儾恍枰獙?shí)時,而且也不需要全程地去做渲染,我們可以選擇合適的位置來做,因?yàn)橐粋€視頻你做廣告的時候也不可能全部都做,全部都做的話體驗(yàn)也是非常差的。
我們可以選擇我們最有把握的地方去把廣告放進(jìn)去,從而使得客戶最后渲染出來的結(jié)果比較真實(shí)、自然。
還有一種情況,像直播的場景,雖然網(wǎng)紅主播就可以掙到很多錢,但我們也不妨用一點(diǎn)點(diǎn)交互,使得它背后的背景墻也變成一個可以放廣告的地方。這種廣告的插入,需要有一點(diǎn)點(diǎn)交互,不然我們不知道三維的結(jié)構(gòu)。
比如這個人晃動的時候遮住了后面背景上放廣告的話,應(yīng)該會產(chǎn)生實(shí)際的遮擋關(guān)系,遮擋的效果,包括相機(jī)如果有輕微抖動的話,后墻上的廣告也會跟著一起來抖動。
視頻廣告其實(shí)一直是一個視頻網(wǎng)站又愛又恨的東西,因?yàn)檫@里存在四方的關(guān)系。
視頻網(wǎng)站的服務(wù)商
視頻提供者
廣告
用戶
這四方的體驗(yàn)都是很重要的,廣告做得太多,用戶的體驗(yàn)就會比較差,廣告商其實(shí)也會不高興,因?yàn)榭吹娜司蜁?,效果也不好。如果廣告太少,整個網(wǎng)站的收入就會比較少,用戶的體驗(yàn)當(dāng)然是好的,這里有很多權(quán)衡在里面。
包括今天的視頻網(wǎng)站,經(jīng)常也不太敢去嘗試一些非常創(chuàng)新的變化。因?yàn)楸旧碚麄€大的網(wǎng)站的成本也非常高,目前的模式對他們有一定的收入,但一旦做很大改變的時候,引起收入很大的變化,這個風(fēng)險(xiǎn)也是非常大的。
所以,在這方面有些創(chuàng)新非常難,因?yàn)樗鼛淼男Ч橇⒏鸵娪暗模玫男Ч?、壞的效果都是立竿見影的?/p>
視覺診斷
如何診斷機(jī)器是今天我要講,還有一種是診斷人,診斷人就是醫(yī)療圖像處理,這部分我們今天就不涉及了。
這里有一些跟一般視覺識別任務(wù)不一樣的地方。
它的發(fā)生概率比較低,數(shù)據(jù)量也比較少。它通常是一個小概率事件,而且小概率事件的差異性也比較大。所以我經(jīng)常把它比喻成大海撈針,大海撈針非常不容易,但我能不能縮小范圍,變成桌面上去找針,在桌面上一看我就知道針在哪里了。
我經(jīng)常用一些數(shù)字來說明這個問題:比如說我們要在1萬個樣本里去找其中的10個有問題的樣本。如果不用技術(shù)手段的話,只能這1萬個樣本都看一遍了,那你的勞動量就是1萬。但我今天有個技術(shù),雖然我不知道哪10個,但我一定知道在其中那100個里面。我知道那100個,這10個一定在那100個里,這就是從大海撈針到了桌面找針,這時候這100個需要人去看。
這時候我們看的樣本里面只有10個是對的,準(zhǔn)確率只有10%,到召回率在這個理想狀態(tài)是100%。這時候雖然準(zhǔn)確率雖然只有10%,可我們省的人力是多少?大家可以算一下這個數(shù)字,省的人力是99%,就是你有99%的人力已經(jīng)省掉了。這個意義是非常重大的!
這類問題實(shí)際當(dāng)中有很多很多,這時候我們在做算法的設(shè)計(jì)上要求是不一樣的,就是你的recall要非常高,你的精度是可以犧牲一些的。這個只適合于發(fā)生概率低的事情,帶來的效果一定是有它的價(jià)值,例如節(jié)省了人力、提升了質(zhì)量、降低了成本,或者增強(qiáng)了安全性。有些情況下是不能用人去看的,人去檢查的話風(fēng)險(xiǎn)比較大,我們可以通過機(jī)器來做。
其中,節(jié)省人力是最直接的,比如像剛才講的99%的人力就已經(jīng)節(jié)省掉了,哪怕我不是在那100個里面去找,而是需要在1000個里們?nèi)フ遥@時候準(zhǔn)確率只有1%,但我已經(jīng)省掉了90%的人力,已經(jīng)相當(dāng)了不起了。
接下來介紹一下行業(yè)視覺診斷,這里說的主要是除了醫(yī)療之外的其它里面視覺診斷,比如:太陽板瑕疵,太陽能電池板的瑕疵檢測,蟲板的密度估計(jì),列車故障的檢測等。這里的解決方法大家都可以比較容易想到的,深度學(xué)習(xí)、圖像處理,加上檢測識別,但這里每一個問題都看起來容易,其實(shí)實(shí)際上并不太容易,而且各種情況都有,怎樣才能去避免每一個場景都重復(fù)去開發(fā)一套方法,這個也是我們需要去思考和解決的問題。
行業(yè)診斷的現(xiàn)狀基本上有三種方式。
第一種:全人工實(shí)現(xiàn)的,人力成本非常高。
第二種:有攝像頭,但靠人去觀察。這個對于人來說每天壓力很大,他沒有看出來后面出現(xiàn)問題了,他可能這個月就白干了。實(shí)際上在我們真實(shí)場景中經(jīng)常發(fā)現(xiàn),人看漏的可能性是非常高的。人會有疲勞、會有情緒之類的,所以經(jīng)常會漏掉。
第三種:簡單的分析功能,但現(xiàn)在遠(yuǎn)遠(yuǎn)沒有達(dá)到自動化的程度。
行業(yè)診斷哪些能做、哪些不能做?
第一類:基本上肉眼內(nèi)容可分辨的其實(shí)是可以做的,所有需要人的肉眼去分辨的東西都可以考慮要不要用人工智能來識別。
第二類:還有一些肉眼分辨比較困難,機(jī)器在有些方面能夠比人有更敏銳的洞察力,只要給一定量的數(shù)據(jù),設(shè)計(jì)好算法,有些情況下是可以做的。
第三類:肉眼無法分辨的,需要輔助措施。比如需要手捏一捏、估計(jì)一下重量,這個機(jī)器就沒有辦法了。像內(nèi)胎壁厚薄的檢測、稻殼含水量的計(jì)算,估計(jì)應(yīng)該過過稱才能知道了。
我突然想起來一個以前講聽過的笑話,說有個生產(chǎn)線上有肥皂裝到紙盒子里去,生產(chǎn)線上有時候出現(xiàn)有的盒子沒有裝肥皂,那怎樣把沒有裝肥皂的盒子找出來,當(dāng)時這個公司花了很多錢,請他們的博士用了很多方法,各種傳感器、各種智能的方法去分析,做出一套東西出來了。結(jié)果與此同時,有一個工人在旁邊放了一個電風(fēng)扇,這個電風(fēng)扇一開動,沒有裝肥皂的盒子就被吹走了,很簡單的方法就解決了這個問題。
這雖然是個笑話,其實(shí)我們在真實(shí)場景下也可能會發(fā)生類似的事情。也就是,我們要清楚到底我們能夠提供一些什么樣的價(jià)值,哪些是適合我們技術(shù)來做的,有些東西可能有更簡單的方法。
回到案例,第一是太陽能電池片的裂紋檢測,這里有多種不一樣的裂紋,有十幾種不同的瑕疵,比如像單條的裂紋、交叉的裂紋等。
目前我們一個初步的結(jié)果,這個精度其實(shí)是指“recall”(召回率),快到100%了。誤報(bào)目前是接近3%,這種情況下,根據(jù)整個電池面板的比例最后大概能省到1/10到1/20的能力。
我們再往前走一步的話,可能正常的誤報(bào)率就進(jìn)一步降低到跟人相當(dāng)、或比人還有更好水平的時候,就完全代替了人工,所以人力的比例會變成零,但這也要求你的精度足夠高,甚至高過人。實(shí)際上真正的情況下,機(jī)器的recall要比人的recall高,因?yàn)闄C(jī)器不會疲勞。
案例二是列車故障的檢測。我們每天坐的列車,如果進(jìn)了車站從來沒有人檢修,一直到出了故障才檢修的話,這個也是挺恐怖的,其實(shí)大家也不用擔(dān)心,車進(jìn)站的時候都是有檢修的。
這個圖片顯示的例子是貨運(yùn)列車,這個進(jìn)來以后都會有檢修,過去是人要上去檢修,今天有很多公司用的方法都是拍幾千上萬張圖片,這些圖片就放到數(shù)據(jù)中心,大家喝著咖啡、喝著茶就可以看了,但其實(shí)他看的時候壓力是很大的,因?yàn)楹苋菀茁┑簟?/p>
我們當(dāng)時做了一個算法,故障的種類也是千奇百怪,有好幾百種,比如開關(guān)沒有關(guān)好、漏油、裂紋等。這個真的是非常難的問題,我們當(dāng)時做了其中一部分。上線測試的時候,人檢漏檢掉而機(jī)器能夠檢出來的有141個,雖然這里的誤檢率還是蠻高的,因?yàn)檫@個情況非常復(fù)雜,但實(shí)際上可以大大地減少漏檢的可能性,同時也可以降低人力。
我們基于這些案例,最后總結(jié)出來阿里視覺診斷的引擎。
城市大腦
最后要介紹的是城市大腦。
它要解決的是城市數(shù)據(jù)的問題,這個問題提出來是因?yàn)榻裉斐鞘欣锏臄?shù)據(jù)其實(shí)是非常多的,尤其是攝像頭的數(shù)據(jù)量非常大 。這些數(shù)據(jù)的價(jià)值還還可以進(jìn)一步挖掘,有很多很有意義的、可以解決現(xiàn)在城市管理方面很多難題的一些價(jià)值,把這些挖掘出來。
為什么能挖掘出來呢?就是因?yàn)榻裉霢I的技術(shù)、今天的算力到了這樣一個階段,可以讓我們?nèi)ニ伎肌⑷L試建一個這樣的“城市大腦”去挖掘城市數(shù)據(jù)的價(jià)值。
我給城市大腦的定義就是用AI和算力挖掘大量城市數(shù)據(jù)不可替代的價(jià)值。這個價(jià)值是什么?可以有不同的角度去講,城市治理和服務(wù)的數(shù)據(jù)化、智能化,全面實(shí)施全量的優(yōu)化決策、預(yù)測和干預(yù),帶來的就是高效、低耗、少能力、便捷等。
城市大腦題目非常大,我們今天主要從其中兩個角度講即城市交通和安防兩個角度來講。
城市目前的幾個現(xiàn)狀是——
第一,盲人摸象。
整個城市的感知其實(shí)是有點(diǎn)盲人摸象的。有很多感知手段,地磁線圈微波、卡口、GPS、視頻,但視頻沒有被充分利用起來,其它的監(jiān)察數(shù)據(jù)的話,設(shè)備也是經(jīng)常損壞,沒有一個全面的感知,只是看到了一部分的東西,所以叫“盲人摸象”。
第二,燈下黑。
即使我們用到攝像頭了,其實(shí)大部分城市攝像頭是不太智能的。“燈下黑”就是說攝像頭有,可我沒有辦法去做分析,因?yàn)槟闳肆χ挥羞@么多。攝像頭有很多,幾萬、幾十萬,甚至大城市有上百萬的攝像頭。但是,除了查違章有一部分智能攝像頭,其它大部分都是事后去看的和當(dāng)時少量的人力觀察。
第三,霧里看花。
今天的感知手段不能做全局、全量的實(shí)時感知。所以我們沒有辦法去找到很多現(xiàn)象,比如擁堵也好、安全隱患也好,它背后的原因在哪里,所以我們叫霧里看花。
我們進(jìn)一步看城市大腦是什么樣的東西?首先城市有大量的數(shù)據(jù),包括視頻數(shù)據(jù),我今天講的更多也是視頻數(shù)據(jù),而且視頻數(shù)據(jù)跟其它數(shù)據(jù)不一樣的地方在于,視頻數(shù)據(jù)(pixel)是需要進(jìn)行分析的,其它數(shù)據(jù)是直接可以使用的。
所以,我們希望所有攝像頭里視野能看到的東西,我們都能理解,包括:車、人、物、事。
車的情況,什么車、什么速度、往哪里走,車牌。
人的情況,駕駛員、行人、騎自行車的人。
物的情況,各種交通標(biāo)志、拋灑物等之類的。
事的情況,發(fā)生什么事件,有沒有擁堵、逆行、交通事故等都要理解得很透徹。
有了這些之后,我們就可以進(jìn)行決策和優(yōu)化了,比如簡單的決策是直接把這個事件事故的結(jié)果報(bào)告出來,有交警進(jìn)行下一步處理;優(yōu)化比如紅綠燈優(yōu)化,我們知道所有交通的流量,“眼見為實(shí)”地通過視覺分析出來交通的情況,基于此我們可以做更好的紅綠燈配時的優(yōu)化。
還有,把整個城市里面的視覺對象放到搜索引擎里去,這就是像上次講過的拍立淘這樣的技術(shù),今天我們做的是城市元素,所以我們把它叫“索引城市”,里面可以進(jìn)行搜索可疑車輛、可疑人,比如失蹤的人、有肇事車輛逃逸等,就可以通過它來尋找。當(dāng)然,我們建立這種視覺數(shù)據(jù)的關(guān)系以后,也可以發(fā)覺他們之間的規(guī)律,找到他們之間背后的原因。
下一步預(yù)測,雖然我們沒有辦法預(yù)測每一個人、每一輛車的行為,但我們可以預(yù)測一個趨勢,比如10分鐘以后的車流是什么,20分鐘以后是什么樣子的,甚至可以做長時間的預(yù)測。短時間預(yù)測對我們GPS導(dǎo)航就很有好處,今天的GPS導(dǎo)航其實(shí)是沒有預(yù)測的,預(yù)測也是用的歷史數(shù)據(jù)做的預(yù)測,不是實(shí)時數(shù)據(jù)做的預(yù)測。如果說有很好的預(yù)測,那對你的路徑規(guī)劃可以做的更優(yōu)化。而長時間預(yù)測的話,比如如果對一個城市第二天發(fā)生的情況進(jìn)行預(yù)測,比如第二天天氣不好,還有幾個重要的活動,你大概能夠估計(jì)出來明天車流、人流的情況,可能有哪些地方交通擁堵會增加多長時間,哪里交通事故的概率可能會增加。
有了這些信息以后,你就可以進(jìn)行干預(yù)了。
第一種干預(yù),可以預(yù)先分配這個資源,預(yù)先放到那里,人力、警力、醫(yī)療資源,一旦出了事情以后,馬上就可以應(yīng)對。
更厲害的干預(yù),就是比如明天要發(fā)生的不好事情的話,我們可以提前做一些事情不讓它發(fā)生,比如交通的管控、比如誘導(dǎo)等之類的。
關(guān)于城市感知,我們今天提出來的城市大腦是要做感而全面知、感而全量知、感而實(shí)時知。這三個概念我分別簡單做一下介紹。
全面知,我們需要對整個路面上的情況了如指掌,也是今天因?yàn)槲覀冊谠贫说姆桨赣羞@么大的算力、有這么大的靈活度,以及今天AI技術(shù)的發(fā)展,可以讓我們?nèi)ツ曜霾煌闆r下的精細(xì)目標(biāo)檢測識別、跟蹤等之類的,不管是什么天氣、什么質(zhì)量。
事件事故檢測也是一個異常檢測的問題,因?yàn)槭录鹿实姆N類樣子也很多,樣本數(shù)量又比較少,跟剛才講的工業(yè)診斷有點(diǎn)像,不過它不是圖片而是視頻,而是視頻的難度更大。這里我們也是把它變成異常檢測的問題,也就是說我們有大量的正常的數(shù)據(jù),我們?nèi)檎5臄?shù)據(jù)建模,有了正常的數(shù)據(jù)的模型,那么異常的視頻片段送進(jìn)來之后,它的響應(yīng)就會非常高。
除了全面以外,還有全量、實(shí)時,這更多是兩方面的內(nèi)容。
方面一:系統(tǒng)層級。背后要有一套計(jì)算平臺來支撐,也就是需要有一個大的視頻處理的平臺。我們處理一路視頻、兩路視頻沒有問題,處理十路有沒有問題,但處理百路、千路、萬路的時候會不會有問題?這里其實(shí)要有一套背后的系統(tǒng)來支撐。我們阿里云有這樣一套系統(tǒng),在這個基礎(chǔ)上我們就build了一個視頻處理的流水線。當(dāng)然也有不一樣的地方,因?yàn)閿?shù)據(jù)的吞吐量大,計(jì)算的復(fù)雜度高,所以我們也需要對它進(jìn)行一些優(yōu)化和改造,使得它能夠吃的進(jìn)去這么大量的數(shù)據(jù),處理得了,還能吐得出來結(jié)果。
方面二:算法本身的計(jì)算速度。這個也是非常重要的。如果計(jì)算的成本非常高,就沒有辦法實(shí)現(xiàn)。所以計(jì)算的加速是非常大的投入,當(dāng)時我們做了三個方面的加速:器件加速、模型精簡和并發(fā)計(jì)算流程的優(yōu)化。
一個具體例子,就是我們最近發(fā)布的一個產(chǎn)品,叫“天曜”。這個產(chǎn)品背后我們做了球機(jī)的算法,使得原來沒有智能的球機(jī)變成有智能的球機(jī),就代替了交警的巡邏,而且它可以24小時巡邏,360度自動巡航,可以對交通違法、交通事故進(jìn)行全面的監(jiān)測。將來也許可以自動地進(jìn)行處理,現(xiàn)在還是要人力來處理。
很多交通擁堵都是事故引起的,我們能夠快速地處理,根據(jù)攝像頭看的的內(nèi)容,就知道是誰的責(zé)任。不是很嚴(yán)重的話,趕緊走人,以免造成交通擁堵;還有一些嚴(yán)重的事故,我們能夠及時地發(fā)現(xiàn),及時地把醫(yī)療資源(救護(hù)車)送過去就能挽救人的生命。天曜是全天候、全面交通事件、事故感知的一套系統(tǒng)。
這項(xiàng)工作的特點(diǎn)就是充分利用城市既有的監(jiān)控設(shè)備發(fā)揮最大的效率。我們對現(xiàn)有整個鏈路、整個設(shè)備不進(jìn)行任何改變,我們通過云計(jì)算,把無智能的設(shè)備變成一個具有強(qiáng)大人工智能的設(shè)備。讓這個視頻監(jiān)控實(shí)現(xiàn)了自動的巡航、巡檢,實(shí)現(xiàn)了讓機(jī)器替換人力,使得警力可以用在更重要的地方,而不至于用在這樣一個比較簡單的場景。我們現(xiàn)在也在跟AI芯片進(jìn)行測試,成本會進(jìn)一步降低,能耗也會降低。
接下來我們跳出來看一下,城市大腦不同的地方在哪里?城市大腦的不同之處,我們是通過大量異構(gòu)城市數(shù)據(jù)中,通過大規(guī)模的計(jì)算和AI算法挖掘出不可替代的價(jià)值。像剛才講的這些價(jià)值,過去的方法是沒有辦法實(shí)現(xiàn)的,人力也是無法完成的。這就是第二點(diǎn),城市大腦在做的事情是大多是人的智能是不能完成的,因?yàn)樗膹?fù)雜度、計(jì)算量是沒有辦法完成的,AI在這些方面其實(shí)是超越人力的。
第三點(diǎn)是城市大腦希望有一些會成為一個城市基礎(chǔ)設(shè)施,就像水和電一樣。這是創(chuàng)造出來的一個需求。
城市大腦是一個如此巨大的項(xiàng)目,所以我們要把它做成人工智能開放創(chuàng)新平臺的。因?yàn)樗膯栴}復(fù)雜度、數(shù)據(jù)的量、數(shù)據(jù)的復(fù)雜度和要解決問題的數(shù)量之多,以及它可能產(chǎn)生的價(jià)值和影響力之大,使得它可以成為一個創(chuàng)新平臺。這也是為什么城市大腦會成為科技部四個國家人工智能開放創(chuàng)新平臺之一。
總結(jié)
我們剛才講了四個例子,核心是要給客戶創(chuàng)造價(jià)值,這個價(jià)值有的是錦上添花,但基本上是雪中送炭和創(chuàng)造出來的剛需為主,因?yàn)檫@部分更有競爭力一點(diǎn),在商業(yè)上也更容易成功。
我們再回到最開始,確實(shí)人工智能會去改變、去顛覆、去革新各個行業(yè)。所以我經(jīng)常講的一句話是:Intelligence Everywhere,勢不可當(dāng)。我們從業(yè)者在這其中,到底是成為“勢”還是“擋”,這是我們不同的選擇,不同的選擇和策略,可能成為擋,也可能成為勢。
人工智能對行業(yè)的影響一定會進(jìn)入各行各業(yè),大量的簡單勞動力可能會被機(jī)器替代,復(fù)雜但有規(guī)律的腦力勞動也可能會被替代掉,頂級的技術(shù)、藝術(shù)、設(shè)計(jì)、服務(wù)、科研、教育等這些還需要專業(yè)的人力,但人工智能會成為他們的助理。
人工智能今天如果真正能讓它落地,而不是成為一個泡沫,不是成為一個虛的東西的話,我們一定要深入這個行業(yè)、理解這個行業(yè),理解這個行業(yè)的數(shù)據(jù)、需求、局限、和價(jià)值點(diǎn)等,為這個行業(yè)的場景定制出最適合的最有效的算法和系統(tǒng),這樣的話才能夠真正讓人工智能落在實(shí)處,能夠創(chuàng)造、改變我們的未來。
-
人工智能
+關(guān)注
關(guān)注
1806文章
49012瀏覽量
249393 -
視覺設(shè)計(jì)
+關(guān)注
關(guān)注
0文章
2瀏覽量
1640
原文標(biāo)題:華先勝:無行業(yè), 不AI——阿里視覺智能的探索與實(shí)踐
文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
德索TNC優(yōu)良插座:工業(yè)場景的可靠電力伙伴?

CES Asia 2025蓄勢待發(fā),聚焦低空經(jīng)濟(jì)與AI,引領(lǐng)未來產(chǎn)業(yè)新變革
最新人工智能硬件培訓(xùn)AI 基礎(chǔ)入門學(xué)習(xí)課程參考2025版(大模型篇)
蘇州芯矽科技:半導(dǎo)體清洗機(jī)的堅(jiān)實(shí)力量
芯華章以AI+EDA重塑芯片驗(yàn)證效率

評論