機器學(xué)習(xí)是目前計算機領(lǐng)域最火的技術(shù)之一,從電商到自動駕駛,都有機器學(xué)習(xí)的應(yīng)用。但是,當(dāng)大眾談起機器學(xué)習(xí)時,卻往往以 AI(人工智能) 代稱,這遭到了很多學(xué)者的批判,機器學(xué)習(xí)宗師級大牛邁克爾 · 喬丹更是直言不諱,稱“我討厭將機器學(xué)習(xí)稱為 AI”。
雖然機器學(xué)習(xí)目前能夠解決的問題非常有限,但是它確實讓我們看到了新一輪科技變革的曙光。然而,關(guān)于機器學(xué)習(xí)的炒作已經(jīng)太多,我們需要從不同的角度去審視它,認真思考,才能真正理解它。
作為一名風(fēng)投經(jīng)理,Andreessen Horowitz 展現(xiàn)了自己的獨特視角,提出關(guān)系數(shù)據(jù)庫和自動化是幫助我們理解機器學(xué)習(xí)的兩個重要概念。Horowitz 認為,洗衣機是自動化機器的一種,但是它沒有“智能”,而機器學(xué)習(xí)也可以看作一種可以實現(xiàn)自動化的技術(shù),人們用它打造的只不過是一臺臺智能時代的“洗衣機”。
以下內(nèi)容由AI科技大本營編譯:
機器學(xué)習(xí)進入公眾視野已經(jīng)有四五年了,幾乎達到了婦孺皆知的地步。不僅每天都有各種初創(chuàng)公司涌現(xiàn),大型科技平臺公司也正圍繞機器學(xué)習(xí)進行自我改造:科技行業(yè)以外的所有人大都讀過《經(jīng)濟學(xué)人》或《商業(yè)周刊》的封面故事,很多大公司也有一些項目正在進行。我們都知道,這會是下一個風(fēng)口。
更進一步,理論上我們大多了解神經(jīng)網(wǎng)絡(luò)是什么,它可能與模式和數(shù)據(jù)有關(guān)。機器學(xué)習(xí)讓我們在數(shù)據(jù)中找到模式或結(jié)構(gòu),這些模式或結(jié)構(gòu)是隱式和概率性的(因此是“推斷”),而不是顯式的,這在以前只有人類才能找到,計算機是無法找到的。機器學(xué)習(xí)解決了這類問題:那些以前“對計算機而言很難,但對人類來說很容易”的問題,或者說“對計算機來說很難描述”的問題。
不過,我認為我們還沒有一個明確的概念,即機器學(xué)習(xí)對科技公司或更廣泛的經(jīng)濟體系中的公司意味著什么,如何在結(jié)構(gòu)上思考它能夠帶來什么新事物,或者機器學(xué)習(xí)對我們所有人意味著什么,以及它實際上能夠解決什么重要問題。
“人工智能”(Artificial Intelligence)一詞并沒有起到什么幫助作用,它只會讓討論進行不下去,或者早早結(jié)束。當(dāng)我們說起“人工智能”時,就好像 2001 年初的黑色巨石(black monolith)出現(xiàn)了一樣,我們都變成了猿類,對著它尖叫,揮舞著拳頭。結(jié)果就是,我們無法真正分析“人工智能”。
編者注:black monolith,黑色巨石。源自阿瑟·克拉克(Arthur C. Clarke)的科幻小說《2001:太空奧德賽》(Space Odyssey,又譯:《2001:太空漫游》)。書中描述道,高度智慧的外星生命在地球上留下了一塊黑石。在書中黑石代表著遠遠超過人類觸及范圍的智慧。
事實上,我可以列舉一長串無助于討論當(dāng)前機器學(xué)習(xí)發(fā)展的方式,例如:
數(shù)據(jù)是新的“石油”
Google 和中國(或 Facebook、Amazon,BAT)擁有所有的數(shù)據(jù)
人工智能將承擔(dān)所有的工作
把機器學(xué)習(xí)稱為人工智能
當(dāng)然,也有其他更有益的方式:
自動化
技術(shù)賦能層
關(guān)系數(shù)據(jù)庫
為什么提到關(guān)系數(shù)據(jù)庫?因為它是一個新的基礎(chǔ)賦能層,改變了計算機所能勝任的事情。在于上世紀 70 年代末關(guān)系數(shù)據(jù)庫出現(xiàn)之前,如果你想讓數(shù)據(jù)庫顯示你希望的東西,比如“所有已購買此產(chǎn)品且居住在此城市的客戶”,通常需要一個專門的工程項目才能實現(xiàn)。數(shù)據(jù)庫不是用結(jié)構(gòu)化的,因此任何任意交叉引用查詢都非比尋常的困難。數(shù)據(jù)庫是記錄保存系統(tǒng),而關(guān)系數(shù)據(jù)庫則把它們變成了商業(yè)智能系統(tǒng)。
這樣一來就極大地改變了數(shù)據(jù)庫的用途,從而創(chuàng)建了新的用例,催生了市值高達數(shù)十億美元的新公司。關(guān)系數(shù)據(jù)庫不僅為我們帶來了 Oracle,也帶來了 SAP。而 SAP 和它的同行們給我們帶來了全球即時供應(yīng)鏈——蘋果和星巴克。到了 90 年代,幾乎所有的企業(yè)軟件無一例外都是關(guān)系數(shù)據(jù)庫:PeopleSoft、CRM 和 SuccessFactors 等數(shù)十種軟件都是運行在關(guān)系數(shù)據(jù)庫之上。沒有人指著 SuccessFactors 或 Salesforce 說,“這玩意兒將永遠不會起作用,因為 Oracle 擁有所有的數(shù)據(jù)庫”——相反,這項技術(shù)成了一個賦能層,它成了所有東西的一部分。
所以,這也是如今我們思考機器學(xué)習(xí)的一個很好的方式——它是我們利用計算機所能做的進一步改進,它將成為許多各家公司不同產(chǎn)品的一部分。最終,幾乎所有的東西都有機器學(xué)習(xí)在里面,沒人關(guān)心,也沒人驚奇。
兩者之間重要的相似之處在于,盡管關(guān)系數(shù)據(jù)庫具有規(guī)模效應(yīng),但別忘了網(wǎng)絡(luò)是有限的,或者說“贏家通吃”的效應(yīng),機器學(xué)習(xí)也一樣。如果 B 公司和 A 公司一樣,從同一家供應(yīng)商購買相同的數(shù)據(jù)庫軟件,那么 A 公司使用的數(shù)據(jù)庫并不會因此變得更好。機器學(xué)習(xí)實際上也是差不多的情況:機器學(xué)習(xí)都是數(shù)據(jù)相關(guān)的,但是特定應(yīng)用的需要的數(shù)據(jù)卻是不同的。更多的手寫數(shù)據(jù)會使手寫體識別器變得更好,而更多的燃氣輪機數(shù)據(jù)也會使系統(tǒng)更好地預(yù)測燃氣輪機的故障,但是其中一套數(shù)據(jù)對另一個系統(tǒng)卻毫無幫助。記住,數(shù)據(jù)是不可替代的。
這就觸及了在談?wù)摍C器學(xué)習(xí)時最常見的誤解的核心:在某種程度上,機器學(xué)習(xí)是通往 HAL 9000 (編者注:HAL 9000是《2001:太空漫游》中的最具人性的超級計算機)道路上一種單一的、通用的東西;或者 Google 或微軟各自建立了“一個(HAL 9000)”;或者 Google “擁有所有的數(shù)據(jù)”;或者 IBM 已經(jīng)擁有了一個真實的東西(HAL 9000),叫作 Waston。的確,人們在看待自動化時總會犯相同的錯誤:每一波自動化浪潮,我們奪回想象人們正在創(chuàng)造一些擬人化的東西,或者具有通用智能的玩意。要知道,這可是有前車之鑒的:在 1920-1930 年代,我們想象的是,鋼鐵機器人拿著錘子在工廠里走來走去;而在 50 年代,我們想象的是人形機器人在廚房里干家務(wù)。然而我們并沒有得到機器仆人,但好在我們有了洗衣機。
你可以說洗衣機就是機器人,但它們沒有“智能”。它們并不知道水和衣服是什么。此外,就算在洗滌領(lǐng)域中,洗衣機也并不是通用的:你不能把盤子放進洗衣機里,也不能把衣服放進洗碗機里(或者說,你可以這么做,但你不會得到想要的結(jié)果)。它們只是另一種形式的自動化罷了,在概念上,與傳送帶或送料機并沒有什么不同。同樣,機器學(xué)習(xí)讓我們得以解決以前計算機無法解決的問題,但是這些問題中,每個問題都需要不同的實現(xiàn)、不同的數(shù)據(jù)、不同的市場路線以及不同的公司才能解決。這些都是自動化的一部分,你可以把它們看作一臺臺洗衣機。
因此,我們談?wù)摍C器學(xué)習(xí)的挑戰(zhàn)之一,就是在數(shù)學(xué)的機械解釋與幻想之間找到一個平衡點。機器學(xué)習(xí)并不會創(chuàng)造出 HAL 9000(至少,這個領(lǐng)域中很少有人會認為它很快就能實現(xiàn)),但認為它“只是統(tǒng)計數(shù)據(jù)”對于理解也沒有幫助。讓我們重新審視與關(guān)系數(shù)據(jù)庫的相似之處,這可能更像是在 1980 年討論 SQL 一樣:如何從解釋表連接(table join)到思考 Salesforce.com?如果你說“這可以讓你問些新問題”,這當(dāng)然是非常好的,但是問題并不總是清晰明了。你可以制作一些令人印象深刻的語音識別和圖像識別的演示,但是,如果是一家普通的公司會怎么做呢?就像美國一家大型媒體公司的一個團隊不久前對我說的那樣:“我們知道,我們可以使用機器學(xué)習(xí)來索引十年來的運動員采訪視頻,但是,我們尋找的究竟是什么呢?”
那么,對于真正的公司來說,機器學(xué)習(xí)的“洗衣機”到底是什么呢?我認為有兩套工具可以用來幫助思考這個問題。首先是考慮數(shù)據(jù)類型和問題類型的流程:
那么,對于真正的公司來說,機器學(xué)習(xí)的“洗衣機”到底是什么呢?我認為有兩套工具可以用來幫助思考這個問題。首先是考慮數(shù)據(jù)類型和問題類型的形式:
對于擁有相關(guān)數(shù)據(jù)的問題,機器學(xué)習(xí)可以提供更好的結(jié)果,這僅僅是作為一種分析或優(yōu)化技術(shù)。
機器學(xué)習(xí)可以讓你基于已有數(shù)據(jù)提出新的問題。
第三,機器學(xué)習(xí)為分析領(lǐng)域開辟了新的數(shù)據(jù)類型:以前計算機無法真正“讀取”音頻、圖像和視頻,而現(xiàn)在這種可能性越來越大了。
在這方面中,我發(fā)現(xiàn)最令人興奮的是影像領(lǐng)域。以往,只要我們有計算機,就能夠處理文本和數(shù)字,但圖像(和視頻)對它們而言,大多都是盲區(qū)。現(xiàn)在,它們可以“看到”了,就像它們可以讀文本和數(shù)字一樣。這意味著圖像傳感器(和麥克風(fēng))將成為一個全新的輸入機制:與其說是一個“攝像頭”,還不如說就是一個全新的、強大的、靈活的傳感器,它可以生成機器可讀的數(shù)據(jù)流。未來各種各樣的問題,最終都會演變成計算機視覺問題,盡管今天看上去并不像是計算機視覺方面的問題。
最近我遇到了一家為汽車行業(yè)提供座椅的公司,該公司已經(jīng)在廉價的 DSP 芯片上部署了神經(jīng)網(wǎng)絡(luò),并與廉價的智能手機圖像傳感器相結(jié)合,以檢測織物是否有起皺的現(xiàn)象(我們應(yīng)該期待的是,市面將涌現(xiàn)各種類似用途的機器學(xué)習(xí)的小玩意兒,它們非常小巧、便宜,只做一件事,就像文章Why the Future of Machine Learning is Tiny 說的那樣)。它實際上就是把以前無法自動化的任務(wù)自動化,因此將它描述為“人工智能”是不利于我們理解的。
這種自動化的概念是思考機器學(xué)習(xí)的第二個工具。發(fā)現(xiàn)織物上是否存在起皺的現(xiàn)象并不需要 20 年的經(jīng)驗:做到這一點,真的只需要哺乳動物的大腦就夠了。事實上,有位同事跟我說,你可以訓(xùn)練狗狗做的事情,機器學(xué)習(xí)也可以做到,這也是思考人工智能偏見的一個有用途徑(狗狗到底學(xué)到了什么?訓(xùn)練數(shù)據(jù)中有什么?你確定嗎?你會怎么問?),但是它也有限制,因為狗狗確實具備一般的智力和常識,并不像我們知道的任何神經(jīng)網(wǎng)絡(luò)。吳恩達表示機器學(xué)習(xí)在不到一秒內(nèi)就可以做任何你所能做的事情。談?wù)摍C器學(xué)習(xí)確實是在尋找隱喻,但我更喜歡這個隱喻:機器學(xué)習(xí)給你的其實是無限數(shù)量的實習(xí)生,或者無限數(shù)量的十歲孩童。
五年前,如果你給一臺計算機一堆照片,它所能做的,只是按照片尺寸大小排序。而一個十歲孩童,可以把這堆照片按男人和女人來分組,一個十五歲的少年可以按照“酷”和“不酷”來進行劃分照片,一個實習(xí)生可以指著某張照片說“這個人真的很有趣”。今天,有了機器學(xué)習(xí)的加持,計算機的能力將會與十歲孩童或者十五歲少年相仿。但它可能永遠不會達到實習(xí)生的水平。但是如果你有一百萬名十五歲的少年來一起來查看數(shù)據(jù),你將會怎么做呢?你會接聽什么樣的電話,會瀏覽什么樣的圖像,會檢查哪些文件傳輸或用信用卡付款呢?
也就是說,機器學(xué)習(xí)不必與專家或者數(shù)十年的經(jīng)驗或判斷相匹配。我們不是自動化專家。相反,我們要求的是:接聽所有的電話,找到那些憤怒的人;瀏覽十萬張照片,找到那些看上去很酷(或者至少看上去怪異)的人。
從某種意義上說,這就是自動化始終在做的事情;正如 Excel 并沒有給我們帶來人工會計師,Photoshop 和 Indesign 也沒有給我們帶來人工平面設(shè)計師,實際上,蒸汽機也沒有給我們帶來人造馬匹。(在早期的“人工智能”浪潮中,能夠?qū)膰H象棋的計算機并沒有給我們帶來一個裝在盒子里的、性情乖戾的俄國中年人。)相反,我們將一項離散任務(wù)大規(guī)模地自動化了。
如果這個隱喻被打破(就像所有的隱喻一樣),那么,在某些領(lǐng)域中,機器學(xué)習(xí)不僅能找到我們已經(jīng)能夠識別的東西,而且還能找到人類無法識別的東西。DeepMind 的 AlphaGo 就是最好的例子。AlphaGo 不會像下國際象棋的計算機那樣去下圍棋:按照順序分析每一種可能的棋步。相反,它被賦予了規(guī)則,讓它自己嘗試制定策略,與自己下棋的次數(shù),要比人類在有生之年所能下的棋還要多。也就是說,這并不是一千名實習(xí)生,而是一名非常非??斓膶嵙?xí)生。如果你給實習(xí)生一千萬張照片,他們?yōu)g覽完會說:“這很有趣,但當(dāng)我看到第三百萬張照片時,這種模式才真正開始出現(xiàn)?!蹦敲?,哪些領(lǐng)域足夠窄又足夠深,以至于我們可以告訴一個機器學(xué)習(xí)系統(tǒng)規(guī)則(或者給它一個分數(shù)),只要查看所有數(shù)據(jù),就能得出人類無法得出的新結(jié)果?
我花了很多時間去了解大公司,討論他們的技術(shù)需求,他們在機器學(xué)習(xí)方面通常有一些非常明顯的、可輕易實現(xiàn)的目標(biāo)。既有很多明顯的分析和優(yōu)化問題,也有很多明顯的圖像識別問題或音頻分析問題。同樣,我們討論自動駕駛汽車和混合現(xiàn)實的唯一原因就是機器學(xué)習(xí)(可能)讓它們能夠得以實現(xiàn)。但當(dāng)我們討論織物上的起皺情況或客戶服務(wù)中心的情緒分析之后,這些公司接下來往往問道:“還有什么呢?”這將帶來什么其他的東西嗎?它會發(fā)現(xiàn)哪些我們不知道的未知事物呢?
在機器學(xué)習(xí)變得稀松平常之前,我們可能還有十到十五年的時間。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103639 -
人工智能
+關(guān)注
關(guān)注
1807文章
49029瀏覽量
249571 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8503瀏覽量
134630
原文標(biāo)題:機器學(xué)習(xí)和洗衣機的關(guān)系?
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
評論