摘要:任何人工智能的難題都可以被解決。唯一能證明這一論斷成立的是這樣一個事實:自然界通過進化已經(jīng)解決了這些難題。但在20世紀(jì)50年代就已經(jīng)存在各種暗示,如果AI研究者能夠選擇完全不同于符號處理的方式,計算機會如何表現(xiàn)出智能行為。
第一條暗示是,我們的大腦是強大的模式識別器。我們的視覺系統(tǒng)可以在1/10秒內(nèi)識別混亂場景中的對象,即使我們可能從未見過那個特定的對象,也不論該對象在什么位置,多大尺寸,以什么角度面對我們。簡而言之,我們的視覺系統(tǒng)就像一臺以“識別對象”作為單一指令的計算機。
第二條暗示是,我們的大腦可以通過練習(xí)來學(xué)會如何執(zhí)行若干艱巨的任務(wù),比如彈鋼琴、掌握物理學(xué)知識。大自然使用通用的學(xué)習(xí)方法來解決特殊的問題,而人類則是頂尖的學(xué)習(xí)者。這是我們的特殊能力。我們大腦皮層的結(jié)構(gòu)整體上是相似的,并且我們所有的感受系統(tǒng)和運動系統(tǒng)都有深度學(xué)習(xí)網(wǎng)絡(luò)。
第三條暗示是,我們的大腦并沒有充斥著邏輯或規(guī)則。當(dāng)然,我們可以學(xué)習(xí)邏輯思維或遵守規(guī)則,但必須要經(jīng)過大量的訓(xùn)練,而我們當(dāng)中的大多數(shù)人對此并不在行。這一點可以通過人們在一個叫作“華生選擇任務(wù)”(Wason selection task)的邏輯謎題上的典型表現(xiàn)來進行說明(見圖3–1)。
圖3–1
圖3-1這四張卡片,每張都是一面有數(shù)字,另一面涂滿了顏色。要測試以下命題為真:一張卡片在一面顯示為偶數(shù),那它的另一面就是紅色的。你需要翻哪(幾)張牌呢?圖片來源:“華生選擇任務(wù)”,維基百科。
正確的選擇是正面為數(shù)字“8”,背面為棕色的卡片。在最初的研究中,只有10%的受試者給出了正確的答案。但是,當(dāng)給這項邏輯測試加上了熟悉的背景信息時,大多數(shù)受試者都能很快找出正確答案(見圖3–2)。
圖3–2
推理似乎是基于特定領(lǐng)域的,我們對該領(lǐng)域越熟悉,就越容易解決其中的問題。經(jīng)驗使得在一個領(lǐng)域內(nèi)進行推理變得更容易,因為我們可以用已有的例子來下意識地得到解決方案。例如,在物理學(xué)中,我們通過解決各種問題,而不是通過背誦公式,來學(xué)習(xí)電磁學(xué)領(lǐng)域的知識。如果人類的智能是完全基于邏輯的,那么它應(yīng)該是跨領(lǐng)域的通用智能,但事實并非如此。
圖3-2每張卡片都是一面有一個年齡數(shù)字,另一面印著一種飲料。需要翻哪(幾)張牌才能檢驗這條法律:如果你正在喝酒,那說明你一定超過18歲了?圖片來源:“華生選擇任務(wù)”,維基百科。
第四條暗示是,我們的大腦充滿了數(shù)百億個小小的神經(jīng)元,每時每刻都在互相傳遞信息。這表明,要解決人工智能中的難題,我們應(yīng)該研究具有大規(guī)模并行體系結(jié)構(gòu)的計算機,而不是那些具有馮·諾依曼數(shù)字體系結(jié)構(gòu),每次只能獲取和執(zhí)行一個數(shù)據(jù)或指令的計算機。是的,圖靈機在被給予足夠內(nèi)存和時間的條件下,的確可以計算任何可計算的函數(shù),但自然界必須實時解決問題。要做到這一點,它利用了大腦的神經(jīng)網(wǎng)絡(luò),就像地球上最強大的計算機一樣,它們具有大量的并行處理器。只有能有效運行的算法,最終才能在自然選擇中勝出。
深度學(xué)習(xí)的起點
20世紀(jì)五六十年代,在諾伯特·維納(Norbert Wiener)提出基于機器和生物中的通信和控制系統(tǒng)的控制論之后不久,學(xué)界對自組織系統(tǒng)開始產(chǎn)生了濃厚的興趣。而其中一個獨創(chuàng)性產(chǎn)物便是由奧利弗·塞弗里奇(Oliver Selfridge) 創(chuàng)造的Pandemonium(鬼域)。這是一個圖案識別設(shè)備,其中進行特征檢測的“惡魔”通過互相競爭,來爭取代表圖像中對象的權(quán)利(深度學(xué)習(xí)的隱喻,見圖3–3)。斯坦福大學(xué)的伯納德·威德羅(Bernard Widrow)和他的學(xué)生泰德·霍夫(Ted Hoff)發(fā)明了LMS(最小均方)學(xué)習(xí)算法,它與其后繼算法一起被廣泛用于自適應(yīng)信號處理,例如噪聲消除、財務(wù)預(yù)測等應(yīng)用。在這里, 我將重點關(guān)注一位先驅(qū)弗蘭克·羅森布拉特(Frank Rosenblatt)(圖3–4),他發(fā)明的感知器是深度學(xué)習(xí)的前身。
圖3-3 Pandemonium。奧利弗·塞弗里奇認(rèn)為,大腦中有惡魔負(fù)責(zé)從感官輸入中先后提取更復(fù)雜的特征和抽象概念,從而做出決定。如果每個級別的惡魔與前一個級別的輸入相匹配,則會激動不已。做決定的惡魔需要衡量所有信息傳遞者的興奮程度和重要性。這種形式的證據(jù)評估是對當(dāng)前多層次深度學(xué)習(xí)網(wǎng)絡(luò)的隱喻。圖片來源:Peter H. Lindsay and Donald A. Norman, Human Information Processing: An Introduction to Psychology, 2nded. (New York: Academic Press, 1977),圖3-1。維基共享資源:https://commons.wikimedia.org/wiki/File:Pande.jpg。
圖3-4深思中的康奈爾大學(xué)教授弗蘭克·羅森布拉特,他發(fā)明了感知器。作為深度學(xué)習(xí)網(wǎng)絡(luò)的早期雛形,感知器是能夠?qū)D像進行分類的簡易學(xué)習(xí)算法。圖中文章是1958年7月8日在《紐約時報》上發(fā)表的一篇來自合眾國際社(UPI)的報道。感知器在1959年完成時預(yù)計花費了10萬美元,相當(dāng)于今天的100萬美元。IBM 704計算機在1958年價值200萬美元,相當(dāng)于現(xiàn)在的2000萬美元,可以實現(xiàn)每秒12000次的乘法運算,這在當(dāng)時已經(jīng)是極快的速度了。不過相比之下,現(xiàn)在價格要低得多的三星Galaxy S 6手機每秒可以執(zhí)行340億次操作,速度要快100萬倍以上。圖片來源:George Nagy。
從樣本中學(xué)習(xí)
盡管我們對大腦功能缺乏足夠的了解,但神經(jīng)網(wǎng)絡(luò)的AI先驅(qū)們依然依靠著神經(jīng)元的繪圖以及它們相互連接的方式,進行著艱難的摸索。康奈爾大學(xué)的弗蘭克·羅森布拉特是最早模仿人體自動圖案識別視覺系統(tǒng)架構(gòu)的人之一。他發(fā)明了一種看似簡單的網(wǎng)絡(luò)感知器(perceptron),這種學(xué)習(xí)算法可以學(xué)習(xí)如何將圖案進行分類,例如識別字母表中的不同字母。算法是為了實現(xiàn)特定目標(biāo)而按步驟執(zhí)行的過程,就像烘焙蛋糕的食譜一樣。
如果你了解了感知器如何學(xué)習(xí)圖案識別的基本原則,那么你在理解深度學(xué)習(xí)工作原理的路上已經(jīng)成功了一半。感知器的目標(biāo)是確定輸入的圖案是否屬于圖像中的某一類別(比如貓)。方框3.1解釋了感知器的輸入如何通過一組權(quán)重,來實現(xiàn)輸入單元到輸出單元的轉(zhuǎn)換。權(quán)重是對每一次輸入對輸出單元做出的最終決定所產(chǎn)生影響的度量,但是我們?nèi)绾握业揭唤M可以將輸入進行正確分類的權(quán)重呢?
工程師解決這個問題的傳統(tǒng)方法,是根據(jù)分析或特定程序來手動設(shè)定權(quán)重。這需要耗費大量人力,而且往往依賴于直覺和工程方法。另一種方法則是使用一種從樣本中學(xué)習(xí)的自動過程,和我們認(rèn)識世界上的對象的方法一樣。需要很多樣本來訓(xùn)練感知器,包括不屬于該類別的反面樣本,特別是和目標(biāo)特征相似的,例如,如果識別目標(biāo)是貓,那么狗就是一個相似的反面樣本。這些樣本被逐個傳遞給感知器,如果出現(xiàn)分類錯誤,算法就會自動對權(quán)重進行校正。
這種感知器學(xué)習(xí)算法的美妙之處在于,如果已經(jīng)存在這樣一組權(quán)重,并且有足夠數(shù)量的樣本,那么它肯定能自動地找到一組合適的權(quán)重。在提供了訓(xùn)練集中的每個樣本,并且將輸出與正確答案進行比較后,感知器會進行遞進式的學(xué)習(xí)。如果答案是正確的,那么權(quán)重就不會發(fā)生變化。但如果答案不正確(0被誤判成了1,或1被誤判成了0),權(quán)重就會被略微調(diào)整,以便下一次收到相同的輸入時,它會更接近正確答案(見方框3.1)。這種漸進的變化很重要,這樣一來,權(quán)重就能接收來自所有訓(xùn)練樣本的影響,而不僅僅是最后一個。
如果對感知器學(xué)習(xí)的這種解釋還不夠清楚,我們還可以通過另一種更簡潔的幾何方法,來理解感知器如何學(xué)習(xí)對輸入進行分類。對于只有兩個輸入單元的特殊情況,可以在二維圖上用點來表示輸入樣本。每個輸入都是圖中的一個點,而網(wǎng)絡(luò)中的兩個權(quán)重則確定了一條直線。感知器學(xué)習(xí)的目標(biāo)是移動這條線,以便清楚地區(qū)分正負(fù)樣本(見圖3–5)。對于有三個輸入單元的情況,輸入空間是三維的,感知器會指定一個平面來分隔正負(fù)訓(xùn)練樣本。在一般的情況下,即使輸入空間的維度可能相當(dāng)高且無法可視化,同樣的原則依然成立。
圖3-5關(guān)于感知器如何區(qū)分兩個對象類別的幾何解釋。這些對象有兩個特征,例如尺寸和亮度,它們依據(jù)各自的坐標(biāo)值(x,y)被繪制在每張圖上。左邊圖中的兩種對象(加號和正方形)可以通過它們之間的直線分隔開;感知器能夠?qū)W習(xí)如何進行這種區(qū)分。其他兩個圖中的兩種對象不能用直線隔開,但在中間的圖中,兩種對象可以用曲線分開。而右側(cè)圖中的對象必須舍棄一些樣本才能分隔成兩種類型。如果有足夠的訓(xùn)練數(shù)據(jù),深度學(xué)習(xí)網(wǎng)絡(luò)就能夠?qū)W習(xí)如何對這三個圖中的類型進行區(qū)分。
最終,如果解決方案是可行的,權(quán)重將不再變化,這意味著感知器已經(jīng)正確地將訓(xùn)練集中的所有樣本進行了分類。但是,在所謂的“過度擬合”(overfitting)中,也可能沒有足夠的樣本,網(wǎng)絡(luò)僅僅記住了特定的樣本,而不能將結(jié)論推廣到新的樣本。為了避免過度擬合,關(guān)鍵是要有另一套樣本,稱為“測試集”(test set),它沒有被用于訓(xùn)練網(wǎng)絡(luò)。訓(xùn)練結(jié)束時,在測試集上的分類表現(xiàn),就是對感知器是否能夠推廣到類別未知的新樣本的真實度量。泛化(generalization)是這里的關(guān)鍵概念。在現(xiàn)實生活中,我們幾乎不會在同樣的視角看到同一個對象,或者反復(fù)遇到同樣的場景,但如果我們能夠?qū)⒁郧暗慕?jīng)驗泛化到新的視角或場景中, 我們就可以處理更多現(xiàn)實世界的問題。
利用感知機區(qū)分性別
舉一個用感知器解決現(xiàn)實世界問題的例子。想想如果去掉頭發(fā)、首飾和第二性征,比如男性比女性更為突起的喉結(jié),該如何區(qū)分男性和女性的面部。比阿特麗斯·哥倫布(Beatrice Golomb)是1990年我實驗室里的一名博士后研究員,她利用一個數(shù)據(jù)庫中的大學(xué)生面部照片作為感知器的輸入,經(jīng)過訓(xùn)練的感知器能以81%的準(zhǔn)確度對面部的性別進行分類(見圖3–6)。而對于感知器難以分類的面部,人類也同樣很難做出區(qū)分。我實驗室的成員在同一組人的面部識別上達(dá)到了88%的平均準(zhǔn)確度。比阿特麗斯還訓(xùn)練了多層感知器,其準(zhǔn)確度達(dá)到了92%,9比我實驗室的成員還要準(zhǔn)確。她在1991年的NIPS大會上發(fā)表的演講中總結(jié)道:“經(jīng)驗可以提高性能,這表明實驗室的研究人員需要花更多時間來進行性別鑒定的工作?!彼阉亩鄬痈兄鹘凶鳌癝EXNET”(性別網(wǎng)絡(luò))。在問答環(huán)節(jié),有人問是否可以使用SEXNET來檢測異裝癖者的面孔?!翱梢浴!北劝⑻佧愃惯@樣回答。而NIPS大會的創(chuàng)始人愛德華·波斯納(Edward Posner)辯駁道:“那就應(yīng)該叫DRAGNET(法網(wǎng))?!?/p>
圖3-6這張臉屬于男性還是女性?人們通過訓(xùn)練感知器來辨別男性和女性的面孔。來自面部圖像(上圖)的像素乘以相應(yīng)的權(quán)重(下圖),并將該乘積的總和與閾值進行比較。每個權(quán)重的大小被描繪為不同顏色像素的面積。正值的權(quán)重(白色)表現(xiàn)為男性,負(fù)值的權(quán)重(黑色)傾向于女性。鼻子寬度,鼻子和嘴之間區(qū)域的大小,以及眼睛區(qū)域周圍的圖像強度對于區(qū)分男性很重要,而嘴和顴骨周圍的圖像強度對于區(qū)分女性更重要。圖片來源:M. S. Gray,D. T. Lawrence,B. A. Golomband T.J.Sejnowski,“A Perceptron Reveals the Face of Sex,” Neural Computation 7 ( 1995 ):1160 - 1164,圖1。
區(qū)分男性與女性面部的工作有趣的一點是,雖然我們很擅長做這種區(qū)分,卻無法確切地表述男女面部之間的差異。由于沒有單一特征是決定性的,因此這種模式識別問題要依賴于將大量低級特征的證據(jù)結(jié)合起來。感知器的優(yōu)點在于,權(quán)重提供了對性別區(qū)分最有幫助的面部的線索。令人驚訝的是,人中(即鼻子和嘴唇之間的部分)是最顯著的特征,大多數(shù)男性人中的面積更大。眼睛周圍的區(qū)域(男性較大)和上頰(女性較大)對于性別分類也有著很高的信息價值。感知器會權(quán)衡來自所有這些位置的證據(jù)來做出決定,我們也是這樣來做判定的, 盡管我們可能無法描述出到底是怎么做到的。
1957年羅森布拉特對“感知器收斂定理”的證明是一個突破,他的演示令人印象深刻。在美國海軍研究辦公室(Office of Naval Research)的支持下,他搭建了一個以400個光電單元作為輸入的定制硬件模擬計算機,其權(quán)重是由電機調(diào)整的可變電阻電位器。模擬信號隨著時間連續(xù)變化,就像黑膠唱片中的信號一樣。用一組圖片集(其中部分圖片中有坦克,另外一部分則沒有)進行訓(xùn)練,羅森布拉特的感知器即使在新圖像中也能準(zhǔn)確識別坦克。這一成果經(jīng)《紐約時報》報道后引起了轟動(見圖3–4)。
感知器激發(fā)了對高維空間中模式分離的美妙的數(shù)學(xué)分析。當(dāng)那些點存在于有數(shù)千個維度的空間中時,我們就無法依賴在生活的三維空間里對點和點之間距離的直覺。俄羅斯數(shù)學(xué)家弗拉基米爾·瓦普尼克(Vladimir Vapnik)在這種分析的基礎(chǔ)上引入了一個分類器, 稱為“支持向量機”(Support Vector Machine),它將感知器泛化,并被大量用于機器學(xué)習(xí)。他找到了一種自動尋找平面的方法,能夠最大限度地將兩個類別的點分開(見圖3–5,線性)。這讓泛化對空間中數(shù)據(jù)點的測量誤差容忍度更大,再結(jié)合作為非線性擴充的“內(nèi)核技巧”(kernel trick),支持向量機算法就成了機器學(xué)習(xí)中的重要支柱。
一個被低估的神經(jīng)網(wǎng)路
但是有一個限制,使得感知器的研究存在問題。上面的假設(shè)“如果存在這樣的權(quán)重集合”提出了一個這樣的困惑,即什么樣的問題可能或不可能被感知器解決。令人尷尬的是,在二維平面中,簡單分布的點不能被感知器分開(見圖3–5,非線性)。事實證明,坦克感知器不是坦克分類器,而是天氣分類器。a對圖像中的坦克進行分類要困難得多,而事實上,它不能用感知器來完成。這也表明,即使感知器學(xué)到了一些東西,也可能不是你認(rèn)為它應(yīng)該學(xué)到的那些東西。壓倒感知器的最后一根稻草是馬文·明斯基和西摩爾·帕普特在1969年發(fā)表的數(shù)學(xué)專著《感知器》(Perceptrons)。 他們明確的幾何分析表明,感知器的能力是有限的:它們只能區(qū)分線性可分的類別(見圖3–5)。
這本書的封面展示了明斯基和帕普特證明的感知器無法解決的幾何問題(見圖3–7)。盡管在書的末尾,明斯基和帕普特考慮了將單層感知器進行泛化成為多層感知器的前景, 但他們懷疑可能沒有辦法訓(xùn)練這些更強大的感知器。不幸的是,許多人對他們的論斷堅信不疑,于是這個研究領(lǐng)域漸漸被人們遺忘,直到20世紀(jì)80年代,新一代神經(jīng)網(wǎng)絡(luò)研究人員開始重新審視這個問題。
在感知器中,每個輸入都獨立地向輸出單元提供證據(jù)。但是,如果需要依靠多個輸入的組合來做決定,那會怎樣呢?這就是感知器無法區(qū)分螺旋結(jié)構(gòu)是否相連的原因:單個像素并不能提供它是在內(nèi)部還是外部的位置信息。盡管在多層前饋神經(jīng)網(wǎng)絡(luò)中,可以在輸入和輸出單元之間的中間層中形成多個輸入的組合,但是在20世紀(jì)60年代,還沒有人知道如何訓(xùn)練簡單到中間只有一層“隱藏單元”(hiddenunits)的神經(jīng)網(wǎng)絡(luò)。
弗蘭克·羅森布拉特和馬文·明斯基曾是紐約市布朗克斯科技高中的同班同學(xué)。他們在科學(xué)會議上為各自迥異的人工智能研究方法展開了辯論,而與會者更傾向于明斯基的方法。盡管存在差異,但他們二人對我們理解感知器都有著重要貢獻(xiàn),而這正是深度學(xué)習(xí)的起點。
羅森布拉特在1971年死于一次駕船事故,年僅43歲,當(dāng)時正值人們幾乎一邊倒地反對感知器的時期。有傳言說他可能是自殺,但也可能只是一次不幸的出游。15不可否認(rèn)的是,一個發(fā)現(xiàn)了利用神經(jīng)網(wǎng)絡(luò)進行計算的新方式的英雄時代已經(jīng)謝幕;又過了整整一代人的時間,羅森布拉特開創(chuàng)性努力的承諾才得以實現(xiàn)。
未來智能實驗室是人工智能學(xué)家與科學(xué)院相關(guān)機構(gòu)聯(lián)合成立的人工智能,互聯(lián)網(wǎng)和腦科學(xué)交叉研究機構(gòu)。
未來智能實驗室的主要工作包括:建立AI智能系統(tǒng)智商評測體系,開展世界人工智能智商評測;開展互聯(lián)網(wǎng)(城市)云腦研究計劃,構(gòu)建互聯(lián)網(wǎng)(城市)云腦技術(shù)和企業(yè)圖譜,為提升企業(yè),行業(yè)與城市的智能水平服務(wù)。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103631 -
人工智能
+關(guān)注
關(guān)注
1807文章
49028瀏覽量
249551
原文標(biāo)題:神經(jīng)網(wǎng)絡(luò)的黎明
文章出處:【微信號:AItists,微信公眾號:人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
神經(jīng)網(wǎng)絡(luò)專家系統(tǒng)在電機故障診斷中的應(yīng)用
NVIDIA實現(xiàn)神經(jīng)網(wǎng)絡(luò)渲染技術(shù)的突破性增強功能
BP神經(jīng)網(wǎng)絡(luò)的調(diào)參技巧與建議
BP神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的比較
如何優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率
BP神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點分析
什么是BP神經(jīng)網(wǎng)絡(luò)的反向傳播算法
BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系
人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法

評論