人工神經(jīng)網(wǎng)絡的終極目標應當是能夠完全模擬生物神經(jīng)網(wǎng)絡。而隨著ANN的不斷發(fā)展,已然呈現(xiàn)出了許多性能優(yōu)秀的模型。由MIT、NYU、斯坦福等眾多著名大學研究人員組成的團隊,便提出了brain-score系統(tǒng),對當今主流的人工神經(jīng)網(wǎng)絡進行評分排名。本文便帶讀者了解一下在眾多人工神經(jīng)網(wǎng)絡中,最為貼近生物神網(wǎng)絡的那些ANN。
人工神經(jīng)網(wǎng)絡(ANN)總是會與大腦做比較。
雖然ANN發(fā)展到現(xiàn)在也無法完全模擬生物大腦,但是技術是一直在進步的。那么問題來了:
論與生物大腦的相似性,哪家人工神經(jīng)網(wǎng)絡最強?
在功能方面與大腦最相似的神經(jīng)網(wǎng)絡,將包含與大腦最近似的機制。因此,MIT、NYU、斯坦福等眾多知名大學聯(lián)手開發(fā)了“大腦評分”(brain - score)。
這是一種綜合了多種神經(jīng)和行為基準的測試方法,可以根據(jù)神經(jīng)網(wǎng)絡與大腦核心對象識別機制的相似程度對其進行打分,并用這個方法對最先進的深層神經(jīng)網(wǎng)絡進行評估。
使用該評分系統(tǒng),得到的結果如下:
DenseNet- 169, CORnet-S和ResNet-101是最像大腦的ANN
任何人工神經(jīng)網(wǎng)絡都無法預測到神經(jīng)和行為響應之間存在的變異性,這表明目前還沒有一個人工神經(jīng)網(wǎng)絡模型能夠捕捉到所有相關的機制
擴展之前的工作,我們發(fā)現(xiàn)ANN ImageNet性能的提高導致了大腦得分的提高。然而,相關性在ImageNet表現(xiàn)為70%時減弱,這表明需要神經(jīng)科學的額外指導才能在捕獲大腦機制方面取得進一步進展
比許多較小(即不那么復雜)的ANN,比表現(xiàn)最好的ImageNet模型更像大腦,這意味著簡化ANN有可能更好地理解腹側流(ventral stream)。
大腦的基準
以下是對衡量模型基準的概述。基準由一組應用于特定實驗數(shù)據(jù)的指標組成,在這里可以是神經(jīng)記錄或行為測量。
神經(jīng)(Neural)
神經(jīng)度量的目的是確定源系統(tǒng)(例如,神經(jīng)網(wǎng)絡模型)的內(nèi)在表征與目標系統(tǒng)(例如靈長類動物)中的內(nèi)在表征的匹配程度。 與典型的機器學習基準測試不同,這些指標提供了一種原則性的方式來優(yōu)先選擇某些模型(即使它們的輸出相同)。 我們在此概述了一個常見的度量標準——神經(jīng)預測性,它是線性回歸的一種形式。
神經(jīng)預測:圖像級神經(jīng)一致性
神經(jīng)預測性用于評估源系統(tǒng)(例如,深度ANN)中給定圖像的響應對目標系統(tǒng)中的響應(例如,視覺區(qū)域IT中的單個神經(jīng)元響應)的預測程度。 作為輸入,該度量需要兩個刺激×神經(jīng)元這種形式的集合,其中神經(jīng)元可以是神經(jīng)記錄或模型激活。
首先,使用線性變換將源神經(jīng)元映射到每個目標神經(jīng)元,這個映射過程是在多個刺激的訓練-測試分割上執(zhí)行的。
在每次運行中,利用訓練圖像使權重適應于從源神經(jīng)元映射到目標神經(jīng)元,然后利用這些權重預測出的響應得到held-out圖像。
為了獲得每個神經(jīng)元的神經(jīng)預測性評分,通過計算Pearson相關系數(shù),將預測的響應與測量的神經(jīng)元響應進行比較。
計算所有單個神經(jīng)類神經(jīng)預測值的中位數(shù)(例如,在目標大腦區(qū)域測量的所有目標位置),以獲得該訓練-測試分割的預測得分(因為響應通常非正常地分布,所以使用中值)。所有訓練-測試分割的平均值即目標大腦區(qū)域的最終神經(jīng)預測得分。
神經(jīng)記錄
目前這個版本的大腦評分中包含的兩個神經(jīng)基準,其使用的神經(jīng)數(shù)據(jù)集包括對88個V4神經(jīng)元和168個IT神經(jīng)元的2,560個自然刺激神經(jīng)響應(如圖1):
圖1 大腦評分概述使用兩類指標來比較神經(jīng)網(wǎng)絡:神經(jīng)指標將內(nèi)部活動與macaque腹側流區(qū)域進行比較,行為指標比較輸出的相似性。對于小的、隨機組合的模型(灰點),大腦得分與ImageNet的性能相關,但是對于當前最先進的模型(綠點)來說,其性能在70%的前1級變得很弱。
該圖像集由2560張灰度圖像組成,分為八個對象類別(動物、船只、汽車、椅子、人臉、水果、平面、桌子)。每個類別包含8個獨特的對象(例如,“face”類別有8張獨特的臉)。圖像集是通過在自然主義背景上粘貼一個3D對象模型生成的。在每個圖像中,隨機選擇對象的位置,姿勢和大小,以便為靈長類動物和機器創(chuàng)建具有挑戰(zhàn)性的物體識別任務。 每個圖像都使用了圓形掩模。
行為
行為基準的目的是在任何給定任務中計算源(例如,ANN模型)和目標(例如,人類或猴子)的行為響應之間的相似性。對于核心對象識別任務,靈長類動物(包括人類和猴子)表現(xiàn)出與ground-truth標簽不同的行為模式。因此,這里的主要基準是一個行為響應模式度量,而不是一個全面的準確性度量。ANN能夠生成和預測靈長類動物的成功和失敗模式,因此可以獲得更高的分數(shù)。這樣做的一個結果是,達到100%準確率的ANN不會達到完美的行為相似性評分。
I2n:標準化的圖像級行為一致性
總量為i 的圖像數(shù)據(jù)源(模型特征)首先使用可用的行為數(shù)據(jù)轉換為目標類別c和圖像ib的一個矩陣ib×c。
靈長類動物的行為數(shù)據(jù)
當前一輪基準測試中使用的行為數(shù)據(jù)是從Rajalingham等人與2015和2018年的研究論文中獲得的。這里我們只關注人類行為數(shù)據(jù),但是人類和非人類靈長類動物行為模式非常相似。
此數(shù)據(jù)收集中使用的圖像集與V4的圖像生成方式類似,并且使用了24個對象類別。數(shù)據(jù)集總共包含2,400個圖像(每個對象100個)。在這個基準測試中,我們使用了240張(每個物體10張)獲得最多試驗的圖像。1472名人類觀察者對亞馬遜土耳其機器人提供的圖像進行了簡短的響應。在每次試驗中,一幅圖像呈現(xiàn)100毫秒,然后是有兩個響應選擇,一個對應于圖像中出現(xiàn)的目標對象,另一個是其余23個對象。參與者通過選擇圖像中呈現(xiàn)的對象來響應。因此,對于每一個target-distractor對兒,從多個參與者中共獲得了超過三十萬的響應。
大腦得分
為了評估一個模型整體表現(xiàn)的好壞,我們將神經(jīng)V4預測得分、神經(jīng)IT預測得分和行為I2n預測得分做一個組合計算來得到大腦評分。這里給出的腦分數(shù)是這三個分數(shù)的平均值。這種方法不能通過不同的分數(shù)尺度進行標準化,因此它可能會懲罰低方差的分數(shù),但它也不會對分數(shù)的顯著差異做出任何假設,這些差異會出現(xiàn)在排名中。
實驗結果
該團隊檢查了大量在ImageNet上訓練的深層神經(jīng)網(wǎng)絡,并將它們的內(nèi)在表征與V4、IT和人類行為測量中的非人類視覺皮層區(qū)域的神經(jīng)記錄進行了比較。
最先進的排名
表1 總結了每個模型在大腦基準測試范圍內(nèi)的得分
相對于ImageNet性能的大腦得分如圖1所示。在目前的基準測試中,最強的模型是DenseNet-169,其大腦得分為549,緊隨其后的是CORnet-S和ResNet-101,其大腦得分分別為544和542。 目前來自機器學習社區(qū)的ImageNet上的頂級模型都來自DenseNet和ResNet系列模型。 DenseNet-169和ResNet-101也是IT神經(jīng)預測和行為預測性得分最高的模型之一,IT分數(shù)為0.604(DenseNet-169,圖層conv5_block16_concat)和行為得分為ResNet-101。
個人神經(jīng)和行為基準的得分
以往的研究發(fā)現(xiàn),分類性能較高的模型更容易預測神經(jīng)數(shù)據(jù)。 在這里,我們通過證明這種性能驅(qū)動的方法在廣泛的ImageNet性能體系中在多個深度神經(jīng)網(wǎng)絡上進行評估時,廣泛意義上擴展了這項工作,但是在達到人類性能水平時未能產(chǎn)生與大腦完全匹配的網(wǎng)絡( 見圖1)。
在個人得分上,ImageNet的表現(xiàn)與大腦得分的相關性有很大的差異(圖2)。例如,V4單站點響應最好不僅是由VGG-19(ImageNet top-1性能71.10%)預測出來的,而且還有Xception(79.00%top-1)。 同樣,IT單站點響應最好是由DenseNet-169(.606; 75.90%top-1)預測出來的,但即使是BaseNets(.592; 47.64%top-1)和MobileNets(.590; 69.80%top-1)也是非常接近相同的IT神經(jīng)預測評分。
圖2 所有模型對神經(jīng)和行為基準的預測性
相比之下,ImageNet性能和行為預測性之間的相關性依然強勁,AlexNet(57.50%排名前1)或BaseNets的表現(xiàn)遠遠低于最佳模型。然而,行為得分上表現(xiàn)最好的模型并不是ImageNet上最先進的模型:ResNet-101在行為得分(.389)上排名最高,但是ImageNet排名前1的表現(xiàn)為77.37%。 PNASNet實現(xiàn)了更高的ImageNet性能(82.90%排名前1),但行為得分顯著降低(.351)。
事實上,ImageNet前1名表現(xiàn)與行為評分之間的相關性似乎正在削弱,模型在ImageNet上表現(xiàn)良好,與行為得分幾乎沒有關聯(lián),這表明通過繼續(xù)努力推動ImageNet,可能無法實現(xiàn)與行為數(shù)據(jù)更好的一致性。
我們使用神經(jīng)預測性評估區(qū)域V4和IT以及使用I2n的行為記錄。 目前最好的型號是:V4上的VGG-19,IT上的DenseNet-169和行為上的ResNet-101。 值得注意的是,DenseNet-169,CORnet-S和ResNet-101是所有三個基準測試的強大模型。 V4為0.892,IT為0.817,行為為.497。
通過定期更新大腦數(shù)據(jù)的大腦評分來評估和跟蹤模型基準的對應關系可以讓這個系統(tǒng)更加完善。因此,該團隊發(fā)布了Brain-Score.org,一個承載神經(jīng)和行為基準的平臺,在這個平臺上,可以提交用于視覺處理的ANN,以接收大腦評分及其相對于其他模型的排名,新的實驗數(shù)據(jù)可以自然地納入其中。
-
神經(jīng)網(wǎng)絡
+關注
關注
42文章
4814瀏覽量
103703 -
數(shù)據(jù)集
+關注
關注
4文章
1224瀏覽量
25462
原文標題:【深度學習模型哪個最像人腦?】MIT等人工神經(jīng)網(wǎng)絡評分系統(tǒng),DenseNet實力奪冠!
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
神經(jīng)網(wǎng)絡專家系統(tǒng)在電機故障診斷中的應用
NVIDIA實現(xiàn)神經(jīng)網(wǎng)絡渲染技術的突破性增強功能
BP神經(jīng)網(wǎng)絡與卷積神經(jīng)網(wǎng)絡的比較
BP神經(jīng)網(wǎng)絡的優(yōu)缺點分析
什么是BP神經(jīng)網(wǎng)絡的反向傳播算法
BP神經(jīng)網(wǎng)絡與深度學習的關系
人工神經(jīng)網(wǎng)絡的原理和多種神經(jīng)網(wǎng)絡架構方法

卷積神經(jīng)網(wǎng)絡與傳統(tǒng)神經(jīng)網(wǎng)絡的比較
RNN模型與傳統(tǒng)神經(jīng)網(wǎng)絡的區(qū)別
LSTM神經(jīng)網(wǎng)絡的結構與工作機制
LSTM神經(jīng)網(wǎng)絡的基本原理 如何實現(xiàn)LSTM神經(jīng)網(wǎng)絡
Moku人工神經(jīng)網(wǎng)絡101

評論