編者按:如果說(shuō)GAN的發(fā)展史上有什么戲劇性事件,那“LSTM之父”Jürgen Schmidhuber(發(fā)音:You_again Shmidhoobuh)和“GAN之父”Ian Goodfellow之間的恩怨絕對(duì)是其中最精彩的一幕。在2016的NIPS大會(huì)上,Schmidhuber和Goodfellow就GAN是否借鑒了前者在九十年代發(fā)表的一篇論文展開了激烈爭(zhēng)論,引得滿座震驚。雖然事后學(xué)界認(rèn)可了GAN的原創(chuàng)性,但Schmidhuber似乎對(duì)此仍然耿耿于懷。近日,他發(fā)表了一篇小短文,文章的主角還是幾十年前的那個(gè)模型——PM。
1990s,無(wú)監(jiān)督神經(jīng)網(wǎng)絡(luò)在最小值上的博弈 每個(gè)網(wǎng)絡(luò)最小化由另一個(gè)網(wǎng)絡(luò)最大化的值函數(shù) 或生成實(shí)驗(yàn),產(chǎn)生對(duì)好奇心的內(nèi)在獎(jiǎng)勵(lì)
在對(duì)人工神經(jīng)網(wǎng)絡(luò)(NN)的研究中,研究人員最重要的目標(biāo)之一是創(chuàng)建能從給定數(shù)據(jù)中學(xué)習(xí)統(tǒng)計(jì)數(shù)據(jù)的算法。為了實(shí)現(xiàn)這一目標(biāo),我在20世紀(jì)90年代曾引入一種新型無(wú)監(jiān)督學(xué)習(xí)機(jī)制,它基于極大極小博弈中的梯度下降/上升原理,其中一個(gè)NN負(fù)責(zé)最小化由另一個(gè)NN最大化的目標(biāo)函數(shù)。我把發(fā)生在這兩個(gè)無(wú)監(jiān)督神經(jīng)網(wǎng)絡(luò)之間的對(duì)抗稱為“可預(yù)測(cè)性最小化”(Predictability Minimization)。
首先,PM需要一個(gè)自帶初始隨機(jī)權(quán)重的編碼器網(wǎng)絡(luò),它通過(guò)其輸入節(jié)點(diǎn)(下圖中的白色圓圈)接收數(shù)據(jù)樣本(例如圖像),并在其輸出節(jié)點(diǎn)(下圖中的灰色圓圈,也稱編碼節(jié)點(diǎn))生成對(duì)應(yīng)編碼。每個(gè)編碼節(jié)點(diǎn)都可以在區(qū)間[0,1]內(nèi)被激活。
圖中的黑色圓圈表示一個(gè)獨(dú)立的預(yù)測(cè)網(wǎng)絡(luò),經(jīng)過(guò)訓(xùn)練后,給定一部分編碼節(jié)點(diǎn),它能學(xué)習(xí)每個(gè)編碼節(jié)點(diǎn)的條件期望,從而預(yù)測(cè)所有未提供的編碼節(jié)點(diǎn)。雖然圖中沒有標(biāo)出,編碼網(wǎng)絡(luò)和預(yù)測(cè)網(wǎng)絡(luò)都有隱藏節(jié)點(diǎn)。
但是,每個(gè)編碼節(jié)點(diǎn)都希望自己能變得更不可預(yù)測(cè)。因此它需要經(jīng)過(guò)訓(xùn)練,最大限度地提高由預(yù)測(cè)網(wǎng)絡(luò)最小化的目標(biāo)函數(shù)(如均方誤差)。預(yù)測(cè)器和編碼器相互對(duì)抗,以激勵(lì)編碼器實(shí)現(xiàn)無(wú)監(jiān)督學(xué)習(xí)的“圣杯”——關(guān)于輸入數(shù)據(jù)的理想的、展開的、二元的階乘編碼,其中每個(gè)編碼節(jié)點(diǎn)在統(tǒng)計(jì)上彼此互相獨(dú)立。
理想情況下,NN在經(jīng)過(guò)學(xué)習(xí)后,給定數(shù)據(jù)模式的概率就應(yīng)該等于其編碼節(jié)點(diǎn)概率的乘積,這個(gè)概率也是預(yù)測(cè)網(wǎng)絡(luò)的輸出。
無(wú)獨(dú)有偶,生成對(duì)抗網(wǎng)絡(luò)(GAN)也使用無(wú)監(jiān)督的極小極大原理來(lái)模擬給定數(shù)據(jù)的統(tǒng)計(jì)數(shù)據(jù)。相信讀者都熟悉NIPS 2014的那篇GAN論文,雖然那位作者聲稱PM并不是基于值函數(shù)的極大極小博弈,不是一個(gè)網(wǎng)絡(luò)尋求最大化而另一個(gè)尋求最小化,相比GAN那種“網(wǎng)絡(luò)之間的對(duì)抗是唯一訓(xùn)練標(biāo)準(zhǔn),并且足以完成訓(xùn)練”的方法,PM只能算“一個(gè)正則,鼓勵(lì)神經(jīng)網(wǎng)絡(luò)的隱藏節(jié)點(diǎn)在完成其他任務(wù)時(shí)在統(tǒng)計(jì)上獨(dú)立,其對(duì)抗性不是主要的訓(xùn)練方法”。
但是,我覺得PM確實(shí)也是個(gè)純粹的極大極小博弈,尤其是它也對(duì)抗訓(xùn)練,“網(wǎng)絡(luò)之間的對(duì)抗是唯一訓(xùn)練標(biāo)準(zhǔn),并且足以完成訓(xùn)練”。
將無(wú)監(jiān)督極大極小博弈用于強(qiáng)化學(xué)習(xí)好奇心
還是20世紀(jì)90年代,PM論文發(fā)表后,我曾嘗試過(guò)把這個(gè)想法擴(kuò)展到強(qiáng)化學(xué)習(xí)領(lǐng)域,構(gòu)建具有人工好奇心的智能體。
我構(gòu)建了一個(gè)目標(biāo)是在環(huán)境中生成動(dòng)作序列的神經(jīng)網(wǎng)絡(luò)C,它的動(dòng)作生成的由一個(gè)追求回報(bào)最大化的節(jié)點(diǎn)控制。作為參考,我設(shè)計(jì)了一個(gè)名叫世界模型M的獨(dú)立神經(jīng)網(wǎng)絡(luò),它能根據(jù)給定的以往輸入和動(dòng)作預(yù)測(cè)未來(lái)輸入。動(dòng)作選擇越合理,網(wǎng)絡(luò)得到的回報(bào)就越高,因此C所獲得的內(nèi)在回報(bào)和M的預(yù)測(cè)誤差成正比。同時(shí),因?yàn)镃試圖最大化的正是M試圖最小化的值函數(shù),這意味著C會(huì)盡力探索M無(wú)法準(zhǔn)確預(yù)測(cè)的新動(dòng)作。
最近關(guān)于好奇心的強(qiáng)化學(xué)習(xí)論文有很多,我覺得它們都是基于這個(gè)簡(jiǎn)單的90年代的原理。尤其是在97年的那篇論文中[UARL3-5],我讓兩個(gè)對(duì)抗的、追求回報(bào)最大化的模塊(左腦和右腦)共同設(shè)計(jì)一個(gè)實(shí)驗(yàn):一個(gè)能定義如何在環(huán)境中執(zhí)行動(dòng)作序列、如何通過(guò)實(shí)現(xiàn)由實(shí)驗(yàn)觸發(fā)的觀察序列的可計(jì)算函數(shù)(如二元分類)的指令序列來(lái)計(jì)算最終實(shí)驗(yàn)結(jié)果的(概率)程序。
兩個(gè)模塊都能提前預(yù)測(cè)實(shí)驗(yàn)結(jié)果,如果它們的預(yù)測(cè)或假設(shè)不同,那么在動(dòng)作生成和執(zhí)行完畢后,失敗一方會(huì)向這個(gè)零和博弈的優(yōu)勝一方提供內(nèi)在回報(bào)。這種設(shè)計(jì)促使無(wú)監(jiān)督的兩個(gè)模塊專注于“有趣”的事情,也就是不可預(yù)測(cè)的空間。同樣的,在沒有外部回報(bào)的情況下,每個(gè)無(wú)監(jiān)督模塊都在試圖最大化由另一個(gè)最小化的值函數(shù)。
當(dāng)時(shí)我在論文中提出,如果想把這種方法用于現(xiàn)實(shí)世界的某些問(wèn)題,我們還需要科學(xué)家和藝術(shù)家的人為介入,設(shè)置合理的外部回報(bào)。而時(shí)至今日,很多人也確實(shí)正在用它處理數(shù)據(jù)分布建模和人工好奇心等任務(wù)。
小結(jié)
看到這里,相信大家都看出來(lái)了,Jürgen Schmidhuber還是放不下對(duì)GAN的糾結(jié),或者說(shuō),是對(duì)“對(duì)抗”這種方法的執(zhí)念。雖然GAN的原創(chuàng)性已無(wú)爭(zhēng)議,但比起抬高/貶低Schmidhuber的為人,我們都不能否認(rèn)他對(duì)深度學(xué)習(xí)作出的杰出貢獻(xiàn)。2年前,他也正是以一種幾乎“鬧劇”的方式警告所有人,在過(guò)去幾十年的研究中,可能存放著許多不為人知的珍寶,它們不是不夠優(yōu)秀,而只是輸給了時(shí)代。
正如網(wǎng)友評(píng)價(jià)的:
作為機(jī)器學(xué)習(xí)的英雄,我們追隨他;作為超越時(shí)代的罪人,我們圍攻他。但他都可以接受,因?yàn)樗皇怯⑿?。他只是一個(gè)沉默的守護(hù)者,一個(gè)警惕的保護(hù)者,一個(gè)Schmidhuber。
-
編碼器
+關(guān)注
關(guān)注
45文章
3811瀏覽量
138131 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103709 -
GaN
+關(guān)注
關(guān)注
19文章
2210瀏覽量
76881
原文標(biāo)題:Jürgen Schmidhuber:無(wú)監(jiān)督神經(jīng)網(wǎng)絡(luò)在極大極小上的博弈
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
脈沖耦合神經(jīng)網(wǎng)絡(luò)在FPGA上的實(shí)現(xiàn)誰(shuí)會(huì)?
基于賽靈思FPGA的卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)設(shè)計(jì)
卷積神經(jīng)網(wǎng)絡(luò)如何使用
【案例分享】基于BP算法的前饋神經(jīng)網(wǎng)絡(luò)
【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)
如何設(shè)計(jì)BP神經(jīng)網(wǎng)絡(luò)圖像壓縮算法?
如何用卷積神經(jīng)網(wǎng)絡(luò)方法去解決機(jī)器監(jiān)督學(xué)習(xí)下面的分類問(wèn)題?
如何構(gòu)建神經(jīng)網(wǎng)絡(luò)?
在STM32上驗(yàn)證神經(jīng)網(wǎng)絡(luò)模型
卷積神經(jīng)網(wǎng)絡(luò)一維卷積的處理過(guò)程
卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用
神經(jīng)網(wǎng)絡(luò)原理下載-免費(fèi)
圖靈獎(jiǎng)為什么沒頒給LSTM之父Jürgen Schmidhuber?
基于無(wú)監(jiān)督淺層神經(jīng)網(wǎng)絡(luò)聯(lián)合學(xué)習(xí)的表示方法

評(píng)論