99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

獨(dú)立循環(huán)神經(jīng)(IndRNN)網(wǎng)絡(luò)介紹

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-03-16 16:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按:近日,中國電子科學(xué)技術(shù)大學(xué)和澳大利亞伍倫貢大學(xué)的研究者合作發(fā)表論文,介紹了他們創(chuàng)造的獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)(IndRNN),這種新型RNN能有效解決網(wǎng)絡(luò)收斂時(shí)的梯度爆炸和消失問題,并能夠處理更長的序列。以下是論智對(duì)原文的大致編譯,如有不足之處還請(qǐng)指正。

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)已經(jīng)被廣泛用于序列數(shù)據(jù)的處理。然而,由于常見的梯度消失和爆炸問題以及很難學(xué)習(xí)長期模式,RNN通常難以訓(xùn)練。為了解決這些問題,研究人員提出了長短期記憶(LSTM)和門控循環(huán)單元(GRU),但使用雙曲正切和Sigmoid函數(shù)又會(huì)使梯度隨圖層衰減。因此,構(gòu)建高效可訓(xùn)練的深度網(wǎng)絡(luò)是具有挑戰(zhàn)性的任務(wù)。另外,RNN圖層中的所有神經(jīng)元都糾纏在一起,它們的行為很難解釋。為了解決這些問題,本文提出了一種新型RNN模式,成為獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)(IndRNN),其中每層中的神經(jīng)元都相互獨(dú)立,并且它們跨層連接。最終實(shí)驗(yàn)結(jié)果表明,IndRNN管理起來很容易,能防止梯度爆炸和消失,同時(shí)還能讓網(wǎng)絡(luò)長期學(xué)習(xí)。

獨(dú)立循環(huán)神經(jīng)(IndRNN)網(wǎng)絡(luò)介紹

在這片論文中,我們提出了獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)(IndRNN),用公式可以表示成:

其中循環(huán)權(quán)重u是一個(gè)向量,⊙表示阿達(dá)馬積(Hadamard product)。同一圖層中的每個(gè)神經(jīng)元都與其他神經(jīng)元不相連,通過疊加兩層或更多層的IndRNN,可以將神經(jīng)元連接。對(duì)于第n個(gè)神經(jīng)元,隱藏層hn,t可以通過以下公式得到:

其中wn和un分別表示第n行的輸入權(quán)重和當(dāng)前權(quán)重。每個(gè)神經(jīng)元只接收當(dāng)前狀態(tài)隱藏層和輸入其中的信息。也就是說IndRNN中的每個(gè)神經(jīng)元都有獨(dú)立的時(shí)空特征。傳統(tǒng)上,隨著參數(shù)被共享,RNN被視為多層感知器。與傳統(tǒng)的RNN不同,這次提出的IndRNN將隨時(shí)間獨(dú)立地聚合空間模式。

IndRNN隨時(shí)間進(jìn)行反向傳播

對(duì)于神經(jīng)網(wǎng)絡(luò)每一層隨時(shí)間進(jìn)行的梯度反向傳播,IndRNN中的梯度可以對(duì)每個(gè)神經(jīng)元單獨(dú)計(jì)算,因?yàn)橐粚泳W(wǎng)絡(luò)之間沒有互相連接的部分。具體計(jì)算過程可參見原論文。

多層IndRNN

如上所說,IndRNN的同一個(gè)圖層中的神經(jīng)元是彼此獨(dú)立的,通道間的信息會(huì)隨時(shí)間在多層IndRNN之間傳播探索。為了說明這一點(diǎn),我們將一個(gè)雙層的IndRNN和傳統(tǒng)單層RNN進(jìn)行比較。簡單起見,IndRNN和傳統(tǒng)RNN都忽略了偏差。假設(shè)一個(gè)有N個(gè)神經(jīng)元的雙層神經(jīng)網(wǎng)絡(luò),其中第二層的循環(huán)權(quán)重為零,那么就表示第二層只是一個(gè)完全連接層。

考慮到參數(shù)的數(shù)量,對(duì)于一個(gè)有N個(gè)神經(jīng)元的RNN網(wǎng)絡(luò)來說,輸入的維數(shù)為M,則傳統(tǒng)RNN的參數(shù)數(shù)量為M×N+N×N。而只有一層的IndRNN的參數(shù)數(shù)量為M×N+N。對(duì)于一個(gè)兩層的IndRNN,其中每層都有N個(gè)神經(jīng)元的網(wǎng)絡(luò)來說,參數(shù)的數(shù)量為M×N+N×N+2×N??傊?,雖然IndRNN的神經(jīng)元是彼此獨(dú)立的,但多層IndRNN中跨層的信息可以很好地得到解釋。

基本的IndRNN結(jié)構(gòu)如圖所示:

其中“weight”和“Recurrent+ReLU”表示每一步處理輸入的循環(huán)過程,ReLU是激活函數(shù)。通過堆疊這種基礎(chǔ)架構(gòu),可以建立一個(gè)深度IndRNN網(wǎng)絡(luò)。由于權(quán)重層用來處理輸入,那么它很自然地就擴(kuò)展到其他多個(gè)圖層中加深處理過程。同樣,用來處理輸入的圖層也可以像CNN中的殘差結(jié)構(gòu)一樣。由于IndRNN的簡單結(jié)構(gòu),我們可以很容易地將其擴(kuò)展到不同的網(wǎng)絡(luò)結(jié)構(gòu)中。例如,除了簡單的堆疊IndRNN或者堆疊用于處理輸入的圖層,我們還可以以殘差網(wǎng)絡(luò)的方式進(jìn)行堆疊。下圖展示了殘差I(lǐng)ndRNN的示例:

在每個(gè)步驟,梯度可以從恒等映射(identity mapping)直接傳播到其它層。由于IndRNN能隨時(shí)間的推移解決梯度爆炸和消失的問題,梯度可以在不同步驟之間高效傳播。因此,網(wǎng)絡(luò)可以比傳統(tǒng)的RNN更深更長。和其他網(wǎng)絡(luò)一樣,更深更長的IndRNN網(wǎng)絡(luò)可以進(jìn)行端對(duì)端訓(xùn)練。

實(shí)驗(yàn)過程

接下來,就要對(duì)IndRNN進(jìn)行測(cè)試。首先是常用的adding problem,這是評(píng)估RNN模型性能的常用方法。兩個(gè)長度為T的序列被輸入到模型中,第一個(gè)序列在(0,1)范圍內(nèi)均勻采樣,而第二個(gè)序列兩個(gè)入口處為1,其余都為0。序列有三種長度,T=100、500和1000,分別用于實(shí)驗(yàn),測(cè)試模型是否有長期記憶的能力。

參與實(shí)驗(yàn)對(duì)比的有傳統(tǒng)采用tanh的RNN、LSTM、IRNN(采用relu的RNN)。RNN、LSTM和IRNN都只有一層,而IndRNN有兩層。每個(gè)模型包含128個(gè)隱藏單元,RNN、LSTM和兩層IndRNN的參數(shù)數(shù)量分別為16k、67k和17k。最終測(cè)試結(jié)果如下:

首先,對(duì)短序列來說(T=100),大多數(shù)模型表現(xiàn)得很好(除了采用tanh的RNN),它們收斂到一個(gè)非常小的錯(cuò)誤(比標(biāo)準(zhǔn)還要?。?。

當(dāng)序列長度增加時(shí),IRNN和LSTM模型出現(xiàn)了收斂困難。當(dāng)長度達(dá)到1000時(shí),IRNN和LSTM無法減少錯(cuò)誤。然而,IndRNN仍然可以將錯(cuò)誤迅速收斂。這表明IndRNN的長期記憶優(yōu)于傳統(tǒng)RNN和LSTM。

從表格中我們也能看出,傳統(tǒng)RNN和LSTM只能維持在中等長度記憶(500到1000)。為了研究IndRNN在超長序列上的記憶,我們又做了一個(gè)5000的實(shí)驗(yàn),如下圖所示:

可以看出,IndRNN仍然表現(xiàn)得很好。注意有噪音的出現(xiàn),是因?yàn)镮ndRNN的初始學(xué)習(xí)速率(2×10-4)較大,一旦學(xué)習(xí)速率降低,模型性能就更加穩(wěn)定。這說明IndRNN能有效地解決梯度爆炸和消失的問題。

序列MNIST分類

序列MNIST的分類是評(píng)估RNN模型的又一常用方法。網(wǎng)絡(luò)按順序讀取MNIST數(shù)字的像素,之后執(zhí)行分類。為了讓任務(wù)更加困難,MNIST的像素被隨機(jī)交換。由于采用tanh的RNN不會(huì)以高精度收斂,只有采用relu的IndRNN能被評(píng)估。這里我們使用了6層IndRNN,每層有128個(gè)神經(jīng)元。為了加速訓(xùn)練,每層之后插入了批標(biāo)準(zhǔn)化(BN)。結(jié)果如下表所示,與現(xiàn)有方法相比,IndRNN的性能更好。

其他實(shí)驗(yàn)

除了上述兩個(gè)實(shí)驗(yàn),研究人員還對(duì)IndRNN進(jìn)行了語言建模測(cè)試和基于骨架的動(dòng)作識(shí)別。語言建模是在詞匯數(shù)據(jù)集Treebank上進(jìn)行的。結(jié)果如下:

與現(xiàn)有方法相比,IndRNN比傳統(tǒng)的RNN和LSTM表現(xiàn)的更好。

動(dòng)作識(shí)別測(cè)試是在NTU RGB+D數(shù)據(jù)集上進(jìn)行的,該數(shù)據(jù)及是目前動(dòng)作識(shí)別最大的數(shù)據(jù)集,它包含56880個(gè)序列,其中包括60中動(dòng)作類別。最終的評(píng)估及過如下:

IndRNN的性能比RNN和LSTM的性能明顯要好。

結(jié)語

這篇論文中,研究人員介紹了獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)(IndRNN),其中每個(gè)圖層中的神經(jīng)元都是相互獨(dú)立的,并且它能很好地解決梯度爆炸和消失的問題,性能也比傳統(tǒng)的RNN和LSTM要好。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)(IndRNN):打造更長更深的RNN

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    什么是RNN (循環(huán)神經(jīng)網(wǎng)絡(luò))?

    循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 是一種深度學(xué)習(xí)結(jié)構(gòu),它使用過去的信息來提高網(wǎng)絡(luò)處理當(dāng)前和將來輸入的性能。RNN 的獨(dú)特之處在于該網(wǎng)絡(luò)包含隱藏狀態(tài)和循環(huán)
    發(fā)表于 02-29 14:56 ?4964次閱讀
    什么是RNN (<b class='flag-5'>循環(huán)</b><b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>)?

    神經(jīng)網(wǎng)絡(luò)基本介紹

    神經(jīng)網(wǎng)絡(luò)基本介紹
    發(fā)表于 01-04 13:41

    循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的詳細(xì)介紹

    循環(huán)神經(jīng)網(wǎng)絡(luò)可以用于文本生成、機(jī)器翻譯還有看圖描述等,在這些場(chǎng)景中很多都出現(xiàn)了RNN的身影。
    的頭像 發(fā)表于 05-11 14:58 ?1.4w次閱讀
    <b class='flag-5'>循環(huán)</b><b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>(RNN)的詳細(xì)<b class='flag-5'>介紹</b>

    循環(huán)神經(jīng)網(wǎng)絡(luò)是如何工作的

    關(guān)于時(shí)間展開的循環(huán)神經(jīng)網(wǎng)絡(luò),在序列結(jié)束時(shí)具有單個(gè)輸出。
    發(fā)表于 07-05 14:44 ?1335次閱讀
    <b class='flag-5'>循環(huán)</b><b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>是如何工作的

    卷積神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)的區(qū)別

    在深度學(xué)習(xí)領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks, RNN)是兩種極其重要
    的頭像 發(fā)表于 07-03 16:12 ?5714次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)的區(qū)別

    循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,簡稱RNN)和遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,簡稱RvNN)是深度學(xué)習(xí)中兩種重要的神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 07-04 14:19 ?1530次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的區(qū)別

    循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是深度學(xué)習(xí)領(lǐng)域中兩種非常重要的神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 07-04 14:24 ?2110次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)的基本原理是什么

    結(jié)構(gòu)具有循環(huán),能夠?qū)⑶耙粋€(gè)時(shí)間步的信息傳遞到下一個(gè)時(shí)間步,從而實(shí)現(xiàn)對(duì)序列數(shù)據(jù)的建模。本文將介紹循環(huán)神經(jīng)網(wǎng)絡(luò)的基本原理。 RNN的基本結(jié)構(gòu) 1.1
    的頭像 發(fā)表于 07-04 14:26 ?1180次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)的基本概念

    循環(huán)神經(jīng)網(wǎng)絡(luò)的基本概念、循環(huán)機(jī)制、長短時(shí)記憶網(wǎng)絡(luò)(LSTM)、門控循環(huán)單元(GRU)等方面進(jìn)行介紹
    的頭像 發(fā)表于 07-04 14:31 ?1315次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)有哪些基本模型

    循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,簡稱RNN)是一種具有循環(huán)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),它能夠處理序列數(shù)據(jù),并且能夠捕捉序列數(shù)據(jù)中的時(shí)序信息。RNN的基本模型有很多
    的頭像 發(fā)表于 07-04 14:43 ?875次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)算法有哪幾種

    神經(jīng)網(wǎng)絡(luò)算法的介紹: 基本循環(huán)神經(jīng)網(wǎng)絡(luò)(Basic RNN) 基本循環(huán)神經(jīng)網(wǎng)絡(luò)是最簡單的
    的頭像 發(fā)表于 07-04 14:46 ?937次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)算法原理及特點(diǎn)

    )相比,RNN在處理序列數(shù)據(jù)時(shí)具有明顯的優(yōu)勢(shì)。本文將介紹循環(huán)神經(jīng)網(wǎng)絡(luò)的原理、特點(diǎn)及應(yīng)用。 1. 循環(huán)神經(jīng)網(wǎng)絡(luò)的原理 1.1 基本概念
    的頭像 發(fā)表于 07-04 14:49 ?1364次閱讀

    遞歸神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)

    遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,簡稱RNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,簡稱RNN)實(shí)際上是同一個(gè)概念,只是不同的翻譯方式
    的頭像 發(fā)表于 07-04 14:54 ?1540次閱讀

    遞歸神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)一樣嗎

    時(shí)具有各自的優(yōu)勢(shì)和特點(diǎn)。本文將介紹遞歸神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)的概念、結(jié)構(gòu)、工作原理、優(yōu)缺點(diǎn)以及應(yīng)用場(chǎng)景。 遞歸神經(jīng)網(wǎng)絡(luò)(Recursive
    的頭像 發(fā)表于 07-05 09:28 ?1624次閱讀

    rnn是遞歸神經(jīng)網(wǎng)絡(luò)還是循環(huán)神經(jīng)網(wǎng)絡(luò)

    RNN(Recurrent Neural Network)是循環(huán)神經(jīng)網(wǎng)絡(luò),而非遞歸神經(jīng)網(wǎng)絡(luò)。循環(huán)神經(jīng)網(wǎng)絡(luò)是一種具有時(shí)間序列特性的
    的頭像 發(fā)表于 07-05 09:52 ?1038次閱讀