99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

神經(jīng)網(wǎng)絡(luò)瘦身:關(guān)于SqueezeNet的創(chuàng)新點、網(wǎng)絡(luò)結(jié)構(gòu)

MqC7_CAAI_1981 ? 來源:未知 ? 作者:李倩 ? 2018-03-13 16:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今年二月份,UC Berkeley和Stanford一幫人在arXiv貼了一篇文章:

SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and<0.5MB model size(https://arxiv.org/abs/1602.07360)

這篇文章做成了許多人夢寐以求的事——壓縮神經(jīng)網(wǎng)絡(luò)參數(shù)。但和以往不同,原作不是在前人網(wǎng)絡(luò)基礎(chǔ)上修修補(bǔ)補(bǔ)(例如Deep Compression),而是自己設(shè)計了一個全新的網(wǎng)絡(luò),它用了比AlexNet少50倍的參數(shù),達(dá)到了AlexNet相同的精度!

關(guān)于SqueezeNet的創(chuàng)新點、網(wǎng)絡(luò)結(jié)構(gòu),國內(nèi)已經(jīng)有若干愛好者發(fā)布了相關(guān)的簡介,如這篇(http://blog.csdn.net/xbinworld/article/details/50897870)、這篇(http://blog.csdn.net/shenxiaolu1984/article/details/51444525),國外的文獻(xiàn)沒有查,相信肯定也有很多。

本文關(guān)注的重點在SqueezeNet為什么能實現(xiàn)網(wǎng)絡(luò)瘦身?難道網(wǎng)絡(luò)參數(shù)的冗余性就那么強(qiáng)嗎?或者說很多參數(shù)都是浪費(fèi)的、無意義的?

為了更好的解釋以上問題,先給出AlexNet和SqueezeNet結(jié)構(gòu)圖示:

AlexNet

圖1 AlexNet示意圖

圖2 AlexNet網(wǎng)絡(luò)結(jié)構(gòu)

SqueezeNet

圖3 SqueezeNet示意圖

圖4 SqueezeNet網(wǎng)絡(luò)結(jié)構(gòu)

為什么SqueezeNet能夠以更少的參數(shù)實現(xiàn)AlexNet相同的精度?

下面的表格直觀的展示了SqueezeNet的參數(shù)量,僅為AlexNet的1/48。

網(wǎng)絡(luò) 參數(shù)量
AlexNet 60M
SqueezeNet 1.25M

乍一看,感覺非常不科學(xué),怎么可能相差如此懸殊的參數(shù)量實現(xiàn)了相同的識別精度?

我們先考慮一個非常簡單的例子,這個例子可以說是SqueezeNet和AlexNet的縮影:

1、一層卷積,卷積核大小為5×5

2、兩層卷積,卷積核大小為3×3

以上兩種卷積方式除了卷積核大小不同,其它變量均相同,為了方便后文計算,定義輸入通道數(shù)1,輸出通道數(shù)為C(兩層卷積為C'),輸出尺寸N×N。

按照目前的理論,神經(jīng)網(wǎng)絡(luò)應(yīng)該盡可能的采用多層小卷積,以減少參數(shù)量,增加網(wǎng)絡(luò)的非線性。但隨著參數(shù)的減少,計算量卻增加了!根據(jù)上面的例子,大致算一下,為了簡便,只考慮乘法的計算量:

5×5一層卷積計算量是25×C×N×N

3×3兩層卷積的計算量是9×C×(1+C')×N×N

很明顯25C<9C(1+C')。

這說明了什么?說明了“多層小卷積核”的確增大了計算量!

我們再回過頭考慮SqueezeNet和AlexNet,兩個網(wǎng)絡(luò)的架構(gòu)如上面4幅圖所示,可以看出SqueezeNet比AlexNet深不少,SqueezeNet的卷積核也更小一些,這就導(dǎo)致了SqueezeNet計算量遠(yuǎn)遠(yuǎn)高于AlexNet(有待商榷,需要進(jìn)一步確認(rèn),由于Fire module中的squeeze layer從某種程度上減少了計算量,SqueezeNet的計算量可能并不大)。

可是論文原文過度關(guān)注參數(shù)個數(shù),忽略計算量,這樣的對比方式貌似不太妥當(dāng)。事實上,目前最新的深層神經(jīng)網(wǎng)絡(luò)都是通過增加計算量換來更少的參數(shù),可是為什么這樣做效果會很好?

因為內(nèi)存讀取耗時要遠(yuǎn)大于計算耗時!

如此一來,問題就簡單了,不考慮網(wǎng)絡(luò)本身架構(gòu)的優(yōu)劣性,深層網(wǎng)絡(luò)之所以如此成功,就是因為把參數(shù)讀取的代價轉(zhuǎn)移到計算量上了,考慮的目前人類計算機(jī)的發(fā)展水平,計算耗時還是要遠(yuǎn)遠(yuǎn)小于數(shù)據(jù)存取耗時的,這也是“多層小卷積核”策略成功的根源。

關(guān)于Dense-Sparse-Dense(DSD)訓(xùn)練法

不得不說一下原作的這個小發(fā)現(xiàn),使用裁剪之后的模型為初始值,再次進(jìn)行訓(xùn)練調(diào)優(yōu)所有參數(shù),正確率能夠提升4.3%。 稀疏相當(dāng)于一種正則化,有機(jī)會把解從局部極小中解放出來。這種方法稱為DSD (Dense→Sparse→Dense)。

這個和我們?nèi)祟悓W(xué)習(xí)知識的過程是多么相似!人類每隔一段時間重新溫習(xí)一下學(xué)過的知識,會增加對所學(xué)知識的印象。我們可以把“隔一段時間”理解為“裁剪”,即忘卻那些不怎么重要的參數(shù),“再學(xué)習(xí)”理解為從新訓(xùn)練,即強(qiáng)化之前的參數(shù),使其識別精度更高!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:神經(jīng)網(wǎng)絡(luò)瘦身:SqueezeNet

文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學(xué)會】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

    的拓?fù)?b class='flag-5'>結(jié)構(gòu),即將高位空間中相似的樣本映射到網(wǎng)絡(luò)輸出層中的鄰近神經(jīng)元。SOM神經(jīng)網(wǎng)絡(luò)中的輸出層神經(jīng)
    發(fā)表于 07-21 04:30

    神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索有什么優(yōu)勢?

    近年來,深度學(xué)習(xí)的繁榮,尤其是神經(jīng)網(wǎng)絡(luò)的發(fā)展,顛覆了傳統(tǒng)機(jī)器學(xué)習(xí)特征工程的時代,將人工智能的浪潮推到了歷史最高點。然而,盡管各種神經(jīng)網(wǎng)絡(luò)模型層出不窮,但往往模型性能越高,對超參數(shù)的要求也越來越嚴(yán)格
    發(fā)表于 09-11 11:52

    卷積神經(jīng)網(wǎng)絡(luò)(CNN)是如何定義的?

    什么是卷積神經(jīng)網(wǎng)絡(luò)?ImageNet-2010網(wǎng)絡(luò)結(jié)構(gòu)是如何構(gòu)成的?有哪些基本參數(shù)?
    發(fā)表于 06-17 11:48

    卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

    神經(jīng)網(wǎng)絡(luò)已經(jīng)廣泛應(yīng)用于圖像分類、目標(biāo)檢測、語義分割以及自然語言處理等領(lǐng)域。首先分析了典型卷積神經(jīng)網(wǎng)絡(luò)模型為提高其性能增加網(wǎng)絡(luò)深度以及寬度的模型結(jié)構(gòu),分析了采用注意力機(jī)制進(jìn)一步提升模型性
    發(fā)表于 08-02 10:39

    神經(jīng)網(wǎng)絡(luò)分類

    神經(jīng)網(wǎng)絡(luò)分類 特征提取和選擇完成后,再利用分類器進(jìn)行圖像目標(biāo)分類,本文采用神經(jīng)網(wǎng)絡(luò)中的BP網(wǎng)絡(luò)進(jìn)行分類。在設(shè)計神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)時,
    發(fā)表于 03-01 17:55 ?1765次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>分類

    基于自適應(yīng)果蠅算法的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練

    基于自適應(yīng)果蠅算法的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練_霍慧慧
    發(fā)表于 01-03 17:41 ?0次下載

    基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在命名實體識別中應(yīng)用的分析與總結(jié)

    近年來,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法在自然語言處理領(lǐng)域已經(jīng)取得了不少進(jìn)展。作為NLP領(lǐng)域的基礎(chǔ)任務(wù)—命名實體識別(Named Entity Recognition,NER)也不例外,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
    的頭像 發(fā)表于 01-18 09:24 ?4850次閱讀
    基于<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)</b>在命名實體識別中應(yīng)用的分析與總結(jié)

    一種新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):膠囊網(wǎng)絡(luò)

    膠囊網(wǎng)絡(luò)是 Geoffrey Hinton 提出的一種新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),為了解決卷積神經(jīng)網(wǎng)絡(luò)(ConvNets)的一些缺點,提出了膠囊網(wǎng)絡(luò)。
    的頭像 發(fā)表于 02-02 09:25 ?6160次閱讀

    一種改進(jìn)的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索方法

    為提升網(wǎng)絡(luò)結(jié)構(gòu)的尋優(yōu)能力,提岀一種改進(jìn)的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索方法。針對網(wǎng)絡(luò)結(jié)構(gòu)間距難以度量的問題,結(jié)合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索方案,設(shè)計基于圖的深
    發(fā)表于 03-16 14:05 ?3次下載
    一種改進(jìn)的深度<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)</b>搜索方法

    幾種典型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的比較與分析

    幾種典型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的比較與分析說明。
    發(fā)表于 04-28 10:11 ?3次下載

    卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

    卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) 卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)是一種前饋神經(jīng)網(wǎng)絡(luò),常用于圖像處理、自然語言處理等領(lǐng)域中。它是一種深度學(xué)習(xí)(Deep
    的頭像 發(fā)表于 08-17 16:30 ?1534次閱讀

    深度神經(jīng)網(wǎng)絡(luò)與基本神經(jīng)網(wǎng)絡(luò)的區(qū)別

    在探討深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNNs)與基本神經(jīng)網(wǎng)絡(luò)(通常指傳統(tǒng)神經(jīng)網(wǎng)絡(luò)或前向神經(jīng)網(wǎng)絡(luò))的區(qū)別時,我們需要從多個維度進(jìn)行深入分析。這些維度包括
    的頭像 發(fā)表于 07-04 13:20 ?1757次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的區(qū)別

    循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是深度學(xué)習(xí)領(lǐng)域中兩種非常重要的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
    的頭像 發(fā)表于 07-04 14:24 ?2044次閱讀

    遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)形式主要分為

    結(jié)構(gòu)形式。 Elman網(wǎng)絡(luò) Elman網(wǎng)絡(luò)是一種基本的遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),由Elman于1990年提出。其結(jié)構(gòu)主要包括輸入層、隱藏層和輸出層,
    的頭像 發(fā)表于 07-05 09:32 ?919次閱讀

    BP神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計原則

    BP(back propagation)神經(jīng)網(wǎng)絡(luò)是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),其網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計原則主要基于以下幾個方面: 一、層次結(jié)構(gòu) 輸入層 :接收外部輸入信號,不
    的頭像 發(fā)表于 02-12 16:41 ?710次閱讀