支撐移動端高性能AI的幕后力量!谷歌提出全新高性能MobileNet V3,網(wǎng)絡(luò)模型搜索與精巧設(shè)計的完美結(jié)合造就新一代移動端網(wǎng)絡(luò)架構(gòu)。
在剛剛過去的谷歌I/O上小伙伴對新發(fā)布的技術(shù)一定過足了癮。支撐谷歌整合全球信息的AI被提到了至關(guān)重要的位置,從云到端,從安卓系統(tǒng)到移動設(shè)備無處不在的AI都顯示出向善的力量。移動端作為與用戶交流最為密切的設(shè)備,支撐它的AI技術(shù)正在飛速發(fā)展。為了實現(xiàn)更準確、更迅速更節(jié)能的移動端模型,在I/O大會召開的同日谷歌發(fā)表文章推出了最新一代移動端網(wǎng)絡(luò)架構(gòu)MobileNet V3,也許這就是為Pixels提供優(yōu)異表現(xiàn)背后的力量。在最新的論文里,研究人員結(jié)合了網(wǎng)絡(luò)架構(gòu)搜索技術(shù)和新穎的架構(gòu)設(shè)計實現(xiàn)了新一代的MobileNetV3,更適合移動端CPUs運行。新的模型在精度和延遲上進行了很好的平衡,并在圖像分類、檢測和分割上取得了超過V2版本15%~30%的速度提升。
V3兩個版本的模型與先前模型在精度-速度上表現(xiàn)的對比(TFLite在單核CPU上測試)。
同時在相同的模型大小下取得了更好的精度。
V3模型在模型大小、操作與精度上表現(xiàn)與先前模型的對比。
隨著AI的發(fā)展和落地,高效的神經(jīng)網(wǎng)絡(luò)逐漸成為了移動設(shè)備和app的標配。一個高效的模型實現(xiàn)不僅能帶來順滑的體驗,更因為無需上傳用戶數(shù)據(jù)就能訓練模型而增強了對于用戶隱私的保護。除了帶來低延時的使用體驗,高效模型還為持久續(xù)行的移動設(shè)備節(jié)省了更多電能開銷。(I/O大會上對于隱私的強調(diào)和長續(xù)航的Pixels手機也許就有這個mobileNetV3的貢獻呢。)
在最新的論文中,研究人員提出了包含兩個子版本的MobileNetV3(Large/Small)為移動端高精度高效率的計算機任務(wù)提供AI動力。新模型不僅拓展了移動端網(wǎng)絡(luò)的能力邊界,更在實現(xiàn)過程中將模型自動搜索方法和新穎架構(gòu)設(shè)計有機結(jié)合起來,創(chuàng)造出高效準確的模型架構(gòu)。為了構(gòu)建高效的網(wǎng)絡(luò)模型權(quán)衡精度和效率,研究人員設(shè)計了各設(shè)各樣精妙的模型,同時也利用了自動化的大規(guī)模架構(gòu)搜索來不斷探索能力更強、效率更高的模型。這些精妙的設(shè)計不斷提高了移動端模型的效率和精度。SqueezeNet開始模型的參數(shù)量就不斷下降,為了進一步減少模型的實際操作數(shù)(MAdds),MobileNetV1利用了深度可分離卷積提高了計算效率,而v2則加入了線性bottlenecks和反轉(zhuǎn)殘差模塊構(gòu)成了高效的基本模塊。隨后的ShuffleNet充分利用了組卷積和通道shuffle進一步提高模型效率。CondenseNet則學習保留有效的dense連接在保持精度的同時降低,ShiftNet則利用shift操作和逐點卷積代替了昂貴的空間卷積。除了各種精巧的設(shè)計,研究人員們還請來的算法幫忙自動化設(shè)計和搜索網(wǎng)絡(luò)模型。強化學習最先被引入這個領(lǐng)域,早期的工作主要集中在cell級別的結(jié)構(gòu)搜索并復用所有層中,而最近的工作則拓展到了塊級別的架構(gòu),模型探索不同的層結(jié)構(gòu)和不同分辨率的塊結(jié)構(gòu)來構(gòu)建網(wǎng)絡(luò)。此外網(wǎng)絡(luò)模型的剪枝和量化也是提高效率的重要途徑。在這些技術(shù)的加持下,Google的研究人員開始著手構(gòu)建更強大的v3模型。在充分研究了v1版本的深度可分離模塊、v2版本的線性瓶頸和反轉(zhuǎn)殘差、MnasNet中的序列激活結(jié)構(gòu)后,綜合了三種結(jié)構(gòu)的優(yōu)點設(shè)計出了高效的v3模塊,并利用了改進后的swish作為激活函數(shù),使得后續(xù)的量化和效率提升更為有效。在構(gòu)建v3版本模塊的過程中研究人員主要進行了網(wǎng)絡(luò)搜索和模型改進兩個部分,自動和手動的協(xié)同工作得到了更為先進的模型架構(gòu)。
網(wǎng)絡(luò)搜索
對于模型結(jié)構(gòu)的探索和優(yōu)化來說,網(wǎng)絡(luò)搜索是強大的工具。研究人員首先使用了神經(jīng)網(wǎng)絡(luò)搜索功能來構(gòu)建全局的網(wǎng)絡(luò)結(jié)構(gòu),隨后利用了NetAdapt算法來對每層的核數(shù)量進行優(yōu)化。對于全局的網(wǎng)絡(luò)結(jié)構(gòu)搜索,研究人員使用了與Mnasnet中相同的,基于RNN的控制器和分級的搜索空間,并針對特定的硬件平臺進行精度-延時平衡優(yōu)化,在目標延時(~80ms)范圍內(nèi)進行搜索。隨后利用NetAdapt方法來對每一層按照序列的方式進行調(diào)優(yōu)。在盡量優(yōu)化模型延時的同時保持精度,減小擴充層和每一層中瓶頸的大小。
網(wǎng)絡(luò)改進
在機器搜索得到網(wǎng)絡(luò)架構(gòu)的基礎(chǔ)上,研究人員引入了諸多新型的結(jié)構(gòu)來提升模型的最終效果。不僅重新設(shè)計了網(wǎng)絡(luò)頭和尾的計算密集層,同時還引入了新的非線性激活h-swish,提升計算和量化能力。mobileNetV2模型中反轉(zhuǎn)殘差結(jié)構(gòu)和變量利用了1*1卷積來構(gòu)建最后層,以便于拓展到高維的特征空間,雖然對于提取豐富特征進行預測十分重要,但卻引入了二外的計算開銷與延時。為了在保留高維特征的前提下減小延時,將均值池化前的層移除并用1*1卷積來計算特征圖。特征生成層被移除后,先前用于瓶頸映射的層也不再需要了,這將為減少10ms的開銷,在提速15%的同時減小了30m的操作數(shù)。
同時在模型的前端,32個3*3的卷積通過h-swish非線性在保持精度的情況下壓縮到了16個卷積核,又減小了10m操作和3ms的開銷。
對于非線性激活函數(shù),swish雖然很有效但在移動端運行開銷很大,研究人員從兩個方面著手解決這一問題。一方面利用了hard(硬)版本的激活函數(shù):
這種非線性在保持精度的情況下帶了了很多優(yōu)勢,首先ReLU6在眾多軟硬件框架中都可以實現(xiàn),其次量化時避免了數(shù)值精度的損失,運行快。這一非線性改變將模型的延時增加了15%。但它帶來的網(wǎng)絡(luò)效應(yīng)對于精度和延時具有正向促進,剩下的開銷可以通過融合非線性與先前層來消除。另一方面,研究發(fā)現(xiàn)非線性使用帶來的開銷會隨著網(wǎng)絡(luò)深度的加深而減小,所以研究人員將在后半部分較深的層中使用以減小開銷。研究人員提出了一大一小兩個模型,分別針對不同級別計算資源的硬件平臺。下表展示了兩種不同模型的架構(gòu)??梢钥吹较惹疤岬降膆-wish集中在后半部分。
分類、檢測、分割驗證模型能力提升
為了驗證新模型的精度與效率,研究人員分別在圖像分類、目標檢測和實例分割任務(wù)上進行了測試,指標全面提升。首先來看ImageNet上的分類結(jié)果:
可以看到large版本的模型在精度、操作數(shù)上都得到了提升,特別是延時縮短了很多。研究人員還研究了網(wǎng)絡(luò)中的乘數(shù)因子與分辨率對精度和延時造成的影響:
此外還進行了消融性測試,分別分析了h-swish和各個部件對于模型精度延時的影響:
隨后在COCO數(shù)據(jù)集上基于V3實現(xiàn)的SSDLite進行了目標檢測任務(wù)的評測,可以看到map提升或者延時大幅下降了,100ms左右即可完成目標檢測:
最后還在Cityscape實例分割任務(wù)上進行了測試。研究人員還提出了新的輕型R-ASPP (reduced design of the Atrous Spatial Pyramid Pooling)模塊用于分割頭的架構(gòu)。一個分支用了很大的池化核和大步長節(jié)省計算量,另一個分支只用了1*1卷積抽取稠密特征,并加入了底層特征來捕捉更多的細節(jié)信息。下圖顯示了減半輸出濾波器數(shù)量、改變分割頭、改變輸出步長情況下的實例分割結(jié)果,可以看到通過各種性能提升,可以在CPUs上實現(xiàn)400ms左右的分割。
目前github已經(jīng)能搜到兩個v3版基于PyTorch代碼實現(xiàn):
https://github.com/AnjieZheng/MobileNetV3-PyTorchhttps://github.com/leaderj1001/MobileNetV3-Pytorch
其中模型定義在model.py/mobilenet_v3.py中,感興趣的小伙伴可以嘗試下新版本的MobileNet香不香?配合論文學習,理論聯(lián)系實際學得快記得牢!
-
谷歌
+關(guān)注
關(guān)注
27文章
6231瀏覽量
107905 -
強化學習
+關(guān)注
關(guān)注
4文章
269瀏覽量
11563 -
ai技術(shù)
+關(guān)注
關(guān)注
1文章
1308瀏覽量
25101
原文標題:首發(fā) | 精度、速度、效率、性能全面提升!揭秘谷歌最新一代移動端網(wǎng)絡(luò)架構(gòu)MobileNet V3
文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄





縱行科技發(fā)布了全新的純國產(chǎn)芯片ZTG1826A,這款ZETA芯片高性能,低功耗,低成本,歡迎來撩

[3.4.1]--專題報告:最新高性能天線設(shè)計方法林斌副教授_clip001

[3.4.1]--專題報告:最新高性能天線設(shè)計方法林斌副教授_clip002
Firefly支持AI引擎Tengine,性能提升,輕松搭建AI計算框架
基于ZU3EG的低功耗高性能嵌入式AI高性能計算模組
AutoKernel高性能算子自動優(yōu)化工具
全新高性價比STM32H5讓性能和安全觸手可及
德州儀器推出全新高性能DSP
全新高性能 Sitara?? AM263 MCU 如何發(fā)揮電氣化設(shè)計的全部潛能

評論