欧美日韩四级电影一区久久,亚洲无码av一区二区三区在线播放 ,无码专区一区二区国产

近日，來(lái)自曠視研究院的郭梓超、張祥雨、穆皓遠(yuǎn)、孫劍等人發(fā)表一篇新論文“Single Path One-Shot Neural Architecture Search with Uniform Sampling”，提出一個(gè)單路徑 One-Shot 模型，以解決訓(xùn)練過(guò)程中面對(duì)的主要挑戰(zhàn)。目前，這一方法在大型數(shù)據(jù)集 ImageNet 上取得了當(dāng)前最優(yōu)結(jié)果。

值得一提的是，孫劍現(xiàn)任曠視研究院院長(zhǎng)，與同為深度殘差網(wǎng)絡(luò)ResNet作者之一的張祥雨（與孫劍一起加盟曠視）早已合作多次。

傳送門：

https://arxiv.org/abs/1904.00420

導(dǎo)語(yǔ)

簡(jiǎn)介

本文 One-Shot NAS

One-Shot NAS方法回顧

單路徑超網(wǎng)絡(luò)與均勻采樣

超網(wǎng)絡(luò)與選擇單元

通道數(shù)搜索

混合精度量化搜索

基于進(jìn)化算法的模型搜索

總結(jié)

實(shí)驗(yàn)

構(gòu)造單元搜索

通道數(shù)搜索

對(duì)比SOTA方法

混合精度量化搜索

搜索成本分析

參考文獻(xiàn)

導(dǎo)語(yǔ)

一步法（One-Shot）是一個(gè)強(qiáng)大的神經(jīng)網(wǎng)絡(luò)模型搜索（Neural Architecture Search/NAS）框架，但是它的訓(xùn)練相對(duì)復(fù)雜，并且很難在大型數(shù)據(jù)集（比如 ImageNet）上取得較有競(jìng)爭(zhēng)力的結(jié)果。

本文中，曠視研究院提出一個(gè)單路徑 One-Shot 模型，以解決訓(xùn)練過(guò)程中面對(duì)的主要挑戰(zhàn)，其核心思想是構(gòu)建一個(gè)簡(jiǎn)化的超網(wǎng)絡(luò)——單路徑超網(wǎng)絡(luò)（Single Path Supernet），這個(gè)網(wǎng)絡(luò)按照均勻的路徑采樣方法進(jìn)行訓(xùn)練。

所有子結(jié)構(gòu)（及其權(quán)重）獲得充分而平等的訓(xùn)練?；谶@個(gè)已訓(xùn)練的超網(wǎng)絡(luò)，可以通過(guò)進(jìn)化算法快速地搜索最優(yōu)子結(jié)構(gòu)，其中無(wú)需對(duì)任何子結(jié)構(gòu)進(jìn)行微調(diào)。

對(duì)比實(shí)驗(yàn)證明了這一方法的靈活性和有效性，不僅易于訓(xùn)練和快速搜索，并且可以輕松支持不同的復(fù)雜搜索空間（比如構(gòu)造單元，通道數(shù)，混合精度量化）和搜索約束（比如 FLOPs，速度），從而便于滿足多種需求。這一方法在大型數(shù)據(jù)集 ImageNet 上取得了當(dāng)前最優(yōu)結(jié)果。

簡(jiǎn)介

深度學(xué)習(xí)終結(jié)了手工設(shè)計(jì)特征的時(shí)代，同時(shí)解決了權(quán)重優(yōu)化問(wèn)題。NAS 則旨在通過(guò)另一個(gè)方法——模型搜索（architecture search），終結(jié)人工設(shè)計(jì)架構(gòu)。

早期的 NAS 方法使用嵌套式優(yōu)化，從搜索空間采樣出模型結(jié)構(gòu)，接著從頭訓(xùn)練其權(quán)重，缺點(diǎn)是對(duì)于大型數(shù)據(jù)集來(lái)講計(jì)算量過(guò)大。新近的 NAS 方法則采用權(quán)重共享策略減少計(jì)算量。本文提出的超網(wǎng)絡(luò)則包含所有子結(jié)構(gòu)，只訓(xùn)練一次，所有子結(jié)構(gòu)便可以直接從超網(wǎng)絡(luò)獲得其權(quán)重，無(wú)需從頭訓(xùn)練。即使在大型數(shù)據(jù)集上，計(jì)算也十分高效。

大多數(shù)權(quán)重共享方法使用連續(xù)的搜索空間，將模型結(jié)構(gòu)分布不斷參數(shù)化。這些參數(shù)在超網(wǎng)絡(luò)訓(xùn)練期間與網(wǎng)絡(luò)權(quán)重進(jìn)行聯(lián)合優(yōu)化。因此可以在優(yōu)化時(shí)進(jìn)行模型搜索，從分布中采樣最優(yōu)的架構(gòu)。其公式化表示優(yōu)雅而理論完備。但是存在兩個(gè)問(wèn)題：

第一，超網(wǎng)絡(luò)的權(quán)重深度耦合。目前尚不清楚為什么特定結(jié)構(gòu)的復(fù)用權(quán)重（inherited weights）依然有效。第二，聯(lián)合優(yōu)化導(dǎo)致了模型參數(shù)和超網(wǎng)絡(luò)權(quán)重的進(jìn)一步耦合。梯度方法的貪婪天性不可避免地在結(jié)構(gòu)分布和超網(wǎng)絡(luò)權(quán)重中引入偏差。這很容易誤導(dǎo)模型搜索。精細(xì)地微調(diào)超參數(shù)和優(yōu)化過(guò)程被用于先前方法之中。

One-Shot 是一種新范式。它定義了超網(wǎng)絡(luò)，并以相似的方式做權(quán)重復(fù)用。但是并沒(méi)有將模型結(jié)構(gòu)分布參數(shù)化。模型搜索從超網(wǎng)絡(luò)訓(xùn)練中解耦，并且解決步驟是獨(dú)立的。因此，One-Shot 具有序列性。它結(jié)合了上述嵌套式和聯(lián)合式優(yōu)化方法的優(yōu)點(diǎn)，因此靈活而高效。

盡管第二個(gè)問(wèn)題已解決，現(xiàn)有 One-Shot 并未很好地解決第一個(gè)問(wèn)題。超網(wǎng)絡(luò)的權(quán)重依然耦合。優(yōu)化依然復(fù)雜，并包含敏感的超參數(shù)，導(dǎo)致在大型數(shù)據(jù)集上表現(xiàn)欠佳。

本文方法的動(dòng)機(jī)旨在吸收 One-Shot 的優(yōu)點(diǎn)，克服其缺點(diǎn)。One-Shot 成功的關(guān)鍵是使用復(fù)用權(quán)重的模型的精度可以用來(lái)預(yù)測(cè)從頭訓(xùn)練模型的精度。因此，曠視研究院提出，超網(wǎng)絡(luò)訓(xùn)練應(yīng)是隨機(jī)的。這樣所有子結(jié)構(gòu)的權(quán)重能夠被同時(shí)且均勻地優(yōu)化。

為減少超網(wǎng)絡(luò)的權(quán)重耦合，曠視研究院提出一個(gè)單路徑超網(wǎng)絡(luò)，在每次迭代訓(xùn)練中只有單路徑結(jié)構(gòu)被激活。訓(xùn)練中不需要任何超參數(shù)來(lái)指導(dǎo)子結(jié)構(gòu)的選擇，采用均勻采樣的方式，平等對(duì)待所有子結(jié)構(gòu)。

本文方法簡(jiǎn)單而靈活，超網(wǎng)絡(luò)訓(xùn)練中沒(méi)有超參數(shù)。其簡(jiǎn)易性允許設(shè)計(jì)豐富的搜索空間，包括新設(shè)計(jì)通道單元和位寬單元。模型搜索過(guò)程十分高效，因?yàn)橹恍枰诔W(wǎng)絡(luò)的權(quán)重進(jìn)行前向計(jì)算。進(jìn)化算法則用來(lái)輕松支持多種約束。

綜合性消融實(shí)驗(yàn)及在大型數(shù)據(jù)集（ImageNet）上的實(shí)驗(yàn)證明了這一方法在精度、內(nèi)存消耗、訓(xùn)練時(shí)間、模型搜索的有效性及靈活性方面都表現(xiàn)良好，達(dá)到了當(dāng)前最優(yōu)的結(jié)果。

本文 One-Shot NAS

One-Shot NAS方法回顧

上所述，耦合式模型搜索和權(quán)重優(yōu)化是存在挑戰(zhàn)和問(wèn)題的。通過(guò)回顧發(fā)現(xiàn)，早期使用嵌套優(yōu)化的 NAS 方法在于解決公式 (1) 和 (2) 的優(yōu)化問(wèn)題，這不禁引起思考，問(wèn)題解耦和權(quán)重共享的優(yōu)點(diǎn)是否可以兼得？

這一考慮誕生了所謂的 One-Shot 。這些方法依然只訓(xùn)練一次超網(wǎng)絡(luò)，并允許各結(jié)構(gòu)共享其中的權(quán)重。

但是，超網(wǎng)絡(luò)訓(xùn)練及模型搜索作為先后次序的兩個(gè)步驟是解耦的。請(qǐng)注意，這不同于嵌套優(yōu)化或聯(lián)合優(yōu)化。

首先，超網(wǎng)絡(luò)權(quán)重被優(yōu)化為：

相比公式 (4)

，公式 (5) 已經(jīng)不存在搜索空間的連續(xù)參數(shù)化，只有網(wǎng)絡(luò)權(quán)重被優(yōu)化。

其次，搜索部分被表示為：

公式 (6) 與公式 (1) 、 (2) 的最大區(qū)別是其權(quán)重是預(yù)先初始化的。評(píng)估僅需要推理。沒(méi)有微調(diào)或者再訓(xùn)練。因此搜索非常有效。

通過(guò)借助進(jìn)化算法，搜索同樣非常靈活。像等式 (3)對(duì)模型結(jié)構(gòu)進(jìn)行的約束可以精確地滿足。并且一旦訓(xùn)練好一個(gè)超網(wǎng)絡(luò)，可在同一超網(wǎng)絡(luò)內(nèi)基于不同約束（比如 100ms 和 200ms 延遲）重復(fù)搜索。這些特性是先前方法所缺失的，將使 One-Shot NAS 方法對(duì)實(shí)際任務(wù)更具吸引力。

但依然存在一個(gè)問(wèn)題。在等式 (5) 中，超網(wǎng)絡(luò)訓(xùn)練的圖節(jié)點(diǎn)權(quán)重是耦合的，復(fù)用權(quán)重是否適用于任意子結(jié)構(gòu)尚不清楚。

單路徑超網(wǎng)絡(luò)和均勻采樣

按照基本原理重新出發(fā)，會(huì)使 One-Shot 范式更有效。在等式 (5) 中，模型搜索成功的關(guān)鍵在于，在驗(yàn)證集中，使用復(fù)用權(quán)重（沒(méi)有額外的微調(diào)）的任意子結(jié)構(gòu)的精度是高度可信的。正如等式 (1) 是理想情況，需要權(quán)重。近似的效果和訓(xùn)練損失函數(shù)的優(yōu)化應(yīng)當(dāng)與搜索空間中所有子結(jié)構(gòu)的優(yōu)化同時(shí)進(jìn)行。這可表示為：

請(qǐng)注意，等式 (7) 是等式 (5) 的實(shí)現(xiàn)。在優(yōu)化的每一步中，子結(jié)構(gòu)是隨機(jī)采樣的，只有對(duì)應(yīng)的權(quán)重被激活和更新。這不僅節(jié)省內(nèi)存空間，而且高效。由此，超網(wǎng)絡(luò)本身不再是一個(gè)有效的網(wǎng)絡(luò)，而變成一個(gè)隨機(jī)的網(wǎng)絡(luò)。

為減少節(jié)點(diǎn)權(quán)重之間的協(xié)同適應(yīng)，曠視研究院提出最大化簡(jiǎn)化搜索空間

圖 1：?jiǎn)我宦窂匠W(wǎng)絡(luò)架構(gòu)圖

在每次訓(xùn)練時(shí)僅保留一個(gè)。不存在任何調(diào)優(yōu)。訓(xùn)練在本文實(shí)驗(yàn)中收斂良好。

先驗(yàn)分布

表 2：不同采樣策略的單路徑超網(wǎng)絡(luò)的進(jìn)化模型搜索

本文注意到，在優(yōu)化時(shí)根據(jù)結(jié)構(gòu)分布采樣一個(gè)路徑已經(jīng)出現(xiàn)在之前的權(quán)重共享方法之中，區(qū)別在于，在本文的訓(xùn)練中（等式(7)）分布 ? ? ?是一個(gè)固定的先驗(yàn)，而在先前方法中，它是可學(xué)習(xí)和更新的（等式(4)），后者會(huì)使超網(wǎng)絡(luò)權(quán)重和結(jié)構(gòu)參數(shù)優(yōu)化高度關(guān)聯(lián)。

請(qǐng)注意，本文并未聲明在訓(xùn)練時(shí)一個(gè)固定的先驗(yàn)分布天生優(yōu)于優(yōu)化分布。不存在這樣的理論保證。本文更優(yōu)的結(jié)果可能是受益于這一事實(shí)：當(dāng)前優(yōu)化技術(shù)的成熟度不足以滿足等式 (4) 中的聯(lián)合優(yōu)化需求。

超網(wǎng)絡(luò)與選擇單元

選擇單元用于構(gòu)建一個(gè)超網(wǎng)絡(luò)。圖 1 給出了一個(gè)實(shí)例。一個(gè)選擇單元包含多個(gè)選擇。對(duì)于本文提出的單路徑超網(wǎng)絡(luò)，每個(gè)選擇單元一次只調(diào)用一個(gè)選擇。一個(gè)路徑的獲得是通過(guò)隨機(jī)采樣所有選擇單元實(shí)現(xiàn)的。

本文方法的簡(jiǎn)易性允許定義不同類型的選擇單元，以搜索不同的結(jié)構(gòu)變量。具體而言，曠視研究院提出兩個(gè)全新的選擇單元，以支持復(fù)雜的搜索空間。

通道數(shù)搜索。選擇單元旨在搜索一個(gè)卷積層的通道數(shù)。其主要思想是預(yù)先分配一個(gè)帶有最大通道數(shù)的權(quán)重張量。在超網(wǎng)絡(luò)訓(xùn)練期間，系統(tǒng)隨機(jī)選擇通道數(shù)并分割出用于卷積的相應(yīng)的子張量。詳見(jiàn)圖 4。

圖 4：用于通道數(shù)搜索的選擇單元

混合精度量化搜索。選擇單元可以搜索卷積層權(quán)重和特征的量化精度。在超網(wǎng)絡(luò)訓(xùn)練中，特征圖的位寬和和權(quán)重被隨機(jī)選取。詳見(jiàn)圖 5。

圖 5：用于混合精度量化搜索的選擇單元

基于進(jìn)化算法的模型搜索

針對(duì)等式 (6) 中的模型搜索，先前的 One-Shot 工作使用隨機(jī)搜索。這在大的搜索空間中并不奏效。因此，本文使用了進(jìn)化算法，同時(shí)揚(yáng)棄了從頭開(kāi)始訓(xùn)練每個(gè)子結(jié)構(gòu)的缺點(diǎn)，只涉及推理部分，因此非常高效。詳見(jiàn)算法 1。

算法 1：基于進(jìn)化算法的模型搜索

圖 3 描繪了使用進(jìn)化算法和隨機(jī)搜索兩種方法在進(jìn)化迭代時(shí)的驗(yàn)證集精度。很明顯進(jìn)化算法搜索更有效。

圖 3：進(jìn)化算法搜索對(duì)比隨機(jī)搜索

進(jìn)化算法可以靈活處理等式 (3) 的不同約束，因?yàn)樽儺惡徒徊孢^(guò)程是可控的，以產(chǎn)生滿足約束條件的合適候選。

總結(jié)

單路徑超網(wǎng)絡(luò)、均勻采樣訓(xùn)練策略、基于進(jìn)化算法的模型搜索、豐富的搜索空間設(shè)計(jì)，上述多種設(shè)計(jì)使得本文方法簡(jiǎn)單、高效和靈活。表 1 給出了本文方法與其他權(quán)重共享方法的一個(gè)全方位、多維度對(duì)比結(jié)果。

表 1：本文方法對(duì)比當(dāng)前權(quán)重共享 SOTA 方法

實(shí)驗(yàn)

所有實(shí)驗(yàn)是在 ImageNet 上進(jìn)行的。驗(yàn)證集和測(cè)試集的設(shè)定遵從 Proxyless NAS[4]。對(duì)于超網(wǎng)絡(luò)的訓(xùn)練，以及（進(jìn)化搜索之后）最優(yōu)模型結(jié)構(gòu)的從頭再訓(xùn)練，本文使用和 [17] 一樣的設(shè)定。

構(gòu)造單元搜索

構(gòu)造單元（building block）的設(shè)計(jì)靈感來(lái)自手工設(shè)計(jì)網(wǎng)絡(luò)的代表作——ShuffleNet v2。表 2 給出了超網(wǎng)絡(luò)的整體架構(gòu)。共有 20 個(gè)選擇單元。

表 2：超網(wǎng)絡(luò)架構(gòu)

表 3 給出了結(jié)果。為了對(duì)比，本文設(shè)置了一系列基線，如下：1）只選擇一個(gè)特定的單元選擇；2）從搜索空間中隨機(jī)選擇一些候選；3）使用隨機(jī)搜索替代本文的進(jìn)化算法模型搜索。

表 3：構(gòu)造單元搜索結(jié)果

通道數(shù)搜索

搜索卷積層的通道數(shù)非常有挑戰(zhàn)，如圖 4 所示，本文提出一個(gè)全新的選擇單元用于通道數(shù)搜索，并首先在基線結(jié)構(gòu) “all choice 3”（見(jiàn)表 3）做了評(píng)估，結(jié)果如表 4 （第一部分）所示；為進(jìn)一步提升精度，本文對(duì)構(gòu)造單元和通道做了聯(lián)合搜索。結(jié)果如表 4（第二部分）所示。

表 4：通道數(shù)搜索

對(duì)比SOTA方法

雖然表 4 展示了本文方法的優(yōu)越性，但是由于搜索空間和訓(xùn)練方法的不同，存在不公平對(duì)比的可能性。為直接進(jìn)行對(duì)比，本文采用和 Proxyless NAS [4]、FBNet [26] 相同的搜索空間，并在同一設(shè)置下再訓(xùn)練已搜索的模型，具體對(duì)比結(jié)果如表 5 所示：

表 5：本文方法與當(dāng)前 SOTA NAS 方法的對(duì)比

混合精度量化搜索

低功率設(shè)備部署模型時(shí)需要用到量化技術(shù)。但是在通道數(shù)與位寬之間找到一個(gè)權(quán)衡不無(wú)挑戰(zhàn)。對(duì)于這些問(wèn)題，本文方法可迎刃而解。

這里的搜索空間包含上述的通道搜索空間和混合精度量化搜索空間，后者使用一個(gè)全新的選擇單元搜索權(quán)重和特征圖的位寬，如圖 5 所示。

在超網(wǎng)絡(luò)訓(xùn)練中，對(duì)于每個(gè)選擇單元，特征位寬和權(quán)重位寬是隨機(jī)采樣的。他們?cè)谶M(jìn)化步驟中被確定。具體實(shí)驗(yàn)結(jié)果如表 6 所示：

表 6：混合精度量化搜索的結(jié)果

搜索成本分析

搜索成本在 NAS 中是一件要緊的事。本文給出了與先前方法 [4] [26] 的一些對(duì)比結(jié)果，如表 7 所示：

表 7：搜索成本

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4814

瀏覽量
103640
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1224

瀏覽量
25449
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5561

瀏覽量
122799

原文標(biāo)題：曠視提出AutoML新方法，在ImageNet取得新突破 | 技術(shù)頭條

文章出處：【微信號(hào)：rgznai100，微信公眾號(hào)：rgznai100】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

搜索歷史

一個(gè)單路徑One-Shot模型，以解決訓(xùn)練過(guò)程中面對(duì)的主要挑戰(zhàn)

評(píng)論

搜索歷史

一個(gè)單路徑One-Shot模型，以解決訓(xùn)練過(guò)程中面對(duì)的主要挑戰(zhàn)

評(píng)論

一個(gè)單路徑One-Shot模型，以解決訓(xùn)練過(guò)程中面對(duì)的主要挑戰(zhàn)