99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一個(gè)單路徑One-Shot模型,以解決訓(xùn)練過(guò)程中面對(duì)的主要挑戰(zhàn)

電子工程師 ? 來(lái)源:lp ? 2019-04-04 16:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,來(lái)自曠視研究院的郭梓超、張祥雨、穆皓遠(yuǎn)、孫劍等人發(fā)表一篇新論文“Single Path One-Shot Neural Architecture Search with Uniform Sampling”,提出一個(gè)單路徑 One-Shot 模型,以解決訓(xùn)練過(guò)程中面對(duì)的主要挑戰(zhàn)。目前,這一方法在大型數(shù)據(jù)集 ImageNet 上取得了當(dāng)前最優(yōu)結(jié)果。

值得一提的是,孫劍現(xiàn)任曠視研究院院長(zhǎng),與同為深度殘差網(wǎng)絡(luò)ResNet作者之一的張祥雨(與孫劍一起加盟曠視)早已合作多次。

傳送門:

https://arxiv.org/abs/1904.00420

導(dǎo)語(yǔ)

簡(jiǎn)介

本文 One-Shot NAS

One-Shot NAS方法回顧

單路徑超網(wǎng)絡(luò)與均勻采樣

超網(wǎng)絡(luò)與選擇單元

通道數(shù)搜索

混合精度量化搜索

基于進(jìn)化算法的模型搜索

總結(jié)

實(shí)驗(yàn)

構(gòu)造單元搜索

通道數(shù)搜索

對(duì)比SOTA方法

混合精度量化搜索

搜索成本分析

參考文獻(xiàn)

導(dǎo)語(yǔ)

一步法(One-Shot)是一個(gè)強(qiáng)大的神經(jīng)網(wǎng)絡(luò)模型搜索(Neural Architecture Search/NAS)框架,但是它的訓(xùn)練相對(duì)復(fù)雜,并且很難在大型數(shù)據(jù)集(比如 ImageNet)上取得較有競(jìng)爭(zhēng)力的結(jié)果。

本文中,曠視研究院提出一個(gè)單路徑 One-Shot 模型,以解決訓(xùn)練過(guò)程中面對(duì)的主要挑戰(zhàn),其核心思想是構(gòu)建一個(gè)簡(jiǎn)化的超網(wǎng)絡(luò)——單路徑超網(wǎng)絡(luò)(Single Path Supernet),這個(gè)網(wǎng)絡(luò)按照均勻的路徑采樣方法進(jìn)行訓(xùn)練。

所有子結(jié)構(gòu)(及其權(quán)重)獲得充分而平等的訓(xùn)練?;谶@個(gè)已訓(xùn)練的超網(wǎng)絡(luò),可以通過(guò)進(jìn)化算法快速地搜索最優(yōu)子結(jié)構(gòu),其中無(wú)需對(duì)任何子結(jié)構(gòu)進(jìn)行微調(diào)。

對(duì)比實(shí)驗(yàn)證明了這一方法的靈活性和有效性,不僅易于訓(xùn)練和快速搜索,并且可以輕松支持不同的復(fù)雜搜索空間(比如構(gòu)造單元,通道數(shù),混合精度量化)和搜索約束(比如 FLOPs,速度),從而便于滿足多種需求。這一方法在大型數(shù)據(jù)集 ImageNet 上取得了當(dāng)前最優(yōu)結(jié)果。

簡(jiǎn)介

深度學(xué)習(xí)終結(jié)了手工設(shè)計(jì)特征的時(shí)代,同時(shí)解決了權(quán)重優(yōu)化問(wèn)題。NAS 則旨在通過(guò)另一個(gè)方法——模型搜索(architecture search),終結(jié)人工設(shè)計(jì)架構(gòu)。

早期的 NAS 方法使用嵌套式優(yōu)化,從搜索空間采樣出模型結(jié)構(gòu),接著從頭訓(xùn)練其權(quán)重,缺點(diǎn)是對(duì)于大型數(shù)據(jù)集來(lái)講計(jì)算量過(guò)大。新近的 NAS 方法則采用權(quán)重共享策略減少計(jì)算量。本文提出的超網(wǎng)絡(luò)則包含所有子結(jié)構(gòu),只訓(xùn)練一次,所有子結(jié)構(gòu)便可以直接從超網(wǎng)絡(luò)獲得其權(quán)重,無(wú)需從頭訓(xùn)練。即使在大型數(shù)據(jù)集上,計(jì)算也十分高效。

大多數(shù)權(quán)重共享方法使用連續(xù)的搜索空間,將模型結(jié)構(gòu)分布不斷參數(shù)化。這些參數(shù)在超網(wǎng)絡(luò)訓(xùn)練期間與網(wǎng)絡(luò)權(quán)重進(jìn)行聯(lián)合優(yōu)化。因此可以在優(yōu)化時(shí)進(jìn)行模型搜索,從分布中采樣最優(yōu)的架構(gòu)。其公式化表示優(yōu)雅而理論完備。但是存在兩個(gè)問(wèn)題:

第一,超網(wǎng)絡(luò)的權(quán)重深度耦合。目前尚不清楚為什么特定結(jié)構(gòu)的復(fù)用權(quán)重(inherited weights)依然有效。第二,聯(lián)合優(yōu)化導(dǎo)致了模型參數(shù)和超網(wǎng)絡(luò)權(quán)重的進(jìn)一步耦合。梯度方法的貪婪天性不可避免地在結(jié)構(gòu)分布和超網(wǎng)絡(luò)權(quán)重中引入偏差。這很容易誤導(dǎo)模型搜索。精細(xì)地微調(diào)超參數(shù)和優(yōu)化過(guò)程被用于先前方法之中。

One-Shot 是一種新范式。它定義了超網(wǎng)絡(luò),并以相似的方式做權(quán)重復(fù)用。但是并沒(méi)有將模型結(jié)構(gòu)分布參數(shù)化。模型搜索從超網(wǎng)絡(luò)訓(xùn)練中解耦,并且解決步驟是獨(dú)立的。因此,One-Shot 具有序列性。它結(jié)合了上述嵌套式和聯(lián)合式優(yōu)化方法的優(yōu)點(diǎn),因此靈活而高效。

盡管第二個(gè)問(wèn)題已解決,現(xiàn)有 One-Shot 并未很好地解決第一個(gè)問(wèn)題。超網(wǎng)絡(luò)的權(quán)重依然耦合。優(yōu)化依然復(fù)雜,并包含敏感的超參數(shù),導(dǎo)致在大型數(shù)據(jù)集上表現(xiàn)欠佳。

本文方法的動(dòng)機(jī)旨在吸收 One-Shot 的優(yōu)點(diǎn),克服其缺點(diǎn)。One-Shot 成功的關(guān)鍵是使用復(fù)用權(quán)重的模型的精度可以用來(lái)預(yù)測(cè)從頭訓(xùn)練模型的精度。因此,曠視研究院提出,超網(wǎng)絡(luò)訓(xùn)練應(yīng)是隨機(jī)的。這樣所有子結(jié)構(gòu)的權(quán)重能夠被同時(shí)且均勻地優(yōu)化。

為減少超網(wǎng)絡(luò)的權(quán)重耦合,曠視研究院提出一個(gè)單路徑超網(wǎng)絡(luò),在每次迭代訓(xùn)練中只有單路徑結(jié)構(gòu)被激活。訓(xùn)練中不需要任何超參數(shù)來(lái)指導(dǎo)子結(jié)構(gòu)的選擇,采用均勻采樣的方式,平等對(duì)待所有子結(jié)構(gòu)。

本文方法簡(jiǎn)單而靈活,超網(wǎng)絡(luò)訓(xùn)練中沒(méi)有超參數(shù)。其簡(jiǎn)易性允許設(shè)計(jì)豐富的搜索空間,包括新設(shè)計(jì)通道單元和位寬單元。模型搜索過(guò)程十分高效,因?yàn)橹恍枰诔W(wǎng)絡(luò)的權(quán)重進(jìn)行前向計(jì)算。進(jìn)化算法則用來(lái)輕松支持多種約束。

綜合性消融實(shí)驗(yàn)及在大型數(shù)據(jù)集(ImageNet)上的實(shí)驗(yàn)證明了這一方法在精度、內(nèi)存消耗、訓(xùn)練時(shí)間、模型搜索的有效性及靈活性方面都表現(xiàn)良好,達(dá)到了當(dāng)前最優(yōu)的結(jié)果。

本文 One-Shot NAS

One-Shot NAS方法回顧

上所述,耦合式模型搜索和權(quán)重優(yōu)化是存在挑戰(zhàn)和問(wèn)題的。通過(guò)回顧發(fā)現(xiàn),早期使用嵌套優(yōu)化的 NAS 方法在于解決公式 (1) 和 (2) 的優(yōu)化問(wèn)題,這不禁引起思考,問(wèn)題解耦和權(quán)重共享的優(yōu)點(diǎn)是否可以兼得?

這一考慮誕生了所謂的 One-Shot 。這些方法依然只訓(xùn)練一次超網(wǎng)絡(luò),并允許各結(jié)構(gòu)共享其中的權(quán)重。

但是,超網(wǎng)絡(luò)訓(xùn)練及模型搜索作為先后次序的兩個(gè)步驟是解耦的。請(qǐng)注意,這不同于嵌套優(yōu)化或聯(lián)合優(yōu)化。

首先,超網(wǎng)絡(luò)權(quán)重被優(yōu)化為:

相比公式 (4)

,公式 (5) 已經(jīng)不存在搜索空間的連續(xù)參數(shù)化,只有網(wǎng)絡(luò)權(quán)重被優(yōu)化。

其次,搜索部分被表示為:

公式 (6) 與公式 (1) 、 (2) 的最大區(qū)別是其權(quán)重是預(yù)先初始化的。評(píng)估 僅需要推理。沒(méi)有微調(diào)或者再訓(xùn)練。因此搜索非常有效。

通過(guò)借助進(jìn)化算法,搜索同樣非常靈活。像等式 (3)對(duì)模型結(jié)構(gòu)進(jìn)行的約束可以精確地滿足。并且一旦訓(xùn)練好一個(gè)超網(wǎng)絡(luò),可在同一超網(wǎng)絡(luò)內(nèi)基于不同約束(比如 100ms 和 200ms 延遲)重復(fù)搜索。這些特性是先前方法所缺失的,將使 One-Shot NAS 方法對(duì)實(shí)際任務(wù)更具吸引力。

但依然存在一個(gè)問(wèn)題。在等式 (5) 中,超網(wǎng)絡(luò)訓(xùn)練的圖節(jié)點(diǎn)權(quán)重是耦合的,復(fù)用權(quán)重是否適用于任意子結(jié)構(gòu)尚不清楚。

單路徑超網(wǎng)絡(luò)和均勻采樣

按照基本原理重新出發(fā),會(huì)使 One-Shot 范式更有效。在等式 (5) 中,模型搜索成功的關(guān)鍵在于,在驗(yàn)證集中,使用復(fù)用權(quán)重(沒(méi)有額外的微調(diào))的任意子結(jié)構(gòu)的精度是高度可信的。正如等式 (1) 是理想情況,需要權(quán)重。近似的效果和訓(xùn)練損失函數(shù)的優(yōu)化應(yīng)當(dāng)與搜索空間中所有子結(jié)構(gòu)的優(yōu)化同時(shí)進(jìn)行。這可表示為:

請(qǐng)注意,等式 (7) 是等式 (5) 的實(shí)現(xiàn)。在優(yōu)化的每一步中,子結(jié)構(gòu)是隨機(jī)采樣的,只有對(duì)應(yīng)的權(quán)重被激活和更新。這不僅節(jié)省內(nèi)存空間,而且高效。由此,超網(wǎng)絡(luò)本身不再是一個(gè)有效的網(wǎng)絡(luò),而變成一個(gè)隨機(jī)的網(wǎng)絡(luò)。

為減少節(jié)點(diǎn)權(quán)重之間的協(xié)同適應(yīng),曠視研究院提出最大化簡(jiǎn)化搜索空間

圖 1:?jiǎn)我宦窂匠W(wǎng)絡(luò)架構(gòu)圖

在每次訓(xùn)練時(shí)僅保留一個(gè)。不存在任何調(diào)優(yōu)。訓(xùn)練在本文實(shí)驗(yàn)中收斂良好。

先驗(yàn)分布

表 2:不同采樣策略的單路徑超網(wǎng)絡(luò)的進(jìn)化模型搜索

本文注意到,在優(yōu)化時(shí)根據(jù)結(jié)構(gòu)分布采樣一個(gè)路徑已經(jīng)出現(xiàn)在之前的權(quán)重共享方法之中,區(qū)別在于,在本文的訓(xùn)練中(等式(7))分布 ? ? ?是一個(gè)固定的先驗(yàn),而在先前方法中,它是可學(xué)習(xí)和更新的(等式(4)),后者會(huì)使超網(wǎng)絡(luò)權(quán)重和結(jié)構(gòu)參數(shù)優(yōu)化高度關(guān)聯(lián)。

請(qǐng)注意,本文并未聲明在訓(xùn)練時(shí)一個(gè)固定的先驗(yàn)分布天生優(yōu)于優(yōu)化分布。不存在這樣的理論保證。本文更優(yōu)的結(jié)果可能是受益于這一事實(shí):當(dāng)前優(yōu)化技術(shù)的成熟度不足以滿足等式 (4) 中的聯(lián)合優(yōu)化需求。

超網(wǎng)絡(luò)與選擇單元

選擇單元用于構(gòu)建一個(gè)超網(wǎng)絡(luò)。圖 1 給出了一個(gè)實(shí)例。一個(gè)選擇單元包含多個(gè)選擇。對(duì)于本文提出的單路徑超網(wǎng)絡(luò),每個(gè)選擇單元一次只調(diào)用一個(gè)選擇。一個(gè)路徑的獲得是通過(guò)隨機(jī)采樣所有選擇單元實(shí)現(xiàn)的。

本文方法的簡(jiǎn)易性允許定義不同類型的選擇單元,以搜索不同的結(jié)構(gòu)變量。具體而言,曠視研究院提出兩個(gè)全新的選擇單元,以支持復(fù)雜的搜索空間。

通道數(shù)搜索。選擇單元旨在搜索一個(gè)卷積層的通道數(shù)。其主要思想是預(yù)先分配一個(gè)帶有最大通道數(shù)的權(quán)重張量。在超網(wǎng)絡(luò)訓(xùn)練期間,系統(tǒng)隨機(jī)選擇通道數(shù)并分割出用于卷積的相應(yīng)的子張量。詳見(jiàn)圖 4。

圖 4:用于通道數(shù)搜索的選擇單元

混合精度量化搜索。選擇單元可以搜索卷積層權(quán)重和特征的量化精度。在超網(wǎng)絡(luò)訓(xùn)練中,特征圖的位寬和和權(quán)重被隨機(jī)選取。詳見(jiàn)圖 5。

圖 5:用于混合精度量化搜索的選擇單元

基于進(jìn)化算法的模型搜索

針對(duì)等式 (6) 中的模型搜索,先前的 One-Shot 工作使用隨機(jī)搜索。這在大的搜索空間中并不奏效。因此,本文使用了進(jìn)化算法,同時(shí)揚(yáng)棄了從頭開(kāi)始訓(xùn)練每個(gè)子結(jié)構(gòu)的缺點(diǎn),只涉及推理部分,因此非常高效。詳見(jiàn)算法 1。

算法 1:基于進(jìn)化算法的模型搜索

圖 3 描繪了使用進(jìn)化算法和隨機(jī)搜索兩種方法在進(jìn)化迭代時(shí)的驗(yàn)證集精度。很明顯進(jìn)化算法搜索更有效。

圖 3:進(jìn)化算法搜索對(duì)比隨機(jī)搜索

進(jìn)化算法可以靈活處理等式 (3) 的不同約束,因?yàn)樽儺惡徒徊孢^(guò)程是可控的,以產(chǎn)生滿足約束條件的合適候選。

總結(jié)

單路徑超網(wǎng)絡(luò)、均勻采樣訓(xùn)練策略、基于進(jìn)化算法的模型搜索、豐富的搜索空間設(shè)計(jì),上述多種設(shè)計(jì)使得本文方法簡(jiǎn)單、高效和靈活。表 1 給出了本文方法與其他權(quán)重共享方法的一個(gè)全方位、多維度對(duì)比結(jié)果。

表 1:本文方法對(duì)比當(dāng)前權(quán)重共享 SOTA 方法

實(shí)驗(yàn)

所有實(shí)驗(yàn)是在 ImageNet 上進(jìn)行的。驗(yàn)證集和測(cè)試集的設(shè)定遵從 Proxyless NAS[4]。對(duì)于超網(wǎng)絡(luò)的訓(xùn)練,以及(進(jìn)化搜索之后)最優(yōu)模型結(jié)構(gòu)的從頭再訓(xùn)練,本文使用和 [17] 一樣的設(shè)定。

構(gòu)造單元搜索

構(gòu)造單元(building block)的設(shè)計(jì)靈感來(lái)自手工設(shè)計(jì)網(wǎng)絡(luò)的代表作——ShuffleNet v2。表 2 給出了超網(wǎng)絡(luò)的整體架構(gòu)。共有 20 個(gè)選擇單元。

表 2:超網(wǎng)絡(luò)架構(gòu)

表 3 給出了結(jié)果。為了對(duì)比,本文設(shè)置了一系列基線,如下:1)只選擇一個(gè)特定的單元選擇;2)從搜索空間中隨機(jī)選擇一些候選;3)使用隨機(jī)搜索替代本文的進(jìn)化算法模型搜索。

表 3:構(gòu)造單元搜索結(jié)果

通道數(shù)搜索

搜索卷積層的通道數(shù)非常有挑戰(zhàn),如圖 4 所示,本文提出一個(gè)全新的選擇單元用于通道數(shù)搜索,并首先在基線結(jié)構(gòu) “all choice 3”(見(jiàn)表 3)做了評(píng)估,結(jié)果如表 4 (第一部分)所示;為進(jìn)一步提升精度,本文對(duì)構(gòu)造單元和通道做了聯(lián)合搜索。結(jié)果如表 4(第二部分)所示。

表 4:通道數(shù)搜索

對(duì)比SOTA方法

雖然表 4 展示了本文方法的優(yōu)越性,但是由于搜索空間和訓(xùn)練方法的不同,存在不公平對(duì)比的可能性。為直接進(jìn)行對(duì)比,本文采用和 Proxyless NAS [4]、FBNet [26] 相同的搜索空間,并在同一設(shè)置下再訓(xùn)練已搜索的模型,具體對(duì)比結(jié)果如表 5 所示:

表 5:本文方法與當(dāng)前 SOTA NAS 方法的對(duì)比

混合精度量化搜索

低功率設(shè)備部署模型時(shí)需要用到量化技術(shù)。但是在通道數(shù)與位寬之間找到一個(gè)權(quán)衡不無(wú)挑戰(zhàn)。對(duì)于這些問(wèn)題,本文方法可迎刃而解。

這里的搜索空間包含上述的通道搜索空間和混合精度量化搜索空間,后者使用一個(gè)全新的選擇單元搜索權(quán)重和特征圖的位寬,如圖 5 所示。

在超網(wǎng)絡(luò)訓(xùn)練中,對(duì)于每個(gè)選擇單元,特征位寬和權(quán)重位寬是隨機(jī)采樣的。他們?cè)谶M(jìn)化步驟中被確定。具體實(shí)驗(yàn)結(jié)果如表 6 所示:

表 6:混合精度量化搜索的結(jié)果

搜索成本分析

搜索成本在 NAS 中是一件要緊的事。本文給出了與先前方法 [4] [26] 的一些對(duì)比結(jié)果,如表 7 所示:

表 7:搜索成本

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:曠視提出AutoML新方法,在ImageNet取得新突破 | 技術(shù)頭條

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    請(qǐng)問(wèn)采樣保持芯片AD783的ONE-SHOT是什么電路

    您好! 有倆個(gè)問(wèn)題請(qǐng)教!附件里是AD783的Datasheet里推薦的個(gè)采樣電路。我的問(wèn)題是:1.這個(gè)電路里的ONE-SHOT 是什么電路, 2.那個(gè)觸發(fā)器使用的是什么型號(hào)的觸發(fā)器
    發(fā)表于 12-03 09:19

    Pytorch模型訓(xùn)練實(shí)用PDF教程【中文】

    本教程實(shí)際應(yīng)用、工程開(kāi)發(fā)為目的,著重介紹模型訓(xùn)練過(guò)程中遇到的實(shí)際問(wèn)題和方法。在機(jī)器學(xué)習(xí)模型開(kāi)發(fā),主要
    發(fā)表于 12-21 09:18

    卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中的SGD的并行化設(shè)計(jì)

    for parallelizing convolutional neural networks 本文也將針對(duì)這篇文章給出分析。 1、簡(jiǎn)介 介紹種卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中的SGD的并行化方法。
    發(fā)表于 11-16 14:43 ?3550次閱讀

    分類器的訓(xùn)練過(guò)程

    opencvhaar、lbp的訓(xùn)練原理及過(guò)程
    發(fā)表于 11-27 15:18 ?0次下載

    思必馳積淀許久的one-shot功能也終于揭開(kāi)神秘面紗

    : 用戶:你好小馳(喚醒詞指令) 設(shè)備:有什么可以幫您?(設(shè)備反饋,表示處于信息接收狀態(tài)) 用戶:我要去機(jī)場(chǎng) 設(shè)備:開(kāi)始為您導(dǎo)航去機(jī)場(chǎng) one-shot功能卻可以語(yǔ)即
    的頭像 發(fā)表于 08-06 11:55 ?8195次閱讀

    帶Dropout的訓(xùn)練過(guò)程

    Dropout是指在深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,對(duì)于神經(jīng)網(wǎng)絡(luò)單元,按照定的概率將其暫時(shí)從網(wǎng)絡(luò)丟棄。
    的頭像 發(fā)表于 08-08 10:35 ?4517次閱讀
    帶Dropout的<b class='flag-5'>訓(xùn)練過(guò)程</b>

    LTC6993: One Shot

    LTC6993: One Shot
    發(fā)表于 02-03 16:42 ?10次下載
    LTC6993: <b class='flag-5'>One</b> <b class='flag-5'>Shot</b>

    如何在訓(xùn)練過(guò)程中正確地把數(shù)據(jù)輸入給模型

    機(jī)器學(xué)習(xí)中個(gè)常見(jiàn)問(wèn)題是判定與數(shù)據(jù)交互的最佳方式。 在本文中,我們將提供種高效方法,用于完成數(shù)據(jù)的交互、組織以及最終變換(預(yù)處理)。隨后,我們將講解如何在訓(xùn)練過(guò)程中正確地把數(shù)據(jù)輸入給
    的頭像 發(fā)表于 07-01 10:47 ?2887次閱讀

    基于分割后門訓(xùn)練過(guò)程的后門防御方法

    后門攻擊的目標(biāo)是通過(guò)修改訓(xùn)練數(shù)據(jù)或者控制訓(xùn)練過(guò)程等方法使得模型預(yù)測(cè)正確干凈樣本,但是對(duì)于帶有后門的樣本判斷為目標(biāo)標(biāo)簽。例如,后門攻擊者給圖片增加固定位置的白塊(即中毒圖片)并且修改圖片的標(biāo)簽為目標(biāo)標(biāo)簽。用這些中毒數(shù)據(jù)
    的頭像 發(fā)表于 01-05 09:23 ?1332次閱讀

    基于GLM-6B對(duì)話模型的實(shí)體屬性抽取項(xiàng)目實(shí)現(xiàn)解析

    Zero-shot、One-shot以及Few-shot讓人傻傻分不清,讀了很多文章,也沒(méi)搞清楚他們的差別,究竟什么叫zero-shot,其在應(yīng)用過(guò)
    的頭像 發(fā)表于 03-28 10:11 ?7528次閱讀

    深度學(xué)習(xí)模型訓(xùn)練過(guò)程詳解

    深度學(xué)習(xí)模型訓(xùn)練個(gè)復(fù)雜且關(guān)鍵的過(guò)程,它涉及大量的數(shù)據(jù)、計(jì)算資源和精心設(shè)計(jì)的算法。訓(xùn)練
    的頭像 發(fā)表于 07-01 16:13 ?2753次閱讀

    CNN模型的基本原理、結(jié)構(gòu)、訓(xùn)練過(guò)程及應(yīng)用領(lǐng)域

    CNN模型的基本原理、結(jié)構(gòu)、訓(xùn)練過(guò)程以及應(yīng)用領(lǐng)域。 卷積神經(jīng)網(wǎng)絡(luò)的基本原理 1.1 卷積運(yùn)算 卷積運(yùn)算是CNN模型的核心,它是種數(shù)學(xué)運(yùn)算
    的頭像 發(fā)表于 07-02 15:26 ?5795次閱讀

    深度學(xué)習(xí)的典型模型訓(xùn)練過(guò)程

    深度學(xué)習(xí)作為人工智能領(lǐng)域的個(gè)重要分支,近年來(lái)在圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等多個(gè)領(lǐng)域取得了顯著進(jìn)展。其核心在于通過(guò)構(gòu)建復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,從大規(guī)模數(shù)據(jù)自動(dòng)學(xué)習(xí)并提取特征,進(jìn)而實(shí)
    的頭像 發(fā)表于 07-03 16:06 ?3017次閱讀

    解讀PyTorch模型訓(xùn)練過(guò)程

    PyTorch作為個(gè)開(kāi)源的機(jī)器學(xué)習(xí)庫(kù),以其動(dòng)態(tài)計(jì)算圖、易于使用的API和強(qiáng)大的靈活性,在深度學(xué)習(xí)領(lǐng)域得到了廣泛的應(yīng)用。本文將深入解讀PyTorch模型訓(xùn)練的全
    的頭像 發(fā)表于 07-03 16:07 ?1926次閱讀

    FP8模型訓(xùn)練Debug優(yōu)化思路

    目前,市場(chǎng)上許多公司都積極開(kāi)展基于 FP8 的大模型訓(xùn)練提高計(jì)算效率和性能。在此,我們整理并總結(jié)了客戶及 NVIDIA 技術(shù)團(tuán)隊(duì)在 FP8 模型
    的頭像 發(fā)表于 09-06 14:36 ?930次閱讀
    FP8<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>中</b>Debug優(yōu)化思路