99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ConvNeXt模型更新了!

OpenCV學(xué)堂 ? 來(lái)源:機(jī)器之心 ? 2023-01-12 11:51 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

ConvNeXt 模型更新了!

經(jīng)過幾十年的基礎(chǔ)研究,視覺識(shí)別領(lǐng)域已經(jīng)迎來(lái)了大規(guī)模視覺表征學(xué)習(xí)的新時(shí)代。預(yù)訓(xùn)練的大規(guī)模視覺模型已經(jīng)成為特征學(xué)習(xí)(feature learning)和視覺應(yīng)用的基本工具。視覺表征學(xué)習(xí)系統(tǒng)的性能在很大程度上受到三個(gè)主要因素的影響:模型的神經(jīng)網(wǎng)絡(luò)架構(gòu)、訓(xùn)練網(wǎng)絡(luò)的方法以及訓(xùn)練數(shù)據(jù)。每個(gè)因素的改進(jìn)都有助于模型整體性能的提高。

神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)的創(chuàng)新在表征學(xué)習(xí)領(lǐng)域一直發(fā)揮著重要作用。卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)(ConvNet)對(duì)計(jì)算機(jī)視覺研究產(chǎn)生了重大影響,使得各種視覺識(shí)別任務(wù)中能夠使用通用的特征學(xué)習(xí)方法,無(wú)需依賴人工實(shí)現(xiàn)的特征工程。近年來(lái),最初為自然語(yǔ)言處理而開發(fā)的 transformer 架構(gòu)因其適用于不同規(guī)模的模型和數(shù)據(jù)集,在其他深度學(xué)習(xí)領(lǐng)域中也開始被廣泛使用。

ConvNeXt 架構(gòu)的出現(xiàn)使傳統(tǒng)的 ConvNet 更加現(xiàn)代化,證明了純卷積模型也可以適應(yīng)模型和數(shù)據(jù)集的規(guī)模變化。然而,要想對(duì)神經(jīng)網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)空間進(jìn)行探索,最常見方法仍然是在 ImageNet 上進(jìn)行監(jiān)督學(xué)習(xí)的性能基準(zhǔn)測(cè)試。

另一種思路是將視覺表征學(xué)習(xí)的重點(diǎn)從有標(biāo)簽的監(jiān)督學(xué)習(xí)轉(zhuǎn)向自監(jiān)督預(yù)訓(xùn)練。自監(jiān)督算法將掩碼語(yǔ)言建模引入視覺領(lǐng)域,并迅速成為視覺表征學(xué)習(xí)的一種流行方法。然而,自監(jiān)督學(xué)習(xí)通常會(huì)使用為監(jiān)督學(xué)習(xí)設(shè)計(jì)的架構(gòu),并假定該架構(gòu)是固定的。例如,掩碼自編碼器(MAE)使用了視覺 transformer 架構(gòu)。

有一種方法是將這些架構(gòu)和自監(jiān)督學(xué)習(xí)框架結(jié)合起來(lái),但會(huì)面臨一些具體問題。例如,將 ConvNeXt 與 MAE 結(jié)合起來(lái)時(shí)就會(huì)出現(xiàn)如下問題:MAE 有一個(gè)特定的編碼 - 解碼器設(shè)計(jì),該設(shè)計(jì)針對(duì) transformer 的序列處理能力進(jìn)行了優(yōu)化,這使得計(jì)算量大的編碼器專注于那些可見的 patch,從而降低了預(yù)訓(xùn)練成本。但是這種設(shè)計(jì)可能與標(biāo)準(zhǔn)的 ConvNet 不兼容,因?yàn)楹笳呤褂昧嗣芗幕瑒?dòng)窗口。此外,如果不考慮架構(gòu)和訓(xùn)練目標(biāo)之間的關(guān)系,那么也就不清楚是否能達(dá)到最佳性能。事實(shí)上,已有研究表明用基于掩碼的自監(jiān)督學(xué)習(xí)來(lái)訓(xùn)練 ConvNet 是很困難的,而且實(shí)驗(yàn)證據(jù)表明,transformer 和 ConvNet 可能在特征學(xué)習(xí)方面存在分歧,會(huì)影響到最終表征的質(zhì)量。

為此,來(lái)自 KAIST、Meta、紐約大學(xué)的研究者(包括ConvNeXt一作劉壯、ResNeXt 一作謝賽寧)提出在同一框架下共同設(shè)計(jì)網(wǎng)絡(luò)架構(gòu)和掩碼自編碼器,這樣做的目的是使基于掩碼的自監(jiān)督學(xué)習(xí)能夠適用于 ConvNeXt 模型,并獲得可與 transformer 媲美的結(jié)果。

4651f8b2-90ba-11ed-bfe3-dac502259ad0.png

論文地址:https://arxiv.org/pdf/2301.00808v1.pdf

在設(shè)計(jì)掩碼自編碼器時(shí),該研究將帶有掩碼的輸入視為一組稀疏 patch,并使用稀疏卷積處理可見的部分。這個(gè)想法的靈感來(lái)自于在處理大規(guī)模 3D 點(diǎn)云時(shí)使用稀疏卷積。具體來(lái)說,該研究提出用稀疏卷積實(shí)現(xiàn) ConvNeXt,然后在微調(diào)時(shí),權(quán)重不需要特殊處理就能被轉(zhuǎn)換回標(biāo)準(zhǔn)的密集網(wǎng)絡(luò)層。為了進(jìn)一步提高預(yù)訓(xùn)練效率,該研究用單個(gè) ConvNeXt 替換 transformer 解碼器,使整個(gè)設(shè)計(jì)完全卷積網(wǎng)絡(luò)化。研究者觀察到加入這些變化后:學(xué)習(xí)到的特征是有用的并且改進(jìn)了基線結(jié)果,但微調(diào)后的性能仍然不如基于 transformer 的模型。

然后,該研究對(duì)不同訓(xùn)練配置的 ConvNeXt 的特征空間進(jìn)行了分析。當(dāng)直接在掩碼輸入上訓(xùn)練 ConvNeXt 時(shí),研究者發(fā)現(xiàn) MLP 層存在潛在的特征崩潰(feature collapse)問題。為了解決這個(gè)問題,該研究提出添加一個(gè)全局響應(yīng)歸一化層(Global Response Normalization layer)來(lái)增強(qiáng)通道間的特征競(jìng)爭(zhēng)。當(dāng)使用掩碼自編碼器對(duì)模型進(jìn)行預(yù)訓(xùn)練時(shí),這種改進(jìn)最為有效,這表明監(jiān)督學(xué)習(xí)中重復(fù)使用監(jiān)督學(xué)習(xí)中的固定架構(gòu)設(shè)計(jì)可能不是最佳方法。

465f2884-90ba-11ed-bfe3-dac502259ad0.png

基于以上改進(jìn),該研究提出了 ConvNeXt V2,該模型在與掩碼自編碼器結(jié)合使用時(shí)表現(xiàn)出了更好的性能。同時(shí)研究者發(fā)現(xiàn) ConvNeXt V2 在各種下游任務(wù)上比純 ConvNet 有明顯的性能提升,包括在 ImageNet 上的分類任務(wù)、COCO 上的目標(biāo)檢測(cè)和 ADE20K 上的語(yǔ)義分割。

46835a74-90ba-11ed-bfe3-dac502259ad0.png

469ee46a-90ba-11ed-bfe3-dac502259ad0.png

46b5bc76-90ba-11ed-bfe3-dac502259ad0.png

46c13182-90ba-11ed-bfe3-dac502259ad0.png

方法介紹

全卷積掩碼自編碼器

該研究提出的方法在概念上很簡(jiǎn)單,是以完全卷積的方式運(yùn)行的。學(xué)習(xí)信號(hào)通過對(duì)原始的視覺輸入隨機(jī)掩碼來(lái)生成,同時(shí)掩碼的比率需要較高,然后再讓模型根據(jù)剩余的 context 預(yù)測(cè)缺失的部分。整體框架如下圖所示。

46cebc8a-90ba-11ed-bfe3-dac502259ad0.png

框架由一個(gè)基于稀疏卷積的 ConvNeXt 編碼器和一個(gè)輕量級(jí)的 ConvNeXt 解碼器組成,其中自編碼器的結(jié)構(gòu)是不對(duì)稱的。編碼器只處理可見的像素,而解碼器則使用已編碼的像素和掩碼 token 來(lái)重建圖像。同時(shí)只在被掩碼的區(qū)域計(jì)算損失。

全局響應(yīng)歸一化

大腦中有許多促進(jìn)神經(jīng)元多樣性的機(jī)制。例如,側(cè)向抑制可以幫助增強(qiáng)激活神經(jīng)元的反應(yīng),增加單個(gè)神經(jīng)元對(duì)刺激的對(duì)比度和選擇性,同時(shí)還可以增加整個(gè)神經(jīng)元群的反應(yīng)多樣性。在深度學(xué)習(xí)中,這種形式的側(cè)向抑制可以通過響應(yīng)歸一化(response normalization)來(lái)實(shí)現(xiàn)。該研究引入了一個(gè)新的響應(yīng)歸一化層,稱為全局響應(yīng)歸一化 (GRN),旨在增加通道間的對(duì)比度和選擇性。GRN 單元包括三個(gè)步驟:1) 全局特征聚合,2) 特征歸一化,3) 特征校準(zhǔn)。如下圖所示,可以將 GRN 層合并到原始 ConvNeXt 塊中。

46e21302-90ba-11ed-bfe3-dac502259ad0.png

研究者根據(jù)實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)應(yīng)用 GRN 時(shí),LayerScale 不是必要的并且可以被刪除。利用這種新的塊設(shè)計(jì),該研究創(chuàng)建了具有不同效率和容量的多種模型,并將其稱為 ConvNeXt V2 模型族,模型范圍從輕量級(jí)(Atto)到計(jì)算密集型(Huge)。

為了評(píng)估 GRN 的作用,該研究使用 FCMAE 框架對(duì) ConvNeXt V2 進(jìn)行預(yù)訓(xùn)練。從下圖 3 中的可視化展示和圖 4 中的余弦距離分析,可以觀察到 ConvNeXt V2 有效地緩解了特征崩潰問題。余弦距離值一直很高,表明在網(wǎng)絡(luò)層傳遞的過程中可以保持特征的多樣性。這類似于使用 MAE 預(yù)訓(xùn)練的 ViT 模型。這表明在類似的掩碼圖像預(yù)訓(xùn)練框架下,ConvNeXt V2 的學(xué)習(xí)行為類似于 ViT。

46f52122-90ba-11ed-bfe3-dac502259ad0.png

4719680c-90ba-11ed-bfe3-dac502259ad0.png

該研究進(jìn)一步評(píng)估了微調(diào)性能,結(jié)果如下表所示。

47275232-90ba-11ed-bfe3-dac502259ad0.png

當(dāng)配備 GRN 時(shí),F(xiàn)CMAE 預(yù)訓(xùn)練模型可以顯著優(yōu)于使用 300 個(gè) epoch 訓(xùn)練得到的監(jiān)督模型。GRN 通過增強(qiáng)特征多樣性來(lái)提高表征質(zhì)量,這對(duì)于基于掩碼的預(yù)訓(xùn)練是至關(guān)重要的,并且在 ConvNeXt V1 模型中是不存在的。值得注意的是,這種改進(jìn)是在不增加額外參數(shù)開銷,且不增加 FLOPS 的情況下實(shí)現(xiàn)的。

最后,該研究還檢查了 GRN 在預(yù)訓(xùn)練和微調(diào)中的重要性。如下表 2 (f) 所示,無(wú)論是從微調(diào)中刪除 GRN,還是在微調(diào)時(shí)添加新初始化的 GRN,性能都會(huì)顯著下降,這表明在預(yù)訓(xùn)練和微調(diào)中 GRN 很重要。

473b4ea4-90ba-11ed-bfe3-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1174

    瀏覽量

    41973
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3796

    瀏覽量

    138014
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    151

    瀏覽量

    6517

原文標(biāo)題:ConvNeXt V2來(lái)了,僅用最簡(jiǎn)單的卷積架構(gòu),性能不輸Transformer

文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    谷歌Gemini 2.5模型系列更新

    今年 3 月,我們發(fā)布迄今為止最智能的模型 Gemini 2.5 Pro,兩周前,我們提前為您帶來(lái)了 I/O 更新,以便開發(fā)者構(gòu)建出色的網(wǎng)絡(luò)應(yīng)用。
    的頭像 發(fā)表于 05-23 14:56 ?537次閱讀

    深蘭科技醫(yī)療大模型榮獲MedBench評(píng)測(cè)第一

    近日,國(guó)內(nèi)權(quán)威醫(yī)療大模型評(píng)測(cè)平臺(tái)MedBench在官網(wǎng)更新榜單,多個(gè)知名醫(yī)療AI產(chǎn)品及研究團(tuán)隊(duì)入榜,其中深蘭DeepBlue-MR-v1醫(yī)療大模型以復(fù)雜醫(yī)學(xué)推理評(píng)測(cè)第一的成績(jī)領(lǐng)跑Me
    的頭像 發(fā)表于 04-30 16:08 ?389次閱讀

    KaihongOS操作系統(tǒng)FA模型與Stage模型介紹

    FA模型與Stage模型介紹 KaihongOS操作系統(tǒng)中,F(xiàn)A模型(Feature Ability)和Stage模型是兩種不同的應(yīng)用模型
    發(fā)表于 04-24 07:27

    AD8313沒有模型,仿真不了怎么解決?

    AD8313沒有模型,在multisim上仿真不了,請(qǐng)?zhí)峁┲г?或者提供一個(gè)更新的版本也可以。
    發(fā)表于 03-24 06:38

    英偉達(dá)GTC2025亮點(diǎn) NVIDIA推出Cosmos世界基礎(chǔ)模型和物理AI數(shù)據(jù)工具的重大更新

    、Figure AI、Skild AI 是最早采用該技術(shù)的公司。 NVIDIA 宣布推出全新 NVIDIA Cosmos 世界基礎(chǔ)模型 (WFM) 的重大更新,該模型引入了開放式、可完全定制的物理 AI 開發(fā)
    的頭像 發(fā)表于 03-20 19:01 ?879次閱讀

    騰訊AI助手“騰訊元寶”重大更新:支持深度思考功能

    近日,騰訊AI助手“騰訊元寶”再次迎來(lái)了重大更新,為用戶帶來(lái)了更加智能、高效的使用體驗(yàn)。此次更新中,騰訊元寶新增深度思考功能,這一功能由混元+DeepSeek兩大模型共同支持,用戶只
    的頭像 發(fā)表于 02-18 09:21 ?1160次閱讀

    騰訊元寶AI產(chǎn)品更新,正式接入DeepSeek R1模型

    元、DeepSeek大模型精心開發(fā)的AI產(chǎn)品,具備強(qiáng)大的跨知識(shí)領(lǐng)域和自然語(yǔ)言理解能力。通過此次更新,騰訊元寶將能夠更深入地理解用戶的提問,進(jìn)行深度思考和邏輯推理,從而給出更為詳細(xì)和準(zhǔn)確的回答。 值得一提的是,騰訊元寶此次更新后還
    的頭像 發(fā)表于 02-14 09:29 ?986次閱讀

    DeepSeek等AI大模型,人人都能當(dāng)醫(yī)生嗎?

    作者:京東健康 王付剛 春節(jié)期間,DeepSeek的爆火無(wú)疑讓大家對(duì)AI大模型全新的認(rèn)識(shí)和體驗(yàn)。與其他大模型不同之處,DeepSeek不僅提供答案,還輸出推理過程,這一功能引起了大家的震驚和擔(dān)憂
    的頭像 發(fā)表于 02-13 11:19 ?6256次閱讀

    簡(jiǎn)述NVIDIA Isaac的重要更新

    在 2025 CES,NVIDIA 宣布對(duì)NVIDIA Isaac的重要更新。NVIDIA Isaac 是一個(gè)由加速庫(kù)、應(yīng)用框架和 AI 模型組成的平臺(tái),可加速 AI 機(jī)器人的開發(fā)。
    的頭像 發(fā)表于 01-17 09:57 ?998次閱讀
    簡(jiǎn)述NVIDIA Isaac的重要<b class='flag-5'>更新</b>

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗(yàn)】+大模型微調(diào)技術(shù)解讀

    微調(diào):通過在預(yù)訓(xùn)練模型中插入適配器模塊來(lái)適應(yīng)特定任務(wù),既保留了原始模型的性能,又能快速適應(yīng)新任務(wù)。Prefix-Tuning:通過在輸入序列的前面添加特定前綴來(lái)微調(diào)模型,不需要對(duì)模型進(jìn)
    發(fā)表于 01-14 16:51

    小米汽車接入VLM視覺語(yǔ)言大模型,OTA更新帶來(lái)多項(xiàng)升級(jí)

    模型。這一技術(shù)的引入,使得小米汽車的系統(tǒng)能夠更準(zhǔn)確地識(shí)別復(fù)雜的道路環(huán)境和特殊交通規(guī)則區(qū)域。通過文字和語(yǔ)音提示,系統(tǒng)能夠?qū)崟r(shí)向駕駛者傳達(dá)重要信息,從而提高駕駛的安全性和便捷性。 此外,本次OTA更新還對(duì)充電地圖進(jìn)行了全面升級(jí)。小米汽
    的頭像 發(fā)表于 12-24 09:52 ?1009次閱讀

    【「大模型啟示錄」閱讀體驗(yàn)】對(duì)大模型更深入的認(rèn)知

    閱讀《大模型啟示錄》這本書,我得說,它徹底顛覆我對(duì)大模型的理解。作為一個(gè)經(jīng)常用KIMI和豆包這類AI工具來(lái)完成作業(yè)、整理資料的大學(xué)生,我原以為大模型就是這些工具背后的技術(shù)。但這本書讓
    發(fā)表于 12-20 15:46

    車載大模型分析揭示:存儲(chǔ)帶寬對(duì)性能影響遠(yuǎn)超算力

    車載大模型的定義尚無(wú),傳統(tǒng)大模型即LLM的參數(shù)一般在70億至2000億之間,而早期的CNN模型參數(shù)通常不到1000萬(wàn),CNN模型目前大多做骨干網(wǎng)使用,參數(shù)飛速增加。特斯拉使用META的
    的頭像 發(fā)表于 11-09 10:36 ?1400次閱讀
    車載大<b class='flag-5'>模型</b>分析揭示:存儲(chǔ)帶寬對(duì)性能影響遠(yuǎn)超算力

    PerfXCloud 重大更新 端側(cè)多模態(tài)模型 MiniCPM-Llama3-V 2.5 閃亮上架

    近日,PerfXCloud完成重大更新,上架了面壁小鋼炮 MiniCPM 系列的端側(cè)多模態(tài)模型 MiniCPM-Llama3-V 2.5,現(xiàn)已對(duì)平臺(tái)用戶免費(fèi)開放體驗(yàn)!
    的頭像 發(fā)表于 08-27 18:20 ?792次閱讀
    PerfXCloud 重大<b class='flag-5'>更新</b>  端側(cè)多模態(tài)<b class='flag-5'>模型</b> MiniCPM-Llama3-V 2.5 閃亮上架

    下載LM2901的LTSPICE模型進(jìn)行仿真報(bào)錯(cuò)怎么解決?

    下載官網(wǎng)上面LM2901的LTSPICE模型進(jìn)行仿真的問題,沒有進(jìn)行任何更改,運(yùn)行總是報(bào)如下錯(cuò)誤,怎么解決,謝謝
    發(fā)表于 07-29 07:41