99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

「悟道·視界」視覺大模型系列,6項領(lǐng)先成果技術(shù)詳解

硬科技星球 ? 來源:硬科技星球 ? 作者:硬科技星球 ? 2023-06-27 16:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

日前,智源「悟道·視界」通用視覺大模型系列,帶來計算機視覺多任務(wù)處理能力方面的6項國際領(lǐng)先技術(shù),迎接通用視覺智能曙光降臨,包括:

在多模態(tài)序列中補全一切的多模態(tài)大模型Emu

最強十億級視覺基礎(chǔ)模型EVA

一通百通、分割一切的視界通用分割模型

首創(chuàng)上下文圖像學習技術(shù)路徑的通用視覺模型Painter

性能最強開源CLIP模型 EVA-CLIP

簡單prompt(提示)即可視頻編輯的 vid2vid-zero 零樣本視頻編輯技術(shù)

“悟道·視界”

通用視覺大模型系列開源地址:

EVA代碼和論文

Github 項目地址

https://github.com/baaivision/EVA

論文地址

https://arxiv.org/abs/2211.07636

EVA-CLIP代碼和論文

Github 項目地址

https://github.com/baaivision/EVA/tree/master/EVA-CLIP

論文地址

https://arxiv.org/abs/2303.15389

Painter代碼和論文

Github 項目地址

https://github.com/baaivision/Painter

論文地址

https://arxiv.org/abs/2212.02499

「視界通用分割模型」代碼和論文

Github 項目地址

https://github.com/baaivision/Painter

論文地址

https://arxiv.org/abs/2304.03284

Demo 地址

https://huggingface.co/spaces/BAAI/SegGPT

vid2vid-zero代碼和論文

Github 項目地址

https://github.com/baaivision/vid2vid-zero

論文鏈接

https://arxiv.org/abs/2303.17599

Demo 地址

https://huggingface.co/spaces/BAAI/vid2vid-zero

Emu:在多模態(tài)序列中補全一切的多模態(tài)大模型

多模態(tài)輸入,多模態(tài)輸出。

Emu作為業(yè)界首個多模態(tài)-to-多模態(tài)的多模態(tài)大模型,可以接受和處理不同模態(tài)的數(shù)據(jù),并輸出想要的多模態(tài)類別。

基于多模態(tài)上下文學習技術(shù)路徑,從圖文、交錯圖文、交錯視頻文本等海量多模態(tài)序列中學習。訓練完成后,Emu能在多模態(tài)序列的上下文中補全一切,對圖像、文本和視頻等多種模態(tài)的數(shù)據(jù)進行感知、推理和生成,實現(xiàn)多輪圖文對話、視頻理解、精準圖像認知、文圖生成、多模態(tài)上下文學習、視頻問答和圖圖生成等多模態(tài)能力。

在零樣本COCO圖像描述性能方面,Emu超越Flagmingo-80B,取得109分。相比其他多模態(tài)模型,可以準確識別出莫奈的日出印象;可以完成少樣本圖文理解,以兩個圖文對為例,可自動完成對應(yīng)任務(wù);還可根據(jù)圖片或視頻進行問答和多輪對話。


在生成能力方面,可以根據(jù)任意長度文本生成圖像;在圖圖生成方面,可以自動推理生成新的圖片;在多模態(tài)上下文生成方面,可以根據(jù)文本-圖片作為prompt,生成融合了上下文的新圖片。


EVA:最強十億級視覺基礎(chǔ)模型

通用性是大模型能力的重要指標,亦是研究難點所在。如何讓通用視覺模型,在更高效的同時更簡單?語義學習和幾何結(jié)構(gòu)學習是解決視覺問題的兩大關(guān)鍵點。


將最強十億級視覺基礎(chǔ)模型 EVA 正是將最強語義學習(CLIP)與最強幾何結(jié)構(gòu)學習(MIM)結(jié)合,再將標準的 ViT 模型擴大規(guī)模至 10 億參數(shù)進行訓練,一舉在 ImageNet 分類、COCO 檢測分割、Kinetics 視頻分類等廣泛的視覺感知任務(wù)中取得當時最強性能。

視覺預訓練模型EVA的命名來源于論文標題“Exploring the Limits of Masked Visual Representation Learning at Scale”相關(guān)字母的簡化,意為探索遮蔽視覺表征學習的極限。

EVA模型把以“視覺為中心”作為建模思想,將語義學習(CLIP)與幾何結(jié)構(gòu)學習(MIM)結(jié)合,僅使用標準的 ViT 模型,并將其規(guī)模擴大到十億參數(shù)(1-Billion)進行訓練。

模型訓練方法是使用圖像-文本對齊(即CLIP)的視覺特征作為MIM的預測目標,模型設(shè)計思路有兩個特點:

高效,EVA僅使用開源的純圖像數(shù)據(jù)即可進行掩碼預測任務(wù),不需要預訓練階段重新學習語義以及不需要巨量的成對有標注數(shù)據(jù)。相比而言,主流標桿性模型(ViT-g、SwinV2、CoCa等)仍依賴于冗長的有監(jiān)督或弱監(jiān)督訓練,以及不可公開訪問的數(shù)億級有標簽數(shù)據(jù)。

簡單,EVA不需要特殊設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)。使用簡單的網(wǎng)絡(luò)結(jié)構(gòu)—標準的ViT-g,而無需額外特殊設(shè)計的算子,使得其非常容易的遷移到廣泛的下游任務(wù),并且可以和其他模態(tài)共享。

經(jīng)過實驗,模型在ImageNet分類、COCO檢測分割、Kinetics視頻分類等廣泛的視覺感知任務(wù)中取得當前最強性能。

如上圖,ImageNet圖像分類中取得89.7%的top-1準確率;Kinetics-700視頻動作識別取得82.9%的top-1準確率;COCO目標檢測取得64.7 mAP、實例分割取得55.5 mAP;LVIS的實例分割取得55.0 mAP;語義分割的COCO-stuff取得53.4 mIoU、ADE-20K取得62.3 mIoU。


Painter通用視覺模型:首創(chuàng)「上下文視覺學習」技術(shù)路徑


圖像理解圖像、圖像解釋圖像,圖像輸出圖像。將NLP中的上下文學習概念引入視覺模型,是智源對通用智能的新探索。


通用視覺模型 Painter , 將“以視覺為中心”作為建模核心思想,將圖像作為輸入和輸出,從而獲得上下文視覺信息,完成不同的視覺任務(wù)。

通用視覺模型Painter的設(shè)計思路是將大多數(shù)視覺任務(wù)看成”圖像修復問題“,即給定輸入(“缺失”)圖像,預測輸出是“修復“過的圖像。這保持了像素之間的空間關(guān)系,確保每個輸出圖像的像素仍然代表相關(guān)任務(wù)的輸出。

Painter的建模要素可以歸納為三部分:輸入、架構(gòu)以及損失函數(shù)。

輸入為圖像。任務(wù)輸入和輸出都是圖像,會隨機遮蔽任務(wù)輸出圖像,并訓練模型重構(gòu)缺失(被遮蔽掉)的像素。研究人員發(fā)現(xiàn),遮蔽比例為75%效果最好。


損失函數(shù)采用簡單的回歸損失。研究人員發(fā)現(xiàn),Smooth l1 損失能幫助模型取得最好的性能。


架構(gòu)采用基本的ViT(vision Transformer)作為編碼器。具體來說,神經(jīng)網(wǎng)絡(luò)頭部(head)由兩個線性層(每個是1×1卷積),一個3×3卷積層組成。

模型目前可完成 7 種主流視覺任務(wù),已經(jīng)在深度估計、語義分割等核心視覺任務(wù)中性能“大幅超越同類”,相比同類模型具有 11%~25% 的性能提升,超過了圖靈獎得主 Geoffrey Hinton 團隊的 Pix2Seqv2,艾倫AI研究所的視覺通用模型 Unified-IO 和谷歌的 UViM。

「視界」通用分割模型:一通百通,分割一切

「視界通用分割模型」基于通用模型Painter開發(fā),是首個利用視覺提示(prompt)完成任意分割任務(wù)的通用視覺模型,一通百通、分割一切。

從影像中分割出各種各樣的對象,是視覺智能的關(guān)鍵里程碑。今年年初,智源視界分割模型與Meta 的 SAM 模型同時發(fā)布,點亮通用視覺曙光。

它將分割任務(wù)視為一種通用的視覺感知格式,即通過將它們轉(zhuǎn)化為圖像的相同格式來適應(yīng)不同種類的分割數(shù)據(jù);同時,模型訓練被構(gòu)造為一個在上下文中的著色問題,即目標是只根據(jù)上下文,來著色相應(yīng)的區(qū)域,而不是依賴特定的顏色,這使得模型更靈活和可泛化。

總的來說「視界通用分割模型」在基礎(chǔ)模型Painter做了三點主要創(chuàng)新:


1.上下文隨機著色方法。首先隨機采樣與輸入圖像“相似”的圖像,然后從目標圖像中隨機抽取一組顏色,并將每種顏色映射到一個隨機顏色,如此可得到兩對圖像,被定義為上下文對。從而打破了原始圖像中的顏色關(guān)聯(lián),迫使模型“放棄”顏色信息依賴,更多依賴依賴上下文信息。


2.上下文集成方法。兩種集成方案:空間集成,將多個示例圖像拼接在一起,并將它們調(diào)整到與單個示例相同的大?。惶卣骷?,將多個示例在批處理維度上進行組合,并獨立計算。兩種集成方式讓模型可以使用多個示例,從而提供更準確和具體的上下文信息。


3.上下文微調(diào)方法。凍結(jié)整個模型,并初始化一個可學習的圖像張量作為輸入上下文。在訓練過程中,只有這個可學習的圖像張量會被更新,其他的訓練過程保持不變。從而能以靈活的方式適應(yīng)特定的任務(wù)或數(shù)據(jù)集。

以上技術(shù)讓「視界通用分割模型」具備輸入任意數(shù)量的prompt,以及對特定場景優(yōu)化專用prompt的能力。即「視界通用分割模型」解鎖了上下文推理能力,訓練完成后無需微調(diào),只需提供示例即可自動推理并完成對應(yīng)分割任務(wù)。

實驗結(jié)果也顯示了模型強大的能力。例如模型只需少數(shù) prompt 示例,在 COCO 和 PASCAL 數(shù)據(jù)集上取得最優(yōu)性能;模型的零樣本場景遷移實驗中,模型在少樣本語義分割測試集 FSS-1000 上,在無需訓練的情況下取得最佳性能;另外,無需視頻訓練數(shù)據(jù),模型可直接進行視頻物體分割,并取得和專門優(yōu)化的模型相當?shù)男阅堋?/p>

EVA-CLIP:性能最強開源CLIP模型

零樣本學習是指僅通過描述讓AI“認出”未見過的物體,是評價模型泛化能力的重要指標。多模態(tài)預訓練模型CLIP 作為零樣本學習基礎(chǔ)模型,廣受業(yè)界認可。

智源視覺團隊于2023年初發(fā)布的 EVA-CLIP 5B 版本, 創(chuàng)造了零樣本學習性能新高度:超越此前最強的 OpenCLIP 模型,在 ImageNet1K 零樣本 top1 達到最高的 82.0% 準確率。


而去年發(fā)布的 EVA-CLIP 1B 版本,今年才被 Meta 發(fā)布的 DINOv2 模型追平 ImageNet kNN準確率指標。

EVA-CLIP是一系列模型的總稱,集成了當前新興的幾種模型訓練技術(shù),包括用EVA預訓練模型進行初始化,用LAMB優(yōu)化器加速模型,用FLIP技術(shù)節(jié)省訓練時間等等。具體而言,模型有兩種集成思路:

1.EVA預訓練 + LAMB優(yōu)化器讓CLIP模型表現(xiàn)更加強大。

視覺預訓練模型 EVA 能將語義學習(CLIP)與幾何結(jié)構(gòu)學習(MIM)結(jié)合,在標準模型基礎(chǔ)上,將規(guī)模擴大到十億參數(shù)(1-Billion)進行訓練。EVA 模型的輸入為有遮蓋的圖像,但遮蓋部分能重構(gòu) CLIP 模型對應(yīng)位置,從而獲得高效、簡單的可泛化模型。

LAMB優(yōu)化器專門面向大批量(batch)訓練,考慮到它自適應(yīng)的學習率和動量參數(shù)設(shè)置的優(yōu)勢,為避免泛化差距難題,研究員認為LAMB優(yōu)化器比Adam、RMSprop更適合訓練大規(guī)模CLIP模型。

2,F(xiàn)lashAttention機制+ FLIP加速讓CLIP模型訓練更迅速。

FlashAttention算法可以在執(zhí)行更少的內(nèi)存/訪問的基礎(chǔ)之上,在加速和節(jié)省內(nèi)存的基礎(chǔ)上計算精確注意力。研究員使用該機制訓練CLIP時可以提升15%-30%的訓練速度。

FLIP旨在通過簡單的圖像掩蔽提升CLIP的訓練速度,帶來性能提升。實踐中,研究員隨機掩蔽了50%的圖像標簽,減少一半的時間復雜度。

實驗結(jié)果表現(xiàn),50億參數(shù)量的EVA-CLIP模型,零樣本分類和檢索的性能全面提升。在ImageNet1K零樣本top1 準確率達到了82.0%,高于此前最佳OpenCLIP的80%;在 MS COCO 上實現(xiàn)了75.0% 的zero-shot圖像檢索(Recall@5)。

同時,EVA-CLIP兼顧了泛化能力和魯棒性。例如EVA-CLIP與27個零樣本圖像分類基準的對比,效果最好的EVA-CLIP達到了平均77.5的Top-1準確率,模型泛化能力業(yè)界領(lǐng)先。EVA-02-CLIP-E/14+在ImageNet系列和ObjectNet的所有6個基準測試中獲得了平均80.9%的準確率,這充分證實了魯棒性。

vid2vid-zero:簡單prompt(提示)即可視頻編輯的零樣本視頻編輯方法


現(xiàn)有文本驅(qū)動的 AIGC 視頻編輯方法嚴重依賴于在大量「文本-視頻」數(shù)據(jù)上調(diào)整預訓練好的視頻擴散模型,需要龐大的計算資源,帶來了高昂的人工數(shù)據(jù)標注成本和計算成本。


智源研究院提出了零樣本視頻編輯方法「vid2vid-zero」,首次在無需額外視頻訓練的情況下,利用注意力機制動態(tài)運算的特點,結(jié)合現(xiàn)有圖像擴散模型,實現(xiàn)可指定屬性的視頻編輯。

這里用兩組視頻展示了模型的有效性。我們介紹第一組:輸入文本“a man is running”。


加入指令:動漫風格。輸出結(jié)果可以很好的將人物轉(zhuǎn)換成動漫,展示了模型風格編輯能力。

加入指令:一位老人在海灘。輸出結(jié)果說明模型的屬性編輯和背景編輯能力已經(jīng)過關(guān)。


此外,論文中公布了更多的視頻案例,更多模型能力,請訪問論文。

用戶根據(jù)「視頻質(zhì)量」、「文本與視頻的對齊程度」、「對原始視頻的保真度」在 32 段視頻上對 vid2vid-zero、TAV、PnP 模型的性能進行了比較。實驗結(jié)果表明,vid2vid-zero 在上述三項指標上都具有顯著優(yōu)勢。

審核編輯黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3141

    瀏覽量

    4064
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    鴻蒙中Stage模型與FA模型詳解

    【HarmonyOS 5】鴻蒙中Stage模型與FA模型詳解 ##鴻蒙開發(fā)能力 ##HarmonyOS SDK應(yīng)用服務(wù)##鴻蒙金融類應(yīng)用 (金融理財# 一、前言 在HarmonyOS 5的應(yīng)用開發(fā)
    的頭像 發(fā)表于 07-07 11:50 ?168次閱讀

    龍芯中科與文心系列模型開展深度技術(shù)合作

    ? ? ? ? ? 6月30日,文心4.5系列模型正式開源。龍芯中科在文心大模型開源首日啟動技術(shù)合作,雙方將共同推進國產(chǎn)算力基礎(chǔ)設(shè)施與大
    的頭像 發(fā)表于 07-02 16:53 ?687次閱讀

    Google發(fā)布最新AI模型Gemma 3

    Gemma 開放模型系列是 Google 推動實用 AI 技術(shù)普惠大眾的重要基石。上個月,Gemma 迎來了首個生日?;赝^去一年,其成果斐然:全球下載量突破 1 億,社區(qū)欣欣向榮,衍
    的頭像 發(fā)表于 03-18 09:51 ?848次閱讀

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型,能夠理解并生成與
    的頭像 發(fā)表于 03-17 15:32 ?4080次閱讀
    ?VLM(<b class='flag-5'>視覺</b>語言<b class='flag-5'>模型</b>)?詳細解析

    ??低暟l(fā)布視覺模型周界攝像機

    上周,我們發(fā)布了視覺模型系列攝像機,其中有大模型加持的周界系列攝像機,誤報率下降90%以上。
    的頭像 發(fā)表于 03-11 18:12 ?952次閱讀

    ??低曂瞥?b class='flag-5'>視覺大模型系列攝像機

    依托海康觀瀾大模型技術(shù)體系,海康威視將大模型能力直接部署至端側(cè),推出一系列視覺模型攝像機。
    的頭像 發(fā)表于 03-05 14:06 ?723次閱讀

    智芯公司兩技術(shù)成果入選工信部首批先進適用技術(shù)名單

    近日,工信部正式發(fā)布《第一批先進適用技術(shù)名單》,智芯公司牽頭申報的“云邊端協(xié)同邊緣智能計算技術(shù)”和“基于遠距離背散射通信的無源無線溫度傳感技術(shù)”兩
    的頭像 發(fā)表于 03-03 14:59 ?612次閱讀

    一文詳解視覺語言模型

    視覺語言模型(VLM)是一種多模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?1758次閱讀
    一文<b class='flag-5'>詳解</b><b class='flag-5'>視覺</b>語言<b class='flag-5'>模型</b>

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗】+大模型微調(diào)技術(shù)解讀

    今天學習<基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化>這本書。大模型微調(diào)是深度學習領(lǐng)域中的一關(guān)鍵技術(shù),它指的是在已經(jīng)預訓練好的大型深度學習模型
    發(fā)表于 01-14 16:51

    首批首家!DataCanvas Alaya NeW智算操作系統(tǒng)通過中國信通院“大模型計算資源調(diào)度平臺” 標準評測

    1月8日,“大模型工程化成果發(fā)布會”在北京圓滿召開。會上,中國信息通信研究院(簡稱“中國信通院”)正式發(fā)布6AIInfra(人工智能基礎(chǔ)平臺)標準
    的頭像 發(fā)表于 01-10 11:24 ?533次閱讀
    首批首家!DataCanvas Alaya NeW智算操作系統(tǒng)通過中國信通院“大<b class='flag-5'>模型</b>計算資源調(diào)度平臺” 標準評測

    CET中電技術(shù)電能質(zhì)量相關(guān)科技成果獲國際領(lǐng)先、國際先進認定

    聽取CET中電技術(shù)項目總結(jié)匯報,經(jīng)質(zhì)詢、答疑、討論后一致認為,該項科技成果整體達到國際先進水平,在超高次諧波的同步監(jiān)測及其在故障診斷中的應(yīng)用達到國際領(lǐng)先水平,一致同意
    的頭像 發(fā)表于 11-30 01:07 ?550次閱讀
    CET中電<b class='flag-5'>技術(shù)</b>電能質(zhì)量相關(guān)科技<b class='flag-5'>成果</b>獲國際<b class='flag-5'>領(lǐng)先</b>、國際先進認定

    阿里通義千問代碼模型系列開源

    近日,阿里云通義大模型團隊宣布了一重大決策:將通義千問代碼模型系列正式開源。此次開源的模型系列
    的頭像 發(fā)表于 11-14 15:26 ?984次閱讀

    高清視界,盡在掌握——深度解析變焦機芯模組技術(shù)

    隨著科技的飛速發(fā)展,變焦機芯模組技術(shù)作為影像領(lǐng)域的核心技術(shù)之一,正以前所未有的速度改變著我們的視覺體驗。這項技術(shù)不僅提升了影像的清晰度和動態(tài)范圍,還極大地豐富了拍攝和觀察的方式,讓高清
    的頭像 發(fā)表于 09-10 15:59 ?914次閱讀
    高清<b class='flag-5'>視界</b>,盡在掌握——深度解析變焦機芯模組<b class='flag-5'>技術(shù)</b>

    通義千問發(fā)布第二代視覺語言模型Qwen2-VL

    阿里巴巴旗下的通義千問近日宣布,其第二代視覺語言模型Qwen2-VL正式問世,并宣布旗艦模型Qwen2-VL-72B的API已順利接入阿里云百煉平臺,標志著這一創(chuàng)新技術(shù)成果正式對外開放
    的頭像 發(fā)表于 09-03 16:31 ?859次閱讀

    計算機視覺技術(shù)的AI算法模型

    計算機視覺技術(shù)作為人工智能領(lǐng)域的一個重要分支,旨在使計算機能夠像人類一樣理解和解釋圖像及視頻中的信息。為了實現(xiàn)這一目標,計算機視覺技術(shù)依賴于多種先進的AI算法
    的頭像 發(fā)表于 07-24 12:46 ?1806次閱讀