99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

更強(qiáng)!Alpha-CLIP:讓CLIP關(guān)注你想要的任何地方!

CVer ? 來源:CVer ? 2023-12-10 10:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

簡介

本文介紹了一個(gè)名為Alpha-CLIP的框架,它在原始的接受RGB三通道輸入的CLIP模型的上額外增加了一個(gè)alpha通道。在千萬量級的RGBA-region的圖像文本對上進(jìn)行訓(xùn)練后,Alpha-CLIP可以在保證CLIP原始感知能力的前提下,關(guān)注到任意指定區(qū)域。通過替換原始CLIP的應(yīng)用場景,Alpha-CLIP在圖像識別、視覺-語言大模型、2D乃至3D生成領(lǐng)域都展現(xiàn)出強(qiáng)大作用。

9ac46fc6-96ac-11ee-8b88-92fbcf53809c.png

圖1 Alpha-CLIP使用場景總覽

CLIP作為目前最流行的視覺基座模型被廣泛使用。它的應(yīng)用場景包括但不限于1.與LLM大語言模型結(jié)合成為視覺多模態(tài)大模型。2.作為圖像生成(Stable Diffusion)、點(diǎn)云生成(Point-E)的condition model, 實(shí)現(xiàn)image-to-3D。3.用于指導(dǎo)NeRF的優(yōu)化方向從而實(shí)現(xiàn)text-to-3D。4.本身用于開放類別的識別和檢測。

然而CLIP必須以整張圖片作為輸入并進(jìn)行特征提取,無法關(guān)注到指定的任意區(qū)域。然而,自然的2D圖片中往往包含不同的物體,part和thing。如果能由用戶或檢測模型指定需要關(guān)注的區(qū)域,在圖像編碼的過程就確定需要關(guān)注的對象,將會提升CLIP模型的可控制性和區(qū)域檢測能力。

為此,上海人工智能實(shí)驗(yàn)室聯(lián)合上海交通大學(xué)、復(fù)旦大學(xué)、香港中文大學(xué)、澳門大學(xué)的學(xué)者們提出了Alpha-CLIP模型,在原始CLIP模型的RGB三個(gè)通道的基礎(chǔ)上額外引入了第四個(gè)alpha通道來決定需要關(guān)注的區(qū)域。通過構(gòu)造千萬量級的【RGBA四通道圖片-文本對】對Alpha-CLIP進(jìn)行訓(xùn)練,Alpha-CLIP不僅在ImageNet上保持了原始的全圖檢測能力,還能對用戶指定的任意區(qū)域進(jìn)行highlight關(guān)注。下面分別介紹Alpha-CLIP的應(yīng)用場景。

9ae2f9be-96ac-11ee-8b88-92fbcf53809c.png

* 論文鏈接:https://arxiv.org/abs/2312.03818 * 項(xiàng)目主頁:https://aleafy.github.io/alpha-clip * 代碼鏈接:https://github.com/SunzeY/AlphaCLIP1. 圖像分類

如圖所示,對于ImagNet的一張圖片,我們可以通過alpha-map控制CLIP去關(guān)注魚或漁夫。

9afde3fa-96ac-11ee-8b88-92fbcf53809c.png

9b149d20-96ac-11ee-8b88-92fbcf53809c.png

以ImageNet的Zero-Shot Classification作為評價(jià)指標(biāo),我們驗(yàn)證了在對全圖進(jìn)行識別時(shí),Alpha-CLIP可以保持原本CLIP的分類準(zhǔn)確率。進(jìn)一步地,在給出了需要關(guān)注區(qū)域的長方形box或者mask時(shí),Alpha-CLIP可以進(jìn)一步提升分類準(zhǔn)確率。

2. 與LLM大語言模型的結(jié)合

將主流的LLaVA-1.5中的CLIP基座模型替換為Alpha-CLIP,用戶可以通過簡單地用畫筆標(biāo)記處需要關(guān)注的區(qū)域,從而進(jìn)行指定區(qū)域的對話交互。

在定量實(shí)驗(yàn)方面,我們通過LLaVA測試了MLLM的region caption能力。通過在RefCOCO和VG上分別進(jìn)行finetune,取得了SOTA的region caption分?jǐn)?shù)。

9b25a822-96ac-11ee-8b88-92fbcf53809c.png

3. 與Stable Diffusion的結(jié)合

Stable-Diffusion是目前主流的2D圖片生成模型,其Image Variation版本可以實(shí)現(xiàn)“圖生圖”,其中圖片的編碼器也是CLIP模型。通過將該模型替換為Alpha-CLIP,可以實(shí)現(xiàn)更復(fù)雜圖片中指定物體的生成(同時(shí)較好地保留背景)。如上圖所示,使用原始的CLIP會生成同時(shí)具有獅子和老虎特征的“獅虎獸”,而Alpha-CLIP能夠很好地區(qū)分兩個(gè)物體,從而指導(dǎo)Stable Diffusion模型生成更專一的圖片。更多結(jié)果見下圖

9b33657a-96ac-11ee-8b88-92fbcf53809c.png

4. 與Point-E的結(jié)合

Point-E是Open-AI開源的一個(gè)支持Image-to-3D和text-to-3D的點(diǎn)云diffusion模型,通過將它的Image編碼器從原始的CLIP替換為Alpha-CLIP。可以支持用戶對任意區(qū)域進(jìn)行關(guān)注,從而恢復(fù)丟失的“表針”和“盾牌的十字架”。更多結(jié)果見下圖

9b53d166-96ac-11ee-8b88-92fbcf53809c.png

5. Attention Map可視化

本工作對Alpha-CLIP的注意力進(jìn)行可視化,以檢查Alpha-CLIP是否更加關(guān)注用戶定義alpha-map。通過檢查視覺編碼器中最后一個(gè)Transformer塊中[CLS] token的注意力圖。可視化采用了具有16個(gè)注意頭的ViT-L/14模型。為了進(jìn)行公正比較,使用第5和第16個(gè)注意頭的注意力圖進(jìn)行可視化,因?yàn)槲覀儼l(fā)現(xiàn)在這16個(gè)頭中,這兩個(gè)特征圖最為明顯。結(jié)果如下圖所示。這種可視化驗(yàn)證了Alpha-CLIP更加關(guān)注要聚焦的區(qū)域,更重要的是,它在保留原始CLIP特征位置的二維位置信息時(shí)沒有造成損害。

9b755b6a-96ac-11ee-8b88-92fbcf53809c.png

結(jié)論

本文介紹的這項(xiàng)工作提出了Alpha-CLIP模型,該模型引入了一個(gè)額外的alpha通道,用于指定感興趣的區(qū)域。通過對數(shù)百萬個(gè)RGBA區(qū)域-文本對進(jìn)行訓(xùn)練,Alpha-CLIP不僅表現(xiàn)出卓越的區(qū)域關(guān)注能力,而且確保其輸出空間與原始的CLIP模型保持一致。這種一致性使得Alpha-CLIP在CLIP的各種下游應(yīng)用中能夠輕松替代,無縫銜接。我們證明了當(dāng)提供特定關(guān)注的區(qū)域時(shí),Alpha-CLIP展現(xiàn)出了更強(qiáng)大的Zero-Shot識別能力,并驗(yàn)證了它在許多下游任務(wù)中的有用性。CLIP的應(yīng)用遠(yuǎn)遠(yuǎn)超出了本文的范圍。我們希望在前景區(qū)域或mask較容易獲得時(shí),Alpha-CLIP將能夠在更多場景中得到應(yīng)用。

雖然Alpha-CLIP在需要關(guān)注區(qū)域的各種場景中表現(xiàn)出有效的性能,但目前的結(jié)構(gòu)和訓(xùn)練過程限制了其專注于多個(gè)對象或建模不同對象之間關(guān)系的能力。此外,當(dāng)前的訓(xùn)練方法限制了alpha通道在中間值之外的泛化(只能接受0,1兩個(gè)值)。因此,用戶無法指定注意力的幅度。另一個(gè)限制同時(shí)存在于我們的Alpha-CLIP和原始CLIP中,即純Transformer結(jié)構(gòu)的編碼器分辨率較低,這阻礙了Alpha-CLIP識別小物體并進(jìn)行關(guān)注。我們計(jì)劃在未來的工作中解決這些限制并擴(kuò)展CLIP的輸入分辨率。我們相信這些未來的方向是增強(qiáng)Alpha-CLIP能力并在各種下游任務(wù)中擴(kuò)展其實(shí)用性的途徑。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    49028

    瀏覽量

    249516
  • Clip
    +關(guān)注

    關(guān)注

    0

    文章

    32

    瀏覽量

    7037
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3146

    瀏覽量

    4071

原文標(biāo)題:更強(qiáng)!Alpha-CLIP:讓CLIP關(guān)注你想要的任何地方!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    CYW920820M2EVB-01開發(fā)套件可以與藍(lán)牙的免提配置文件一起使用嗎?

    我有英飛凌 CYW920820M2EVB-01 開發(fā)套件,我想將它與藍(lán)牙的免提配置文件一起使用。 是否可以。 該套件是否支持該配置文件? 我無法在任何地方找到該套件支持的配置文件。 如果是,那么我可以得到一些關(guān)于如何執(zhí)行此操作的提示嗎?
    發(fā)表于 06-30 06:15

    普萊信Clip Bond封裝整線設(shè)備,獲功率半導(dǎo)體國際巨頭海外工廠訂單

    據(jù)悉,在高端Clip封裝設(shè)備領(lǐng)域長期由少數(shù)國際巨頭把持的局面下,近期,中國半導(dǎo)體裝備制造商普萊信實(shí)現(xiàn)了重大突破,普萊信Clip Bond封裝整線設(shè)備(涵蓋高精度固晶機(jī)、夾焊機(jī)及在線式真空爐)獲功率
    的頭像 發(fā)表于 06-16 09:00 ?309次閱讀
    普萊信<b class='flag-5'>Clip</b> Bond封裝整線設(shè)備,獲功率半導(dǎo)體國際巨頭海外工廠訂單

    請問在哪里可以下載AN3942SW?

    的 DoOnStack 軟件包嗎? 我在任何地方都找不到下載鏈接。我看到的唯一參考資料是發(fā)布到此論壇的問題,要求提供該軟件包。
    發(fā)表于 03-25 06:17

    揭秘Cu Clip封裝:如何助力半導(dǎo)體芯片飛躍

    在半導(dǎo)體行業(yè)中,封裝技術(shù)對于功率芯片的性能發(fā)揮起著至關(guān)重要的作用。隨著電子技術(shù)的飛速發(fā)展,特別是在大功率場合下,傳統(tǒng)的封裝技術(shù)已經(jīng)難以滿足日益增長的性能需求。因此,Cu Clip封裝技術(shù)作為一種新興
    的頭像 發(fā)表于 02-19 11:32 ?2136次閱讀
    揭秘Cu <b class='flag-5'>Clip</b>封裝:如何助力半導(dǎo)體芯片飛躍

    微源LP7820B充電倉芯片在漫步者花再Zero Clip耳機(jī)的應(yīng)用

    在不入耳佩戴的開放式耳機(jī)市場,漫步者旗下花再品牌推出了一款全新產(chǎn)品——Zero Clip。外觀上采用了耳夾式設(shè)計(jì),佩戴舒適貼合,珠光工藝處理,時(shí)尚美觀。漫步者花再Zero Clip開放式耳夾耳機(jī)
    的頭像 發(fā)表于 01-15 11:34 ?1294次閱讀
    微源LP7820B充電倉芯片在漫步者花再Zero <b class='flag-5'>Clip</b>耳機(jī)的應(yīng)用

    漫步者花再Zero Clip開放式耳機(jī)拆解報(bào)告

    花再是漫步者聯(lián)合冇心推出的獨(dú)立品牌,致力于為年輕消費(fèi)者提供美學(xué)與人體工學(xué)完美結(jié)合的科技產(chǎn)品。針對于不入耳佩戴的開放式耳機(jī)市場,花再近期推出了一款全新產(chǎn)品——Zero Clip,外觀上采用了耳夾式
    的頭像 發(fā)表于 01-07 10:14 ?2187次閱讀
    漫步者花再Zero <b class='flag-5'>Clip</b>開放式耳機(jī)拆解報(bào)告

    新品 | 可拼接燈板矩陣 Puzzle Unit &amp;amp; 創(chuàng)意固定套件CLIP-A/CLIP-B

    本月的第三波新品上線了3款全新產(chǎn)品,涵蓋了多種需求和應(yīng)用領(lǐng)域。從激發(fā)興趣和創(chuàng)意的PuzzleUnit,到多功能創(chuàng)意套件CLIP-A&CLIP-B,每一款都為不同場景提供了創(chuàng)新解決方案??靵?/div>
    的頭像 發(fā)表于 11-16 01:07 ?405次閱讀
    新品 | 可拼接燈板矩陣 Puzzle Unit &amp;amp; 創(chuàng)意固定套件<b class='flag-5'>CLIP</b>-A/<b class='flag-5'>CLIP</b>-B

    使用TPA6112A后,藍(lán)牙1KHz信號有失真現(xiàn)象,怎么解決?

    測試條件:手機(jī)藍(lán)牙播放1KHz信號; 藍(lán)牙輸出的單端信號波形(貴司TPA6112A輸入端)圖如下及附件clip_image002 經(jīng)過TPA6112A后信號波形如下圖,能夠很明顯的看出
    發(fā)表于 11-04 07:00

    設(shè)計(jì)的tas5613a板子BTL模式正常工作1,2分鐘后clip告警,輸出端電壓為0是哪里的問題?怎么解決?

    我的電路是參照手冊設(shè)計(jì)的,外圍元件參數(shù)和手冊中的一樣,有時(shí)加電時(shí)就clip告警,輸出ABCD四個(gè)輸出電壓為0,有時(shí)能正常工作一段時(shí)間,沒有任何問題!請工程師幫助分析一下
    發(fā)表于 10-30 07:25

    TPA3251不小心把GVDD_CD腳和CLIP管腳碰到一起,然后CILP和FAULT指示燈一直亮,管腳一直輸出低電平,什么問題?

    求幫忙,我測量demo板的CLIP管腳的電壓輸出時(shí),不小心把GVDD_CD腳和CLIP管腳碰到一起了,然后CILP和FAULT指示燈一直亮,這兩個(gè)管腳也一直輸出低電平。是不是TPA3251芯片被我燒毀了?謝謝。
    發(fā)表于 10-29 07:50

    為什么我的TPA3251上電后,F(xiàn)AULT和CLIP_OTW輸出電壓是1.4V左右?

    請教大神們,為什么我的TPA3251上電后,F(xiàn)AULT和CLIP_OTW輸出電壓是1.4V左右。我的PVDD是15V,GVDD是12V,就算把PVDD調(diào)高了,也是輸出1.4V左右的電壓。求教大神們給解答,急急急。謝謝謝謝謝謝
    發(fā)表于 10-29 07:05

    請問TPA3244,RESET FAULT CLIP_OTW怎么跟MCU連接?

    TPA3244,RESET FAULT CLIP_OTW,怎么跟MCU連接,還有我直接上電,沒有MUTE控制會不會有PO PO 聲
    發(fā)表于 10-14 06:38

    TPA3220功放的OTW_CLIP管腳會異常拉低,為什么?

    當(dāng)功放的功率達(dá)到120W時(shí),TPA3220功放的OTW_CLIP管腳會異常拉低。 正常情況下FAULT和OTW_CLIP管腳均為高電平,如圖為FAULT和OTW_CLIP管腳的真值表圖, 圖為異常時(shí)抓取的波形:
    發(fā)表于 09-29 09:04

    TAS5630電路PBTL接法,CLIP燈無法滅是怎么回事?

    TAS5630電路PBTL接法,正在測試時(shí)CLIP信號燈亮(CLIP低電平),輸出為0,無論重新開機(jī)或人工復(fù)位,均不能使得CLIP燈滅,請大俠教我。謝謝。
    發(fā)表于 09-03 07:58

    便攜解碼耳放 - 你隨時(shí)隨地享受頂級音質(zhì)

    便攜解碼耳放將高保真音質(zhì)和便攜性完美結(jié)合,讓你在任何地方都能享受到頂級的音樂體驗(yàn)。
    的頭像 發(fā)表于 07-24 17:55 ?2090次閱讀
    便攜解碼耳放 - <b class='flag-5'>讓</b>你隨時(shí)隨地享受頂級音質(zhì)