99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

介紹第一個(gè)結(jié)合相對(duì)和絕對(duì)深度的多模態(tài)單目深度估計(jì)網(wǎng)絡(luò)

3D視覺工坊 ? 來(lái)源:CVHub ? 2023-03-21 18:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

背景

單目深度估計(jì)分為兩個(gè)派系,metric depth estimation(度量深度估計(jì),也稱絕對(duì)深度估計(jì))和relative depth estimation(相對(duì)深度估計(jì))。

絕對(duì)深度估計(jì):估計(jì)物體絕對(duì)物理單位的深度,即米。預(yù)測(cè)絕對(duì)深度的優(yōu)點(diǎn)是在計(jì)算機(jī)視覺機(jī)器人技術(shù)的許多下游應(yīng)用中具有實(shí)用價(jià)值,如建圖、規(guī)劃、導(dǎo)航、物體識(shí)別、三維重建和圖像編輯。然而,絕對(duì)深度股即泛化能力(室外、室內(nèi))極差。因此,目前的絕對(duì)深度估計(jì)模型通常在特定的數(shù)據(jù)集上過(guò)擬合,而不能很好地推廣到其他數(shù)據(jù)集。

相對(duì)深度估計(jì):估計(jì)每個(gè)像素與其它像素的相對(duì)深度差異,深度無(wú)尺度信息,可以各種類型環(huán)境中的估計(jì)深度。應(yīng)用場(chǎng)景有限。

導(dǎo)讀

現(xiàn)有的單目深度估計(jì)工作,要么關(guān)注于泛化性能而忽略尺度,即相對(duì)深度估計(jì),要么關(guān)注于特定數(shù)據(jù)集上的最先進(jìn)的結(jié)果,即度量深度(絕對(duì)深度)估計(jì)。論文提出了第一種結(jié)合這兩種形態(tài)的方法,從而得到一個(gè)在泛化性能良好的同時(shí),保持度量尺度的模型:ZoeD-M12-NK。

具體來(lái)說(shuō),論文框架包括兩個(gè)關(guān)鍵組成部分:相對(duì)深度估計(jì)網(wǎng)絡(luò)絕對(duì)深度估計(jì)網(wǎng)絡(luò)。相對(duì)深度估計(jì)網(wǎng)絡(luò)學(xué)習(xí)提取相鄰像素之間的深度差異信息,而絕對(duì)深度估計(jì)網(wǎng)絡(luò)則直接預(yù)測(cè)絕對(duì)深度值。

使用這種框架,論文方法能夠?qū)⒁延袛?shù)據(jù)集的深度信息轉(zhuǎn)移到新的目標(biāo)數(shù)據(jù)集上,從而實(shí)現(xiàn)零樣本(Zero-shot)深度估計(jì)。在實(shí)驗(yàn)中,論文方法使用了幾個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行測(cè)試,并證明了所提方法在零樣本深度估計(jì)方面比現(xiàn)有SOTA表現(xiàn)更好。

貢獻(xiàn)

57523e52-c3ae-11ed-bfe3-dac502259ad0.png

本文中,作者提出了一個(gè)兩階段的框架,使用一個(gè)通用的編碼-解碼器架構(gòu)進(jìn)行相對(duì)深度估計(jì)的預(yù)訓(xùn)練,在第二階段添加絕對(duì)深度估計(jì)的輕量級(jí)head(metric bins module),并使用絕對(duì)深度數(shù)據(jù)集進(jìn)行微調(diào)。本文的主要貢獻(xiàn)是:

ZoeDepth 是第一個(gè)結(jié)合了相對(duì)深度和絕對(duì)深度的方法,在保持度量尺度的同時(shí),實(shí)現(xiàn)了卓越的泛化性能。

ZoeDepth 的旗艦?zāi)P?ZoeD-M12-NK 在12個(gè)數(shù)據(jù)集上使用相對(duì)深度進(jìn)行預(yù)訓(xùn)練,并在兩個(gè)數(shù)據(jù)集上使用絕對(duì)深度進(jìn)行微調(diào),使其在現(xiàn)有SOTA上有了明顯的提高

ZoeDepth 是第一個(gè)可以在多個(gè)數(shù)據(jù)集(NYU Depth v2 和 KITTI)上聯(lián)合訓(xùn)練而性能不明顯下降的模型,在室內(nèi)和室外域的8個(gè)未見過(guò)的數(shù)據(jù)集上實(shí)現(xiàn)了前所未有的零樣本泛化性能

ZoeDepth 彌補(bǔ)了相對(duì)深度估計(jì)和絕對(duì)深度估計(jì)之間的差距,并且可以通過(guò)在更多的數(shù)據(jù)集上定義更細(xì)化的域和,并在更多的絕對(duì)深度數(shù)據(jù)集微調(diào)來(lái)進(jìn)一步改進(jìn)網(wǎng)絡(luò)性能。

方法

論文首先使用一個(gè)Encoder-Decoder的backbone進(jìn)行相對(duì)深度預(yù)測(cè),然后將提出的metric bins 模塊附加在decoder上得到絕對(duì)深度預(yù)測(cè)頭(head),通過(guò)添加一個(gè)或多個(gè)head(每個(gè)數(shù)據(jù)集一個(gè))來(lái)進(jìn)行絕對(duì)深度估計(jì)。最后再進(jìn)行端到端的微調(diào)。下面介紹每個(gè)head(metric bins mdule)是怎么設(shè)計(jì)的:

LocalBins review

57c14f2c-c3ae-11ed-bfe3-dac502259ad0.png

global adaptive bins vs local adaptive bins

不同RGB輸入對(duì)應(yīng)的深度分布會(huì)有很大的不同,目前的神經(jīng)網(wǎng)絡(luò)架構(gòu)主要是在低分辨率的bottleneck獲取全局信息,而不能很好地在高分辨率特征獲取全局特征,深度分布的這種變化使得端到端的深度回歸變得困難。因此,此前的一些方法提出將深度范圍劃分為一定數(shù)量的bin,將每個(gè)像素分配給每個(gè)bin,將深度回歸任務(wù)轉(zhuǎn)換為分類任務(wù)

最終深度估計(jì)是bin中心值的線性組合。上圖介紹了兩種劃分bin的方法,AdaBins預(yù)測(cè)了完整圖像的分布,LocalBins預(yù)測(cè)了每個(gè)像素周圍區(qū)域的分布。本文采用了類似于LocalBins的這種方式。

57dd49c0-c3ae-11ed-bfe3-dac502259ad0.png

Metric bins

具體來(lái)說(shuō),LocalBins使用一個(gè)標(biāo)準(zhǔn)的encoder-decoder作為基本模型,并附加一個(gè)模塊,該模塊將encoder-decoder的多尺度特征作為輸入,預(yù)測(cè)每個(gè)像素深度區(qū)間上的個(gè)bins中心值(channel)一個(gè)像素最終深度,由個(gè)bin經(jīng)過(guò)softmax得到的概率加權(quán)其bin中心值的線性組合得到

57fc686e-c3ae-11ed-bfe3-dac502259ad0.png

Metric bins module

581e6ad6-c3ae-11ed-bfe3-dac502259ad0.png

Metric Bins Module

如上圖所示,Metric bins模塊以MiDaS[1](一種有監(jiān)督的Zero-shot深度估計(jì)方法)的解碼器的多尺度(五層)特征作為輸入,預(yù)測(cè)用于絕對(duì)深度估計(jì)的深度區(qū)間的bins的中心。注意論文在bottleneck層就直接預(yù)測(cè)每個(gè)像素上所有的bins(即channel的維度直接就是)。然后在decoder上使用attractor layers逐步進(jìn)行細(xì)化bin區(qū)間。

Attract instead of split

論文通過(guò)調(diào)整bin,在深度區(qū)間上向左或向右移動(dòng)它們,來(lái)實(shí)現(xiàn)對(duì)bin的多尺度細(xì)化。利用多尺度特征,論文預(yù)測(cè)了深度區(qū)間上的一組點(diǎn)用來(lái)”吸引“bin的中心

具體地說(shuō),在第1個(gè)decoder層,MLP將一個(gè)像素處的特征作為輸入,并預(yù)測(cè)該像素位置的吸引點(diǎn)。調(diào)整后的bin中心為,調(diào)整如下:

5831688e-c3ae-11ed-bfe3-dac502259ad0.png

其中,超參數(shù)和決定了attractor(吸引子)的強(qiáng)度。論文把這個(gè)attractor命名為inverse attractor。此外,論文還實(shí)驗(yàn)了一個(gè)指數(shù)變量:

584cf54a-c3ae-11ed-bfe3-dac502259ad0.png

實(shí)驗(yàn)表明,inverse attractor可以導(dǎo)致更好的性能。論文中,深度區(qū)間設(shè)置了個(gè)bin,decoder設(shè)置了個(gè)attractor。

Log-binomial instead of softmax

為了得到最終的絕對(duì)深度預(yù)測(cè),每個(gè)像素上深度區(qū)間內(nèi)的每個(gè)bin通過(guò)softmax可以得到其概率,所有的bin的中心進(jìn)行按照片概率線性組合得到該像素的深度值。

盡管softmax在無(wú)序類中運(yùn)行得很好,但由于深度區(qū)間內(nèi)bin本身是有序的,softmax方法可能導(dǎo)致附近的bin的概率大大不同,因此論文使用具有排序感知的概率預(yù)測(cè):

論文使用一個(gè)二項(xiàng)式分來(lái)預(yù)測(cè)概率,將相對(duì)深度預(yù)測(cè)與解碼器特征連接起來(lái),并從解碼器特征中預(yù)測(cè)一個(gè)2通道輸出(q - mode和t - temperature),通過(guò)以下方法獲得第k個(gè)bin中心的概率得分:

5867a192-c3ae-11ed-bfe3-dac502259ad0.png

然后再通過(guò):

587adff0-c3ae-11ed-bfe3-dac502259ad0.png

得到最終的概率值。

訓(xùn)練策略

Metric fine-tuning on multiple datasets

在具有各種場(chǎng)景的混合數(shù)據(jù)集上訓(xùn)練一個(gè)絕對(duì)深度模型是很困難的,論文首先預(yù)訓(xùn)練一個(gè)的相對(duì)深度估計(jì)的backbone,在一定程度上減輕了對(duì)多個(gè)數(shù)據(jù)集的微調(diào)問(wèn)題。然后為模型配備多個(gè)Metric bins模塊,每個(gè)場(chǎng)景類型(室內(nèi)和室外)對(duì)應(yīng)一個(gè)。最后再對(duì)完整的模型進(jìn)行端到端微調(diào)。

Routing to metric heads

當(dāng)模型有多個(gè)絕對(duì)深度頭時(shí),在推理的時(shí)候,算法需要根據(jù)輸入數(shù)據(jù)的類型,通過(guò)一個(gè)“路由器”來(lái)選擇用于特定輸入的絕對(duì)深度頭。

論文提供了三種“路由”策略:

Labeled Router(R.1):訓(xùn)練多個(gè)模型,給它們打上場(chǎng)景標(biāo)簽,推理時(shí)根據(jù)場(chǎng)景手動(dòng)選擇模型

Trained Router(R.2):訓(xùn)練一個(gè)MLP分類器,它根據(jù)bottleneck預(yù)測(cè)輸入圖像的場(chǎng)景類型,然后“路由”到相應(yīng)的head,訓(xùn)練的時(shí)候需要提供場(chǎng)景類型的標(biāo)簽

Auto Router(R.3):跟第二種類似,但是訓(xùn)練和推理過(guò)程中不提供場(chǎng)景的標(biāo)簽。

實(shí)驗(yàn)

Comparison to SOTA on NYU Depth V2

58845b48-c3ae-11ed-bfe3-dac502259ad0.png

表1 Quantitative comparison on NYU-Depth v2

沒有任何相對(duì)深度預(yù)訓(xùn)練的情況下,論文的模型ZoeD-X-N預(yù)測(cè)的絕對(duì)深度可以比目前的SOTA NeWCRFs提高13.7% (REL = 0.082)。

通過(guò)對(duì)12個(gè)數(shù)據(jù)集進(jìn)行相對(duì)深度預(yù)訓(xùn)練,然后對(duì)NYU Depth v2進(jìn)行絕對(duì)深度微調(diào),論文的模型ZoeD-M12-N可以在ZoeD-X-N上進(jìn)一步提高8.5%,比SOTA NeWCRFs提高21%(REL = 0.075)。

58aa1658-c3ae-11ed-bfe3-dac502259ad0.png

Qualitative comparison on NYU Depth v2

上面的可視化可以看出,論文方法始終以更少的誤差,產(chǎn)生更好的深度預(yù)測(cè)(藍(lán)色表示誤差小)。

Universal Metric SIDE

58d9fb5c-c3ae-11ed-bfe3-dac502259ad0.png

表2 Comparison with existing works when trained on NYU and KITTI

使用跨域數(shù)據(jù)集(室內(nèi)NYU和室外KITTI(NK))進(jìn)行絕對(duì)深度訓(xùn)練的模型通常表現(xiàn)更差,如上表2與表1的對(duì)比所示,論文將最近的一些方法在室內(nèi)和室外數(shù)據(jù)集上進(jìn)行聯(lián)合訓(xùn)練,從結(jié)果可以看到,這些方法的性能都顯著下降,甚至直接無(wú)法收斂。而本文的方法ZoeD-M12-NK**只下降了8%**(REL 0.075 to 0.081),顯著優(yōu)于SOTA NeWCRFs。

表2中,“”表示使用一個(gè)head,可以看到,使用多head的網(wǎng)絡(luò),泛化能力更強(qiáng),這些結(jié)果表明,Metric Bins模塊比現(xiàn)有的工作更好地利用了預(yù)訓(xùn)練,從而改進(jìn)了跨域的自適應(yīng)和泛化(Zero-shot性能)。

Zero-shot Generalization

論文將所提模型在8個(gè)未訓(xùn)練的室內(nèi)和室外數(shù)據(jù)上進(jìn)行Zero-shot測(cè)試,來(lái)評(píng)估所提方法的泛化能力。

591343ee-c3ae-11ed-bfe3-dac502259ad0.png

Zero-shot transfer

59df1370-c3ae-11ed-bfe3-dac502259ad0.png

Zero-shot transfer

5a002132-c3ae-11ed-bfe3-dac502259ad0.png

表3 Quantitative results for zero-shot transfer to four unseen indoor datasets

5a11d260-c3ae-11ed-bfe3-dac502259ad0.png

表4 Quantitative results for zero-shot transfer to four unseen outdoor datasets

表3所示,在室內(nèi)數(shù)據(jù)測(cè)試中,ZoeD-M12-N能夠取得最好的效果(在12個(gè)相對(duì)深度數(shù)據(jù)集上預(yù)訓(xùn)練,只對(duì)NYU數(shù)據(jù)集進(jìn)行微調(diào)),同時(shí)在室內(nèi)NYU數(shù)據(jù)集和室外KITTI數(shù)據(jù)集進(jìn)行微調(diào)效果次之,不使用12個(gè)相對(duì)深度數(shù)據(jù)集上預(yù)訓(xùn)練最差,但都顯著高于SOTA。如表4上圖所示,在室外數(shù)據(jù)測(cè)試中,結(jié)論類似。甚至在達(dá)到了976.4%的提升!,這證明了它前所未有的Zero-shot能力。

消融實(shí)驗(yàn)

Backbones

5a548cae-c3ae-11ed-bfe3-dac502259ad0.png

Backbone ablation study

在圖像分類task中的backbone性能與深度估計(jì)性能之間有很強(qiáng)的相關(guān)性。較大的backbone可以實(shí)現(xiàn)較低的絕對(duì)相對(duì)誤差(REL)。

Metric Bins Module

5a687ee4-c3ae-11ed-bfe3-dac502259ad0.png

Metric head variants

不同的MLP中的分裂因子(Splitter)和吸引子(Attractor)的數(shù)量對(duì)結(jié)果有影響。

Routers

5a79a4da-c3ae-11ed-bfe3-dac502259ad0.png

Router variants

Trained Router效果顯著由于另外兩種路由策略。

總結(jié)

論文提出了ZoeDepth,第一個(gè)結(jié)合了相對(duì)深度和絕對(duì)深度而性能沒有顯著下降的方法,彌補(bǔ)相對(duì)和絕對(duì)深度估計(jì)性能之間的差距,在保持度量尺度的同時(shí),實(shí)現(xiàn)了卓越的泛化性能。ZoeDepth是一個(gè)兩階段的工作,在第一階段,論文使用相對(duì)深度數(shù)據(jù)集對(duì)encoder-decoder架構(gòu)進(jìn)行預(yù)訓(xùn)練。在第二階段,論文基于所提的Metric bins 模塊得到domain-specific頭,將其添加到解碼器中,并在一個(gè)或多個(gè)數(shù)據(jù)集上對(duì)模型進(jìn)行微調(diào),用于絕對(duì)深度預(yù)測(cè)。

提出的架構(gòu)顯著地改進(jìn)了NYU Depth v2的SOTA(高達(dá)21%),也顯著提高了zero-transfer的技術(shù)水平。論文希望在室內(nèi)和室外之外定義更細(xì)粒度的領(lǐng)域,并在更多的絕對(duì)深度數(shù)據(jù)集上進(jìn)行微調(diào),可以進(jìn)一步改善論文的結(jié)果。在未來(lái)的工作中,論文希望研究ZoeDepth的移動(dòng)架構(gòu)版本,例如,設(shè)備上的照片編輯,并將該工作擴(kuò)展到雙目深度估計(jì)。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1178

    瀏覽量

    42010
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    213

    文章

    29753

    瀏覽量

    213024
  • RGB
    RGB
    +關(guān)注

    關(guān)注

    4

    文章

    807

    瀏覽量

    59960
  • 機(jī)器人技術(shù)

    關(guān)注

    18

    文章

    194

    瀏覽量

    32491

原文標(biāo)題:Intel 開源新作 | ZoeDepth: 第一個(gè)結(jié)合相對(duì)和絕對(duì)深度的多模態(tài)單目深度估計(jì)網(wǎng)絡(luò)

文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    研華科技攜手創(chuàng)新奇智推出模態(tài)大模型AI體機(jī)

    這是款基于研華高性能邊緣計(jì)算平臺(tái)MIC-733,深度集成創(chuàng)新奇智視覺小模型與模態(tài)大模型的邊緣智能終端,通過(guò)創(chuàng)新的“視覺識(shí)別 + 深度語(yǔ)義
    的頭像 發(fā)表于 07-17 17:14 ?289次閱讀
    研華科技攜手創(chuàng)新奇智推出<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型AI<b class='flag-5'>一</b>體機(jī)

    大模型推理顯存和計(jì)算量估計(jì)方法研究

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)大模型在各個(gè)領(lǐng)域得到了廣泛應(yīng)用。然而,大模型的推理過(guò)程對(duì)顯存和計(jì)算資源的需求較高,給實(shí)際應(yīng)用帶來(lái)了挑戰(zhàn)。為了解決這問(wèn)題,本文將探討大模型推理顯存和計(jì)算量的估計(jì)
    發(fā)表于 07-03 19:43

    汽車模態(tài)交互測(cè)試:智能交互的深度驗(yàn)證

    在汽車智能座艙測(cè)試的關(guān)鍵進(jìn)程中,北京沃華慧通測(cè)控技術(shù)有限公司展現(xiàn)出了獨(dú)特的價(jià)值與優(yōu)勢(shì)。作為家專注于測(cè)控技術(shù)領(lǐng)域的企業(yè),沃華慧通在智能座艙測(cè)試方面積累了豐富的經(jīng)驗(yàn)和專業(yè)的技術(shù)能力。其研發(fā)的測(cè)試設(shè)備能夠精準(zhǔn)模擬各種復(fù)雜的車載環(huán)境,對(duì)智能座艙的
    的頭像 發(fā)表于 06-25 09:00 ?844次閱讀
    汽車<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>交互測(cè)試:智能交互的<b class='flag-5'>深度</b>驗(yàn)證

    存儲(chǔ)示波器的存儲(chǔ)深度對(duì)信號(hào)分析有什么影響?

    存儲(chǔ)深度(Memory Depth)是數(shù)字示波器的核心參數(shù)之,它直接決定了示波器在次采集過(guò)程中能夠記錄的采樣點(diǎn)數(shù)量。存儲(chǔ)深度對(duì)信號(hào)分析的影響貫穿時(shí)域細(xì)節(jié)捕捉、頻域分析精度、觸發(fā)穩(wěn)定
    發(fā)表于 05-27 14:39

    摩爾線程與當(dāng)虹科技達(dá)成深度合作

    近日,摩爾線程與當(dāng)虹科技達(dá)成深度合作,基于國(guó)產(chǎn)GPU成功完成了與BlackEye模態(tài)視聽大模型的深度融合。雙方聯(lián)手打造專業(yè)級(jí)視聽“引擎”,并在超高清GPU算力場(chǎng)景中成功落地。
    的頭像 發(fā)表于 03-20 15:22 ?604次閱讀

    【AIBOX 應(yīng)用案例】深度估計(jì)

    了關(guān)鍵作用。深度估計(jì)技術(shù)可以分為深度估計(jì)
    的頭像 發(fā)表于 03-19 16:33 ?433次閱讀
    【AIBOX 應(yīng)用案例】<b class='flag-5'>單</b><b class='flag-5'>目</b><b class='flag-5'>深度</b><b class='flag-5'>估計(jì)</b>

    ??低暟l(fā)布模態(tài)大模型文搜存儲(chǔ)系列產(chǎn)品

    模態(tài)大模型為安防行業(yè)帶來(lái)重大技術(shù)革新,基于觀瀾大模型技術(shù)體系,??低晫⒋髤?shù)量、大樣本量的圖文模態(tài)大模型與嵌入式智能硬件深度融合,發(fā)布
    的頭像 發(fā)表于 02-18 10:33 ?698次閱讀

    BP神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的關(guān)系

    BP神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)之間存在著密切的關(guān)系,以下是對(duì)它們之間關(guān)系的介紹、BP神經(jīng)網(wǎng)絡(luò)的基本概念 BP神經(jīng)
    的頭像 發(fā)表于 02-12 15:15 ?868次閱讀

    體驗(yàn)MiniCPM-V 2.6 模態(tài)能力

    模態(tài)組網(wǎng)
    jf_23871869
    發(fā)布于 :2025年01月20日 13:40:48

    商湯日日新模態(tài)大模型權(quán)威評(píng)測(cè)第一

    剛剛,商湯科技日日新SenseNova模態(tài)大模型,在權(quán)威綜合評(píng)測(cè)權(quán)威平臺(tái)OpenCompass的模態(tài)評(píng)測(cè)中取得榜單第一
    的頭像 發(fā)表于 12-20 10:39 ?1033次閱讀

    文理解模態(tài)大語(yǔ)言模型——下

    /understanding-multimodal-llms ? 《文理解模態(tài)大語(yǔ)言模型 - 上》介紹了什么是
    的頭像 發(fā)表于 12-03 15:18 ?606次閱讀
    <b class='flag-5'>一</b>文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語(yǔ)言模型——下

    高通與智譜推動(dòng)模態(tài)生成式AI體驗(yàn)的終端側(cè)部署

    此前,驍龍峰會(huì)首日,智譜與高通技術(shù)公司宣布合作將GLM-4V端側(cè)視覺大模型,面向驍龍8至尊版進(jìn)行深度適配和推理優(yōu)化,支持豐富的模態(tài)交互方式,進(jìn)步推動(dòng)
    的頭像 發(fā)表于 11-08 09:55 ?757次閱讀

    FPGA做深度學(xué)習(xí)能走多遠(yuǎn)?

    ,共同進(jìn)步。 歡迎加入FPGA技術(shù)微信交流群14群! 交流問(wèn)題() Q:FPGA做深度學(xué)習(xí)能走多遠(yuǎn)?現(xiàn)在用FPGA做深度學(xué)習(xí)加速成為個(gè)
    發(fā)表于 09-27 20:53

    Meta發(fā)布模態(tài)LLAMA 3.2人工智能模型

    Meta Platforms近日宣布了項(xiàng)重要技術(shù)突破,成功推出了模態(tài)LLAMA 3.2人工智能模型。這創(chuàng)新模型不僅能夠深度解析文本信息
    的頭像 發(fā)表于 09-27 11:44 ?703次閱讀

    FPGA在深度神經(jīng)網(wǎng)絡(luò)中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)作為其核心算法之,在圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域取得了顯著成果。然而,傳統(tǒng)的深度
    的頭像 發(fā)表于 07-24 10:42 ?1223次閱讀