99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何通過(guò)深度學(xué)習(xí)來(lái)完成計(jì)算機(jī)視覺(jué)中的所有工作?

電子設(shè)計(jì) ? 來(lái)源:電子設(shè)計(jì) ? 作者:電子設(shè)計(jì) ? 2021-01-20 22:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者 | George Seif
譯者 | 天道酬勤,責(zé)編 | Carol
出品 | AI科技大本營(yíng)(ID:rgznai100)

你想做計(jì)算機(jī)視覺(jué)嗎?

如今,深度學(xué)習(xí)是必經(jīng)之路。大規(guī)模數(shù)據(jù)集以及深層卷積神經(jīng)網(wǎng)絡(luò)(CNN)的表征能力可提供超準(zhǔn)確和強(qiáng)大的模型。但目前仍然只有一個(gè)挑戰(zhàn):如何設(shè)計(jì)模型?

像計(jì)算機(jī)視覺(jué)這樣廣泛而復(fù)雜的領(lǐng)域,解決方案并不總是清晰明了的。計(jì)算機(jī)視覺(jué)中的許多標(biāo)準(zhǔn)任務(wù)都需要特別考慮:分類、檢測(cè)、分割、姿態(tài)估計(jì)、增強(qiáng)和恢復(fù)以及動(dòng)作識(shí)別。盡管最先進(jìn)的網(wǎng)絡(luò)呈現(xiàn)出共同的模式,但它們都需要自己獨(dú)特的設(shè)計(jì)。

那么,我們?nèi)绾螢樗羞@些不同的任務(wù)建立模型呢?

作者在這里向你展示如何通過(guò)深度學(xué)習(xí)完成計(jì)算機(jī)視覺(jué)中的所有工作!

1、分類

計(jì)算機(jī)視覺(jué)中最出名的就是分類。圖像分類網(wǎng)絡(luò)從一個(gè)固定大小的輸入開始。輸入圖像可以有任意數(shù)量的通道,但對(duì)于RGB圖像通常為3。在設(shè)計(jì)網(wǎng)絡(luò)時(shí),分辨率在技術(shù)上可以是任意大小,只要足夠大到能夠支持在整個(gè)網(wǎng)絡(luò)中將要進(jìn)行的向下采樣量即可。例如,如果你對(duì)網(wǎng)絡(luò)內(nèi)的4個(gè)像素進(jìn)行向下采樣,則你的輸入大小至少應(yīng)為42= 16 x 16像素。

隨著深入網(wǎng)絡(luò),當(dāng)我們嘗試壓縮所有信息并降至一維矢量表示形式時(shí),空間分辨率將降低。為了確保網(wǎng)絡(luò)始終有能力將其提取的所有信息進(jìn)行處理,我們根據(jù)深度的比例增加特征圖的數(shù)量,來(lái)適應(yīng)空間分辨率的降低。也就是說(shuō),我們?cè)谙蛳虏蓸舆^(guò)程中損失了空間信息,為了適應(yīng)這種損失,我們擴(kuò)展了特征圖來(lái)增加我們的語(yǔ)義信息。

在選擇了一定數(shù)量的向下采樣后,特征圖被矢量化并輸入到一系列完全連接的圖層中。最后一層的輸出與數(shù)據(jù)集中的類一樣多。

pIYBAGAIPlqAYhy4AADE72sreUU824.png

2、目標(biāo)檢測(cè)

目標(biāo)檢測(cè)器分為兩種:一級(jí)和二級(jí)。他們兩個(gè)都以錨框開始。這些是默認(rèn)的邊界框。我們的檢測(cè)器將預(yù)測(cè)這些框與地面真相之間的差異,而不是直接預(yù)測(cè)這些框。
在二級(jí)檢測(cè)器中,我們自然有兩個(gè)網(wǎng)絡(luò):框提議網(wǎng)絡(luò)和分類網(wǎng)絡(luò)??蛱嶙h網(wǎng)絡(luò)在認(rèn)為很有可能存在物體的情況下為邊界框提供坐標(biāo)。再次,這些是相對(duì)于錨框。然后,分類網(wǎng)絡(luò)獲取每個(gè)邊界框中的潛在對(duì)象進(jìn)行分類。

在一級(jí)檢測(cè)器中,提議和分類器網(wǎng)絡(luò)融合為一個(gè)單一階段。網(wǎng)絡(luò)直接預(yù)測(cè)邊界框坐標(biāo)和該框內(nèi)的類。由于兩個(gè)階段融合在一起,所以一級(jí)檢測(cè)器往往比二級(jí)檢測(cè)器更快。但是由于兩個(gè)任務(wù)的分離,二級(jí)檢測(cè)器具有更高的精度。

pIYBAGAIPpqAc-jlAAIgOgGiPUI400.png

快速RCNN二級(jí)目標(biāo)檢測(cè)架構(gòu)

pIYBAGAIPtiAeKB7AAAlc41pCuY006.png

SSD一級(jí)目標(biāo)檢測(cè)架構(gòu)

3、分割

分割是計(jì)算機(jī)視覺(jué)中較獨(dú)特的任務(wù)之一,因?yàn)榫W(wǎng)絡(luò)既需要學(xué)習(xí)低級(jí)信息,也需要學(xué)習(xí)高級(jí)信息。低級(jí)信息可按像素精確分割圖像中的每個(gè)區(qū)域和對(duì)象,而高級(jí)信息可直接對(duì)這些像素進(jìn)行分類。這導(dǎo)致網(wǎng)絡(luò)被設(shè)計(jì)為將來(lái)自較早層和高分辨率(低層空間信息)的信息與較深層和低分辨率(高層語(yǔ)義信息)相結(jié)合。

如下所示,我們首先通過(guò)標(biāo)準(zhǔn)分類網(wǎng)絡(luò)運(yùn)行圖像。然后,我們從網(wǎng)絡(luò)的每個(gè)階段提取特征,從而使用從低到高的范圍內(nèi)的信息。每個(gè)信息級(jí)別在依次組合之前都是獨(dú)立處理的。當(dāng)這些信息組合在一起時(shí),我們對(duì)特征圖進(jìn)行向上采樣,最終得到完整的圖像分辨率。

要了解更多關(guān)于如何分割與深度學(xué)習(xí)工作的細(xì)節(jié),請(qǐng)查看這篇文章:
https://towardsdatascience.com/semantic-segmentation-with-deep-learning-...

o4YBAGAIPxiARK_ZAAIETEcDNyo272.png

GCN細(xì)分架構(gòu)

4、姿態(tài)估計(jì)

姿態(tài)估計(jì)模型需要完成兩個(gè)任務(wù):
(1)檢測(cè)圖像中每個(gè)身體部位的關(guān)鍵點(diǎn);
(2)找出如何正確連接這些關(guān)鍵點(diǎn)。

這分以下三個(gè)階段完成:

① 使用標(biāo)準(zhǔn)分類網(wǎng)絡(luò)從圖像中提取特征。

② 給定這些特征,就可以訓(xùn)練一個(gè)子網(wǎng)絡(luò)來(lái)預(yù)測(cè)一組2D熱圖。每個(gè)熱圖都與一個(gè)特定的關(guān)鍵點(diǎn)相關(guān)聯(lián),并包含每個(gè)圖像像素關(guān)于是否可能存在關(guān)鍵點(diǎn)的置信值。

③ 再次給出分類網(wǎng)絡(luò)的特征,我們訓(xùn)練一個(gè)子網(wǎng)絡(luò)來(lái)預(yù)測(cè)一組2D向量場(chǎng),其中每個(gè)向量場(chǎng)都與關(guān)鍵點(diǎn)之間的關(guān)聯(lián)度進(jìn)行編碼。然后,具有較高關(guān)聯(lián)性的關(guān)鍵點(diǎn)被稱為已連接。

用這種方法訓(xùn)練子網(wǎng)絡(luò)的模型,可以聯(lián)合優(yōu)化關(guān)鍵點(diǎn)的檢測(cè)并將它們連接在一起。

o4YBAGAIP1eAeFJQAAC_v2DDHOc228.png

OpenPose姿態(tài)估計(jì)架構(gòu)

5、增強(qiáng)和恢復(fù)

增強(qiáng)和恢復(fù)網(wǎng)絡(luò)是它們自己獨(dú)特的野獸。我們不會(huì)對(duì)此進(jìn)行任何向下采樣,因?yàn)槲覀冋嬲P(guān)心的是高像素/空間精度。向下采樣會(huì)真正抹殺這些信息,因?yàn)樗鼘p少我們?yōu)榭臻g精度而擁有的像素?cái)?shù)。相反,所有處理都是在全圖像分辨率下完成的。

我們開始以全分辨率將想要增強(qiáng)/恢復(fù)的圖像傳遞到我們的網(wǎng)絡(luò),而無(wú)需進(jìn)行任何修改。網(wǎng)絡(luò)僅由許多卷積和激活函數(shù)組成。這些塊通常是受啟發(fā)的,并且有時(shí)直接復(fù)制那些最初為圖像分類而開發(fā)的塊,例如殘差塊、密集塊、擠壓激勵(lì)塊等。最后一層沒(méi)有激活函數(shù),即使是sigmoid或softmax也沒(méi)有,因?yàn)槲覀兿胫苯宇A(yù)測(cè)圖像像素,不需要任何概率或分?jǐn)?shù)。

這就是所有這些類型的網(wǎng)絡(luò)。在圖像的全分辨率上進(jìn)行了大量的處理,來(lái)達(dá)到較高的空間精度,使用了與其他任務(wù)相同的卷積。

o4YBAGAIP5WACSmFAABx3MfYS3Y734.png

EDSR超分辨率架構(gòu)

6、動(dòng)作識(shí)別

動(dòng)作識(shí)別是少數(shù)幾個(gè)需要視頻數(shù)據(jù)才能正常運(yùn)行的應(yīng)用程序之一。要對(duì)一個(gè)動(dòng)作進(jìn)行分類,我們需要了解隨著時(shí)間推移,場(chǎng)景中發(fā)生的變化, 這自然導(dǎo)致我們需要視頻。我們的網(wǎng)絡(luò)必須經(jīng)過(guò)訓(xùn)練來(lái)學(xué)習(xí)時(shí)空信息,即時(shí)空變化。最完美的網(wǎng)絡(luò)是3D-CNN。

顧名思義,3D-CNN是使用3D卷積的卷積網(wǎng)絡(luò)。它們與常規(guī)CNN的不同之處在于,卷積是在3維上應(yīng)用的:寬度、高度和時(shí)間。因此,每個(gè)輸出像素都是根據(jù)其周圍像素以及相同位置的前一幀和后一幀中的像素進(jìn)行計(jì)算來(lái)預(yù)測(cè)的。

o4YBAGAIQDKAfS05AAAu8FYu9L8276.png

直接大量傳遞圖像

視頻幀可以通過(guò)幾種方式傳遞:

直接在大批量中,例如第一個(gè)圖。由于我們正在傳遞一系列幀,因此空間和時(shí)間信息都是可用的。

o4YBAGAIQJCAC7ZxAACA2TWy-TM901.png

單幀+光流(左) 視頻+光流(右)

我們還可以在一個(gè)流中傳遞單個(gè)圖像幀(數(shù)據(jù)的空間信息),并從視頻中傳遞其相應(yīng)的光流表示形式(數(shù)據(jù)的時(shí)間信息)。我們將使用常規(guī)2D CNN從這兩者中提取特征,然后再將其組合起來(lái)傳遞給我們的3D CNN,后者將兩種類型的信息進(jìn)行合并。

將幀序列傳遞給一個(gè)3D CNN,并將視頻的光流表示傳遞給另一個(gè)3D CNN。這兩個(gè)數(shù)據(jù)流都具有可用的空間和時(shí)間信息。鑒于我們正在對(duì)視頻的兩種不同表示(均包含我們的所有信息)進(jìn)行特定處理,因此這是最慢的選擇,但也可能是最準(zhǔn)確的選擇。

所有這些網(wǎng)絡(luò)都輸出視頻的動(dòng)作分類。

文章來(lái)源于AI科技大本營(yíng),作者George Seif

審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    自動(dòng)化計(jì)算機(jī)的功能與用途

    工業(yè)自動(dòng)化是指利用自動(dòng)化計(jì)算機(jī)來(lái)控制工業(yè)環(huán)境的流程、機(jī)器人和機(jī)械,以制造產(chǎn)品或其部件。工業(yè)自動(dòng)化的目的是提高生產(chǎn)率、增加靈活性,并提升制造過(guò)程的質(zhì)量。工業(yè)自動(dòng)化在汽車制造中體現(xiàn)得最為明顯,其中許多
    的頭像 發(fā)表于 07-15 16:32 ?127次閱讀
    自動(dòng)化<b class='flag-5'>計(jì)算機(jī)</b>的功能與用途

    英飛凌邊緣AI平臺(tái)通過(guò)Ultralytics YOLO模型增加對(duì)計(jì)算機(jī)視覺(jué)的支持

    對(duì)計(jì)算機(jī)視覺(jué)的支持,擴(kuò)大了當(dāng)前對(duì)音頻、雷達(dá)和其他時(shí)間序列信號(hào)數(shù)據(jù)的支持范圍。在增加這項(xiàng)支持后,該平臺(tái)將能夠用于開發(fā)低功耗、低內(nèi)存的邊緣AI視覺(jué)模型。這將給諸多應(yīng)用領(lǐng)域的機(jī)器學(xué)習(xí)開發(fā)人員
    的頭像 發(fā)表于 03-11 15:11 ?391次閱讀
    英飛凌邊緣AI平臺(tái)<b class='flag-5'>通過(guò)</b>Ultralytics YOLO模型增加對(duì)<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺(jué)</b>的支持

    AR和VR計(jì)算機(jī)視覺(jué)

    ):計(jì)算機(jī)視覺(jué)引領(lǐng)混合現(xiàn)實(shí)體驗(yàn)增強(qiáng)現(xiàn)實(shí)(AR)和虛擬現(xiàn)實(shí)(VR)正在徹底改變我們與外部世界的互動(dòng)方式。即便是在引人入勝的沉浸式
    的頭像 發(fā)表于 02-08 14:29 ?1573次閱讀
    AR和VR<b class='flag-5'>中</b>的<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺(jué)</b>

    工業(yè)中使用哪種計(jì)算機(jī)?

    使其成為工廠、倉(cāng)庫(kù)和其他要求苛刻的工業(yè)環(huán)境的理想選擇。通過(guò)提供高性能和可靠性,工業(yè)計(jì)算機(jī)可確保高效、連續(xù)的運(yùn)行。工業(yè)計(jì)算機(jī)的類型在工業(yè)環(huán)境,人們使用各種專用
    的頭像 發(fā)表于 11-29 14:07 ?714次閱讀
    工業(yè)中使用哪種<b class='flag-5'>計(jì)算機(jī)</b>?

    量子計(jì)算機(jī)與普通計(jì)算機(jī)工作原理的區(qū)別

    超越世界上最強(qiáng)大的超級(jí)計(jì)算機(jī)完成以前不可想象的任務(wù)!這意味著量子計(jì)算機(jī)可能會(huì)徹底改變我們的生活。 在本文中,我們將先了解普通計(jì)算機(jī)工作
    的頭像 發(fā)表于 11-24 11:00 ?1496次閱讀
    量子<b class='flag-5'>計(jì)算機(jī)</b>與普通<b class='flag-5'>計(jì)算機(jī)工作</b>原理的區(qū)別

    pcie在深度學(xué)習(xí)的應(yīng)用

    深度學(xué)習(xí)模型通常需要大量的數(shù)據(jù)和強(qiáng)大的計(jì)算能力來(lái)訓(xùn)練。傳統(tǒng)的CPU計(jì)算資源有限,難以滿足深度
    的頭像 發(fā)表于 11-13 10:39 ?1352次閱讀

    【小白入門必看】一文讀懂深度學(xué)習(xí)計(jì)算機(jī)視覺(jué)技術(shù)及學(xué)習(xí)路線

    ,幫我們做決定。整個(gè)過(guò)程就是為了讓機(jī)器能看懂圖像,然后根據(jù)這些圖像來(lái)做出聰明的選擇。二、計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)起來(lái)難嗎?人類依賴視覺(jué),找輛汽車輕而易舉,畢竟汽車那么大,一眼
    的頭像 發(fā)表于 10-31 17:00 ?1246次閱讀
    【小白入門必看】一文讀懂<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺(jué)</b>技術(shù)及<b class='flag-5'>學(xué)習(xí)</b>路線

    計(jì)算機(jī)存儲(chǔ)系統(tǒng)的工作原理和功能

    計(jì)算機(jī)存儲(chǔ)系統(tǒng)作為計(jì)算機(jī)系統(tǒng)至關(guān)重要的組成部分,其原理和功能對(duì)于理解計(jì)算機(jī)的運(yùn)行機(jī)制具有關(guān)鍵意義。以下將詳細(xì)闡述計(jì)算機(jī)存儲(chǔ)系統(tǒng)的原理和功能
    的頭像 發(fā)表于 09-26 16:42 ?2962次閱讀

    簡(jiǎn)述計(jì)算機(jī)總線的分類

    計(jì)算機(jī)總線作為計(jì)算機(jī)系統(tǒng)連接各個(gè)功能部件的公共通信干線,其結(jié)構(gòu)和分類對(duì)于理解計(jì)算機(jī)硬件系統(tǒng)的工作原理至關(guān)重要。以下是對(duì)
    的頭像 發(fā)表于 08-26 16:23 ?5186次閱讀

    如何利用ARMxy ARM嵌入式計(jì)算機(jī)的NPU進(jìn)行深度學(xué)習(xí)模型的訓(xùn)練和優(yōu)化?

    在正文開始前,我們先大致了解鋇錸的ARMxy ARM嵌入式計(jì)算機(jī),再來(lái)說(shuō)說(shuō)我們?nèi)绾卫肁RMxy ARM嵌入式計(jì)算機(jī)的NPU來(lái)實(shí)現(xiàn)深度學(xué)習(xí)
    的頭像 發(fā)表于 08-20 13:43 ?761次閱讀
    如何利用ARMxy ARM嵌入式<b class='flag-5'>計(jì)算機(jī)</b>的NPU進(jìn)行<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>模型的訓(xùn)練和優(yōu)化?

    ARMxy ARM嵌入式計(jì)算機(jī)搭載 1 TOPS NPU支持深度學(xué)習(xí)

    ARMxy ARM嵌入式計(jì)算機(jī)BL410系列內(nèi)置了1TOPS算力 NPU,它每秒可以執(zhí)行高達(dá)一萬(wàn)億次的浮點(diǎn)運(yùn)算,這為復(fù)雜的圖像處理和深度學(xué)習(xí)任務(wù)提供了充足的計(jì)算資源。在產(chǎn)品缺陷檢測(cè)領(lǐng)域
    的頭像 發(fā)表于 08-20 11:53 ?857次閱讀
    ARMxy ARM嵌入式<b class='flag-5'>計(jì)算機(jī)</b>搭載 1 TOPS NPU支持<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>

    計(jì)算機(jī)視覺(jué)有哪些優(yōu)缺點(diǎn)

    計(jì)算機(jī)視覺(jué)作為人工智能領(lǐng)域的一個(gè)重要分支,旨在使計(jì)算機(jī)能夠像人類一樣理解和解釋圖像和視頻的信息。這一技術(shù)的發(fā)展不僅推動(dòng)了多個(gè)行業(yè)的變革,也帶來(lái)了諸多優(yōu)勢(shì),但同時(shí)也伴隨著一些挑戰(zhàn)和局限
    的頭像 發(fā)表于 08-14 09:49 ?2050次閱讀

    計(jì)算機(jī)視覺(jué)的圖像融合

    在許多計(jì)算機(jī)視覺(jué)應(yīng)用(例如機(jī)器人運(yùn)動(dòng)和醫(yī)學(xué)成像),需要將多個(gè)圖像的相關(guān)信息整合到單一圖像。這種圖像融合可以提供更高的可靠性、準(zhǔn)確性和數(shù)據(jù)質(zhì)量。多視圖融合可以提高圖像分辨率,并恢復(fù)場(chǎng)
    的頭像 發(fā)表于 08-01 08:28 ?1143次閱讀
    <b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺(jué)</b><b class='flag-5'>中</b>的圖像融合

    DRAM在計(jì)算機(jī)中的應(yīng)用

    DRAM(Dynamic Random Access Memory,動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器)在計(jì)算機(jī)系統(tǒng)扮演著至關(guān)重要的角色。它是一種半導(dǎo)體存儲(chǔ)器,用于存儲(chǔ)和快速訪問(wèn)數(shù)據(jù),是計(jì)算機(jī)主內(nèi)存的主要組成部分。以下是對(duì)DRAM在
    的頭像 發(fā)表于 07-24 17:04 ?3014次閱讀

    計(jì)算機(jī)視覺(jué)技術(shù)的AI算法模型

    計(jì)算機(jī)視覺(jué)技術(shù)作為人工智能領(lǐng)域的一個(gè)重要分支,旨在使計(jì)算機(jī)能夠像人類一樣理解和解釋圖像及視頻的信息。為了實(shí)現(xiàn)這一目標(biāo),計(jì)算機(jī)
    的頭像 發(fā)表于 07-24 12:46 ?1816次閱讀