99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于ST-GCN的人體動作識別與生成

電子工程師 ? 來源:DeepBlue深蘭科技 ? 作者:DeepBlue深蘭科技 ? 2021-03-15 09:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

ST-GCN: Spatial Temporal Graph Convolutional Networks時(shí)空圖卷積網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)來源于2018年發(fā)表的一篇文章《Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition》,也就是基于時(shí)空圖卷積網(wǎng)絡(luò)來做人體動作識別。 今天,我們就來了解下,如何基于ST-GCN來實(shí)現(xiàn)人體動作的識別與生成。

Why:為什么要使用ST-GCN?

ST-GCN網(wǎng)絡(luò)訓(xùn)練好之后要達(dá)到的效果就是:用戶提供一段視頻,網(wǎng)絡(luò)會輸出視頻中人的動作分類。

類似于上圖中的視頻,如何來識別視頻中的人在做什么動作呢? 視頻其實(shí)就是一幀一幀的圖片拼接而成的,而傳統(tǒng)處理圖像識別的網(wǎng)絡(luò)最常用的就是CNN(卷積神經(jīng)網(wǎng)絡(luò)),那ST-GCN是否跟CNN有關(guān)系呢?為什么要使用這個(gè)網(wǎng)絡(luò)呢?

可以從以下三點(diǎn)來理解:

(1) 輸入數(shù)據(jù)有量級的差別。舉個(gè)例子,數(shù)據(jù)為一段10秒左右的視頻,大概300幀,像素1920*1080,分別輸入兩個(gè)網(wǎng)絡(luò)中。傳統(tǒng)CNN是將所有視頻拆分為一幀一幀的圖片輸入網(wǎng)絡(luò),而ST-GCN則直接輸入人體的骨架關(guān)節(jié)數(shù)據(jù),CNN的輸入數(shù)據(jù)量約為ST-GCN的83000倍。

(2) 輸入數(shù)據(jù)純凈度高,噪聲少。CNN是將視頻數(shù)據(jù)直接輸入網(wǎng)絡(luò),包括了視頻的背景以及圖片中的各種噪音,而ST-GCN是僅僅將人體骨架關(guān)節(jié)點(diǎn)的信息輸入網(wǎng)絡(luò),只保留了主要的有效信息,噪聲低。

(3) 考慮了空間和時(shí)間上的相鄰關(guān)節(jié),效果更好。ST-GCN不僅考慮了空間上的相鄰節(jié)點(diǎn),也考慮了時(shí)間上的相鄰節(jié)點(diǎn),將鄰域的概念擴(kuò)展到了時(shí)間上,實(shí)驗(yàn)效果表明精度也更高。

What:ST-GCN到底是什么?

ST-GCN是TCN與GCN的結(jié)合。TCN,對時(shí)間維度的數(shù)據(jù)進(jìn)行卷積操作;GCN,則對空間維度的數(shù)據(jù)進(jìn)行卷積操作。GCN屬于GNN,而GNN的基礎(chǔ)是圖論。神經(jīng)網(wǎng)絡(luò)處理的傳統(tǒng)數(shù)據(jù)都是歐式距離結(jié)構(gòu)的數(shù)據(jù),比如二維的圖像、一維的聲音等等。而對于非歐式距離結(jié)構(gòu)的數(shù)據(jù),比如社交網(wǎng)絡(luò)、交通運(yùn)輸網(wǎng)等等,傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)無法直接處理,而GNN就是用來處理這類型數(shù)據(jù)的。所以要了解ST-GCN,就要先從圖論的一些基本理論入手,然后再延伸到GNN、GCN、ST-GCN。

2.1 圖論

這里的圖并不是指我們?nèi)粘K姷膱D片,圖的廣泛概念包含具體的事物,以及事物之間的聯(lián)系。圖論中的圖由兩部分構(gòu)成,即點(diǎn)和邊。

點(diǎn):圖上具體的節(jié)點(diǎn)。

邊:連接圖上點(diǎn)和點(diǎn)之間的東西,邊分為有向邊和無向邊。

圖:節(jié)點(diǎn)V(G)和邊E(G)構(gòu)成的集合就是圖,可以表示為:G = {V(G), E(G)}。圖可以簡單分為有向圖和無向圖(如下圖所示)。

2.2 GNN

GNN: Group Neural Network 圖神經(jīng)網(wǎng)絡(luò),即結(jié)合圖論與深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)。目前主要包含:Graph Convolutional Networks (GCN)、Graph Attention Networks、Graph Auto-encoder、Graph Generative Networks、Graph Spatial-Temporal Networks。最初的GNN網(wǎng)絡(luò),就是將點(diǎn)和邊的特征一起傳入網(wǎng)絡(luò)中學(xué)習(xí)。

2.3 GCN

GCN:Graph Convolutional Networks 圖卷積神經(jīng)網(wǎng)絡(luò),顧名思義,是將圖與卷積結(jié)合起來。根據(jù)卷積核的不同,主要分為spectral method(頻譜方法)和spatial method(空間方法)。二者的區(qū)別在于:頻譜方法基于拉普拉斯矩陣,與圖的關(guān)系緊密聯(lián)系,可泛化能力弱;空間方法則直接在圖上定義卷積,對有緊密關(guān)系的節(jié)點(diǎn)進(jìn)行操作,分為點(diǎn)分類和圖分類。ST-GCN中的GCN屬于圖分類,且采用的是空間方法。

2.4 ST-GCN

ST-GCN:Spatial Temporal Graph Convolutional Networks時(shí)空圖卷積網(wǎng)絡(luò),是在GCN的基礎(chǔ)上提出的。核心觀點(diǎn)是將TCN與GCN相結(jié)合,用來處理有時(shí)序關(guān)系的圖結(jié)構(gòu)數(shù)據(jù)。網(wǎng)絡(luò)分為2個(gè)部分:GCN_Net與TCN_Net。

GCN_Net對輸入數(shù)據(jù)進(jìn)行空間卷積,即不考慮時(shí)間的因素,卷積作用于同一時(shí)序的不同點(diǎn)的數(shù)據(jù)。TCN_Net對數(shù)據(jù)進(jìn)行時(shí)序卷積,考慮不同時(shí)序同一特征點(diǎn)的關(guān)系,卷積作用于不同時(shí)序同一點(diǎn)的數(shù)據(jù)。

How:ST-GCN具體如何使用?

前部分講了ST-GCN是什么,那我們回歸到ST-GCN的具體應(yīng)用上,首次提出ST-GCN是用來做人體動作識別,即通過一段視頻來判斷其中人的動作,也就是人體動作識別。

數(shù)據(jù)集:論文中使用的數(shù)據(jù)集為NTU-RGB+D,包含60種動作,共56880個(gè)樣本,其中有40類為日常行為動作,9類為與健康相關(guān)的動作,11類為雙人相互動作。數(shù)據(jù)集已經(jīng)將視頻中的人體動作轉(zhuǎn)換為了骨架關(guān)節(jié)的數(shù)據(jù),其中人體的骨架標(biāo)注了25個(gè)節(jié)點(diǎn),就是一種圖結(jié)構(gòu)的數(shù)據(jù)。

NTU-RGB+D數(shù)據(jù)集的分類

亮點(diǎn):

(1) 鄰接矩陣不采用傳統(tǒng)的方式,采用一種新的方式,將鄰接矩陣分為3個(gè)子集:根節(jié)點(diǎn)本身、向心力群,離心群。這一策略的靈感來自于身體部位的運(yùn)動可以被廣泛地歸類為同心運(yùn)動和偏心運(yùn)動,通常距離重心越近,運(yùn)動幅度越小,同時(shí)能更好地區(qū)分向心運(yùn)動和離心運(yùn)動。即下圖中的(d)。

(2) 網(wǎng)絡(luò)中加入可學(xué)習(xí)的邊的權(quán)重,即加入attention機(jī)制。每層網(wǎng)絡(luò)中鄰接矩陣A都與可學(xué)習(xí)的權(quán)重相乘,這些權(quán)重在反向傳播中更新。添加的原因是考慮到人體做不同的動作所側(cè)重的關(guān)節(jié)點(diǎn)不同,而且添加了注意力機(jī)制更有利于提高網(wǎng)絡(luò)的泛化能力。

整體效果:

使用ST-GCN的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行人體動作識別,論文中在NTU-RGB+D數(shù)據(jù)集的x_sub模式下識別精度達(dá)到81.5%,NTU-RGB+D數(shù)據(jù)集的x-view模式下識別精度達(dá)到88.3%,優(yōu)于傳統(tǒng)的人體動作識別網(wǎng)絡(luò)。

團(tuán)隊(duì)工作亮點(diǎn)

ST-GCN的技術(shù)延展-動作生成

基于對ST-GCN在人體動作識別上的效果,我們將ST-GCN網(wǎng)絡(luò)與VAE網(wǎng)絡(luò)結(jié)合。目的在于獲取人體動作的語義,進(jìn)而生成人體的動作,最終可以應(yīng)用于機(jī)器人動作模仿或者其他強(qiáng)化學(xué)習(xí)項(xiàng)目中。

目前項(xiàng)目已在進(jìn)行中,下圖展示的是真實(shí)的人體骨架節(jié)點(diǎn)3D圖與網(wǎng)絡(luò)生成的人體骨架節(jié)點(diǎn)3D圖。具體的研究結(jié)果,之后再跟大家分享,敬請期待。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:探究 | 一文了解基于ST-GCN的人體動作識別與生成

文章出處:【微信號:kmdian,微信公眾號:深蘭科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    ?Diffusion生成動作引擎技術(shù)解析

    Diffusion生成動作引擎 Diffusion生成動作引擎是一種基于擴(kuò)散模型(Diffusion Models)的生成式人工智能技術(shù)
    的頭像 發(fā)表于 03-17 15:14 ?1687次閱讀

    怎樣才能使用NUCLEO-H563ZI 識別ST-LINK ?

    NUCLEO-H563ZI開發(fā)板在接上USB后,ST-LINK 在設(shè)備管理器里面沒有顯示,需要對STLKRST,就是跳線JP3 后拔掉,這是可以識別ST-LINK,然而,用MDK 時(shí),提示
    發(fā)表于 03-14 13:59

    矽典微新品XenD101H人體生命存在感應(yīng)參考設(shè)計(jì)

    靜止人體生命存在毫米波傳感器采用FMCW調(diào)頻連續(xù)波技術(shù),對空間內(nèi)的靜止、微動、運(yùn)動的人體目標(biāo)進(jìn)行探測,通過精確的生命存在感應(yīng)和測距算法,即可獨(dú)立配置區(qū)間感應(yīng)靈敏度,也可以自動化生成傳感器配置參數(shù)
    的頭像 發(fā)表于 12-30 15:29 ?498次閱讀
    矽典微新品XenD101H<b class='flag-5'>人體</b>生命存在感應(yīng)參考設(shè)計(jì)

    ElfBoard開源項(xiàng)目|百度智能云平臺的人識別項(xiàng)目

    百度智能云平臺的人識別項(xiàng)目,旨在利用其強(qiáng)大的人識別服務(wù)實(shí)現(xiàn)自動人臉識別。選擇百度智能云的原因是其高效的API接口和穩(wěn)定的服務(wù)質(zhì)量,能夠幫
    的頭像 發(fā)表于 12-24 10:54 ?1225次閱讀
    ElfBoard開源項(xiàng)目|百度智能云平臺<b class='flag-5'>的人</b>臉<b class='flag-5'>識別</b>項(xiàng)目

    XenD101H | 人體生命存在感應(yīng)參考設(shè)計(jì)

    傳感器特征覆蓋更廣:廣覆蓋兼容掛頂掛壁的檢測方式精準(zhǔn)探測:具備靜臥及睡眠狀態(tài)的人體生命存在感知輕松部署:自動化生成參數(shù)配置,快速適配多樣化場景量產(chǎn)無憂:易用的配套資源,快速導(dǎo)入量
    的頭像 發(fā)表于 12-11 19:16 ?490次閱讀
    XenD101H | <b class='flag-5'>人體</b>生命存在感應(yīng)參考設(shè)計(jì)

    ADS1293獲取的人體心電信號,如何實(shí)現(xiàn)隔直?

    1. ADS1293獲取的人體心電信號,如何實(shí)現(xiàn)隔直?ECG信號沒有隔直處理的話,基線會偏離0電壓位置,并且不同的人在不同的時(shí)間,偏置的電壓不盡相同。 2. ADS1293評估板手冊上,波形十分
    發(fā)表于 12-10 08:25

    使用ADS1298測出的人體心電信號基準(zhǔn)線不在Y=0軸,如何解決呢?

    這是我采用加壓單極左下肢導(dǎo)聯(lián)實(shí)測出的人體心電信號,但是基準(zhǔn)線不在Y=0軸上,而且每次飄忽不定,總需要重新調(diào)整坐標(biāo)軸,大家有沒有什么解決的辦法呢?謝謝啦。
    發(fā)表于 12-03 08:05

    LSM6DSV16X基于MLC智能筆動作識別(4)----中斷獲取智能筆狀態(tài)

    LSM6DSV16X 支持通過中斷(INT)輸出 MLC(機(jī)器學(xué)習(xí)核)識別動作。具體來說,MLC 可以配置為在滿足某些條件或機(jī)器學(xué)習(xí)分類結(jié)果發(fā)生變化時(shí)生成中斷信號。 LSM6DSV16X 的機(jī)器
    的頭像 發(fā)表于 11-25 11:39 ?932次閱讀
    LSM6DSV16X基于MLC智能筆<b class='flag-5'>動作</b><b class='flag-5'>識別</b>(4)----中斷獲取智能筆狀態(tài)

    24G雷達(dá)模塊LD2450 支持人體移動軌跡跟蹤與手勢識別

    24G人體移動軌跡跟蹤雷達(dá)模塊TARGETTRAJECTORYTRACKINGRADARMODULE24GHz雷達(dá)傳感器HLK-LD2450主要用來檢測6米目標(biāo)范圍內(nèi)的人體移動軌跡,支持檢測區(qū)域內(nèi)
    的頭像 發(fā)表于 10-27 08:03 ?1233次閱讀
    24G雷達(dá)模塊LD2450 支持<b class='flag-5'>人體</b>移動軌跡跟蹤與手勢<b class='flag-5'>識別</b>

    如何開發(fā)精確感知手部動作

    你好,我需要能夠精確感知手部動作的傳感器,類似于手機(jī)的觸摸屏,但是是非接觸的,可以識別單機(jī) ,雙擊,放大, 縮小 ,上劃 ,下劃,左劃 ,右劃,選定 , 拖動等動作。有相關(guān)知識,經(jīng)驗(yàn)或者渠道的請與我聯(lián)系,
    發(fā)表于 10-19 09:05

    可穿戴設(shè)備的人體成分測量 (BCM)申請簡介

    電子發(fā)燒友網(wǎng)站提供《可穿戴設(shè)備的人體成分測量 (BCM)申請簡介.pdf》資料免費(fèi)下載
    發(fā)表于 09-10 09:22 ?0次下載
    可穿戴設(shè)備<b class='flag-5'>的人體</b>成分測量 (BCM)申請簡介

    LoRa人體紅外探測器的原理

    人體紅外探測器是一種利用紅外射線感應(yīng)人體的安防設(shè)備,可用于追蹤和檢測人體位置、識別人員身份、監(jiān)測人員活動等。其主要作用如下: 1. 安防監(jiān)控:能夠?qū)崟r(shí)監(jiān)控區(qū)域內(nèi)
    的頭像 發(fā)表于 08-20 15:27 ?602次閱讀
    LoRa<b class='flag-5'>人體</b>紅外探測器的原理

    基于FPGA的人識別技術(shù)

    基于FPGA(現(xiàn)場可編程邏輯門陣列)的人識別技術(shù),是一種結(jié)合了高效并行處理能力和靈活可編程性的先進(jìn)圖像處理解決方案。這種技術(shù)在安全監(jiān)控、身份認(rèn)證、人機(jī)交互等領(lǐng)域具有廣泛應(yīng)用前景。以下將詳細(xì)介紹基于FPGA的人
    的頭像 發(fā)表于 07-17 11:42 ?2102次閱讀

    基于OpenCV的人識別系統(tǒng)設(shè)計(jì)

    基于OpenCV的人識別系統(tǒng)是一個(gè)復(fù)雜但功能強(qiáng)大的系統(tǒng),廣泛應(yīng)用于安全監(jiān)控、人機(jī)交互、智能家居等多個(gè)領(lǐng)域。下面將詳細(xì)介紹基于OpenCV的人識別系統(tǒng)的基本原理、實(shí)現(xiàn)步驟,并附上具體
    的頭像 發(fā)表于 07-11 15:37 ?2.8w次閱讀

    Transformer模型在語音識別和語音生成中的應(yīng)用優(yōu)勢

    隨著人工智能技術(shù)的飛速發(fā)展,語音識別和語音生成作為人機(jī)交互的重要組成部分,正逐漸滲透到我們生活的各個(gè)方面。而Transformer模型,自其誕生以來,憑借其獨(dú)特的自注意力機(jī)制和并行計(jì)算能力,在
    的頭像 發(fā)表于 07-03 18:24 ?2119次閱讀