前言
計(jì)算機(jī)視覺可以學(xué)習(xí)美式手語(yǔ),進(jìn)而幫助聽力障礙群體嗎?數(shù)據(jù)科學(xué)家David Lee用一個(gè)項(xiàng)目給出了答案。
如果聽不到了,你會(huì)怎么辦?如果只能用手語(yǔ)交流呢?
當(dāng)對(duì)方無(wú)法理解你時(shí),即使像訂餐、討論財(cái)務(wù)事項(xiàng),甚至和朋友家人對(duì)話這樣簡(jiǎn)單的事情也可能令你氣餒。對(duì)普通人而言輕輕松松的事情對(duì)于聽障群體可能是很困難的,他們甚至還會(huì)因此遭到歧視。
在很多場(chǎng)景下,他們無(wú)法獲取合格的翻譯服務(wù),從而導(dǎo)致失業(yè)、社會(huì)隔絕和公共衛(wèi)生問(wèn)題。為了讓更多人聽到聽障群體的聲音,數(shù)據(jù)科學(xué)家 David Lee 嘗試?yán)脭?shù)據(jù)科學(xué)項(xiàng)目來(lái)解決這一問(wèn)題:計(jì)算機(jī)視覺可以學(xué)習(xí)美式手語(yǔ),進(jìn)而幫助聽力障礙群體嗎?
如果通過(guò)機(jī)器學(xué)習(xí)應(yīng)用可以精確地翻譯美式手語(yǔ),即使從最基礎(chǔ)的字母表開始,我們也能向著為聽力障礙群體提供更多的便利和教育資源前進(jìn)一步。
數(shù)據(jù)和項(xiàng)目介紹
出于多種原因,David Lee決定創(chuàng)建一個(gè)原始圖像數(shù)據(jù)集。首先,基于移動(dòng)設(shè)備或攝像頭設(shè)置想要的環(huán)境,需要的分辨率一般是720p或1080p?,F(xiàn)有的幾個(gè)數(shù)據(jù)集分辨率較低,而且很多不包括字母「J」和「Z」,因?yàn)檫@兩個(gè)字母需要一些動(dòng)作才能完成。
為此,David Lee 在社交平臺(tái)上發(fā)送了手語(yǔ)圖像數(shù)據(jù)收集請(qǐng)求,介紹了這個(gè)項(xiàng)目和如何提交手語(yǔ)圖像的說(shuō)明,希望借此提高大家的認(rèn)識(shí)并收集數(shù)據(jù)。
數(shù)據(jù)變形和過(guò)采樣
David Lee 為該項(xiàng)目收集了 720 張圖片,其中還有幾張是他自己的手部圖像。由于這個(gè)數(shù)據(jù)集規(guī)模較小,于是 David 使用 labelImg 軟件手動(dòng)進(jìn)行邊界框標(biāo)記,設(shè)置變換函數(shù)的概率以基于同一張圖像創(chuàng)建多個(gè)實(shí)例,每個(gè)實(shí)例上的邊界框有所不同。下圖展示了數(shù)據(jù)增強(qiáng)示例:
經(jīng)過(guò)數(shù)據(jù)增強(qiáng)后,該數(shù)據(jù)集的規(guī)模從 720 張圖像擴(kuò)展到 18,000 張圖像。
建模
David 選擇使用 YOLOv5 進(jìn)行建模。將數(shù)據(jù)集中 90% 的圖像用作訓(xùn)練數(shù)據(jù),10% 的圖像用作驗(yàn)證集。使用遷移學(xué)習(xí)和 YOLOv5m 預(yù)訓(xùn)練權(quán)重訓(xùn)練 300 個(gè) epoch。
在驗(yàn)證集上成功創(chuàng)建具備標(biāo)簽和預(yù)測(cè)置信度的新邊界框。
由于損失值并未出現(xiàn)增長(zhǎng),表明模型未過(guò)擬合,因此該模型或許可以訓(xùn)練更多輪次。模型最終獲得了 85.27% 的 mAP@.5:.95 分?jǐn)?shù)。
圖像推斷測(cè)試
David 額外收集了他兒子的手部圖像數(shù)據(jù)作為測(cè)試集。事實(shí)上,還沒有兒童手部圖像用于訓(xùn)練該模型。理想情況下,再多幾張圖像有助于展示模型的性能,但這只是個(gè)開始。
26 個(gè)字母中,有 4 個(gè)沒有預(yù)測(cè)結(jié)果(分別是 G、H、J 和 Z)。四個(gè)沒有得到準(zhǔn)確預(yù)測(cè):
D 被預(yù)測(cè)為 F;
E 被預(yù)測(cè)為 T;
P 被預(yù)測(cè)為 Q;
R 被預(yù)測(cè)為 U。
視頻推斷測(cè)試
即使只有幾個(gè)手部圖像用于訓(xùn)練,模型仍能在如此小的數(shù)據(jù)集上展現(xiàn)不錯(cuò)的性能,而且還能以一定的速度提供優(yōu)秀的預(yù)測(cè)結(jié)果,這一結(jié)果表現(xiàn)出了很大的潛力。更多數(shù)據(jù)有助于創(chuàng)建可在多種新環(huán)境中使用的模型。如以上視頻所示,即使字母有一部分出框了,模型仍能給出不錯(cuò)的預(yù)測(cè)結(jié)果。最令人驚訝的是,字母 J 和 Z 也得到了準(zhǔn)確識(shí)別。
其他測(cè)試
執(zhí)行其他一些測(cè)試,例如:左手手語(yǔ)測(cè)試
幾乎所有原始圖像都顯示的是右手,但驚喜地發(fā)現(xiàn)數(shù)據(jù)增強(qiáng)在這里起到了作用,因?yàn)橛?50% 的可能性是針對(duì)左手用戶進(jìn)行水平翻轉(zhuǎn)。
兒童手語(yǔ)測(cè)試
兒童的手語(yǔ)數(shù)據(jù)未被用于訓(xùn)練集,但模型對(duì)此仍有不錯(cuò)的預(yù)測(cè)。
多實(shí)例
盡管手語(yǔ)的使用和視頻中有所不同,但這個(gè)示例表明當(dāng)多個(gè)人出現(xiàn)在屏幕上時(shí),模型可以分辨出不止一個(gè)手語(yǔ)實(shí)例。
模型局限性
發(fā)現(xiàn)該模型還有一些地方有待改進(jìn)。
距離
許多原始圖像是用手機(jī)拍攝的,手到攝像頭的距離比較近,這對(duì)遠(yuǎn)距離推斷有一定負(fù)面影響。
新環(huán)境
這支視頻來(lái)自于志愿者,未用于模型訓(xùn)練。盡管模型看到過(guò)很多字母,但對(duì)此的預(yù)測(cè)置信度較低,還有一些錯(cuò)誤分類。
背景推斷
該測(cè)試旨在驗(yàn)證不同的背景會(huì)影響模型的性能。
結(jié)論
這個(gè)項(xiàng)目表明:計(jì)算機(jī)視覺可用于幫助聽力障礙群體獲取更多便利和教育資源!該模型在僅使用小型數(shù)據(jù)集的情況下仍能取得不錯(cuò)的性能。即使對(duì)于不同環(huán)境中的不同手部,模型也能實(shí)現(xiàn)良好的檢測(cè)結(jié)果。
而且一些局限性是可以通過(guò)更多訓(xùn)練數(shù)據(jù)得到解決的。經(jīng)過(guò)調(diào)整和數(shù)據(jù)集的擴(kuò)大,該模型或許可以擴(kuò)展到美式手語(yǔ)字母表以外的場(chǎng)景。
責(zé)任編輯:lq
-
手勢(shì)識(shí)別
+關(guān)注
關(guān)注
8文章
228瀏覽量
48286 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
9文章
1708瀏覽量
46770 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1224瀏覽量
25444
原文標(biāo)題:YOLOv5的項(xiàng)目實(shí)踐 | 手勢(shì)識(shí)別項(xiàng)目落地全過(guò)程(附源碼)
文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
英飛凌邊緣AI平臺(tái)通過(guò)Ultralytics YOLO模型增加對(duì)計(jì)算機(jī)視覺的支持

AR和VR中的計(jì)算機(jī)視覺

中山大學(xué):基于定制裂紋設(shè)計(jì)的超靈敏透氣水凝膠纖維應(yīng)變傳感器及無(wú)線手語(yǔ)識(shí)別應(yīng)用

量子計(jì)算機(jī)與普通計(jì)算機(jī)工作原理的區(qū)別

【小白入門必看】一文讀懂深度學(xué)習(xí)計(jì)算機(jī)視覺技術(shù)及學(xué)習(xí)路線

計(jì)算機(jī)接口位于什么之間
簡(jiǎn)述計(jì)算機(jī)總線的分類
晶體管計(jì)算機(jī)和電子管計(jì)算機(jī)有什么區(qū)別
ARMxy ARM嵌入式計(jì)算機(jī)搭載 1 TOPS NPU支持深度學(xué)習(xí)

計(jì)算機(jī)視覺有哪些優(yōu)缺點(diǎn)
圖像處理器與計(jì)算機(jī)視覺有什么關(guān)系和區(qū)別
計(jì)算機(jī)視覺中的圖像融合

地平線科研論文入選國(guó)際計(jì)算機(jī)視覺頂會(huì)ECCV 2024

評(píng)論