寫在前面
能獲得企業(yè)大獎其實是出乎預(yù)料的,論復(fù)雜程度我自己認(rèn)為可能也無法比的上其他學(xué)校的朋友們的(不過是因為今年沒有線下交流,著實無法看到大家的作品),但我覺得組委會能選擇我們組作為企業(yè)大獎,可能也是想通過我們來拓寬大家的思路,而并不一定是我們的作品做的是多么完美。
學(xué)習(xí)了近幾年ARM杯的作品,感覺大家都是在同一個領(lǐng)域做文章(當(dāng)然去年那組BLDC的hxd例外),那就是視覺和圖像處理方面。這方面感覺大家做的都非常好了,無論是用現(xiàn)成的算法拆分成verilog中的矩陣運算,還是利用HLS這類高層次綜合工具,我覺得如果繼續(xù)做視覺方面的內(nèi)容我們可能再怎么努力也無法達到他人積累多年經(jīng)驗的程度,所以我們選擇換一個角度。
人類有五種感官,嗅覺和味覺目前來說無法做到輔助(笑,還剩下聽覺、視覺和觸覺,視覺被我們直接否定了,那么觸覺呢?目前高精度的傳感器也不是我們能企及做到的了,這和生物醫(yī)學(xué)電子有關(guān),那么我們的眼前就只有一個選擇了:聽覺。
這也正是我們選擇做這個系統(tǒng)的原因之一,還有一個原因是我們能感覺得到現(xiàn)在的消費電子都逐漸在向聲學(xué)方面走,例如蘋果的HomePod,華為的Sound X,還有小米最近剛推出的小米Sound,這些都是非常高端的走計算聲學(xué)方向的家居產(chǎn)品,它們的受眾非常廣,而且在這兩年疫情的影響下,更多的人會選擇在線會議,那么一個優(yōu)秀的聲學(xué)處理裝置就顯得更為重要了。
1.設(shè)計簡介
1.1 總體介紹
本作品是基于Coretex-M3 Design Start的語音識別和聲源定位識別系統(tǒng),包括Digilent NexysVideo開發(fā)板、自制麥克風(fēng)矩陣模塊、ESP8266無線互聯(lián)模塊、LCD屏幕、載體小車以及安卓端APP組成。
本系統(tǒng)在Xilinx Artix-7中搭建ARM Cortex-M3軟核作為中央處理器,使用自制的MEMS硅片麥克風(fēng)陣列作為聲音信號采集器,利用Artix-7中自帶的XADC將麥克風(fēng)輸出的模擬量信號轉(zhuǎn)換為數(shù)字信號并通過AXI4-FULL傳輸給DDR3控制器,DDR3控制器根據(jù)用戶的控制選擇輸入和輸出,當(dāng)開始語音識別后,將開啟后1s內(nèi)的數(shù)據(jù)從DDR3中直接利用Burst讀入語音識別模塊,該模塊利用HLS綜合,包括語音的MFCC特征提取、BP神經(jīng)網(wǎng)絡(luò)的執(zhí)行等過程,將最終得出的語音識別結(jié)果保存在寄存器中并能使CPU通過AXI4-Lite讀取;當(dāng)開啟聲源定位后,數(shù)據(jù)利用AXI4-Stream直接搬移到算法電路模塊,對四路麥克風(fēng)同時進行流水線處理,經(jīng)過信號的處理和變換后得到聲源方位數(shù)據(jù)通過UART串口輸出到ESP8266,ESP8266利用局域網(wǎng)將數(shù)據(jù)傳至安卓APP。
有一點我們的體會可以分享給其他朋友們,如果我們在一段時間內(nèi)只需要處理一段定長的數(shù)據(jù),那么我們可以不利用DMA,而是僅僅利用AXI的Burst傳輸即可,例如采集1s的信號寸到DDR中一段連續(xù)區(qū)域以后,將這些的音頻信號數(shù)據(jù)整個Burst到加速器中,這樣可以充分發(fā)揮總線橋的作用,并節(jié)省一個DMA的資源,還可以減小數(shù)據(jù)搬移過來過去的時延。
1.2 硬件架構(gòu)
在本系統(tǒng)中,由于最終制作的語音識別加速器和聲源定位加速器都使用AXI系列總線配置寄存器和讀寫數(shù)據(jù),同時DDR3由AXI總線接口的MIG管理,因此為了方便實用和同一總線,使整個架構(gòu)簡潔,我們將除了ITCM和DTCM外的所有外設(shè)連接在由AHB轉(zhuǎn)換之后的AXI總線橋上。
1.3 語音識別加速器
語音識別采用的方案是利用MFCC提取特征,之后利用BP神經(jīng)網(wǎng)絡(luò)擬合特征系數(shù)對應(yīng)的神經(jīng)網(wǎng)絡(luò)隱含層參數(shù)。首先輸入的語音數(shù)據(jù)從DDR經(jīng)過Burst傳輸?shù)叫盘柼幚砟K中,經(jīng)過預(yù)處理(去工頻噪聲、音量均衡)后提取MFCC,再利用BP網(wǎng)絡(luò)將MFCC系數(shù)與訓(xùn)練過的語句一一對應(yīng)輸出對應(yīng)的結(jié)果。語音識別的網(wǎng)絡(luò)的權(quán)重參數(shù)采用的是MATLAB離線訓(xùn)練的方法,然后把訓(xùn)練的權(quán)重數(shù)據(jù)保存在coe文件中,利用HLS綜合出IP。
流程圖如下:
1.4 聲源定位加速器
聲源定位加速器融合了TDOA(Time Difference of Arrival 到達時間差)和空域波束指向性加權(quán)的方法。
由四個全向性麥克風(fēng)M1, M2, M3, M4組成的差分麥克風(fēng)列,如圖2.10所示。四麥克風(fēng)等間隔的分布在直徑為D的圓周上。
差分麥克風(fēng)陣列的輸出信號包括原點處的聲壓信號和原點處振速的兩個正交分量,可以得到聲源在原點處的聲強,進而由聲強的方向得到目標(biāo)方位的估計值。需要指出的是,基于聲強估計的聲源定位方法通常只適用于單聲源的情況。同時,對于全向麥克風(fēng)而言(不同于“心”形指向麥克風(fēng)),并沒有對特定角度的聲源信號進行增強或削弱,這就使得在進行聲源定位時往往受到其他方向的干擾。采用空域波束指向性加權(quán)的方法,可以只增強期望方向上的信號,削弱其他方向上的干擾信號,提高信干比,使得輸出結(jié)果中特定方向上的信息能量增大。
2.作品外觀和使用體驗
作品成品外觀如下:
審核編輯 :李倩
-
語音識別
+關(guān)注
關(guān)注
39文章
1782瀏覽量
114250 -
識別系統(tǒng)
+關(guān)注
關(guān)注
1文章
154瀏覽量
19152 -
CORETEX
+關(guān)注
關(guān)注
0文章
2瀏覽量
6444
原文標(biāo)題:【2021集創(chuàng)賽作品分享】第三期 | Cortex-M3語音識別聲源定位系統(tǒng)
文章出處:【微信號:Ithingedu,微信公眾號:安芯教育科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
基于FPGA的數(shù)字識別系統(tǒng)設(shè)計

鐵路車號識別系統(tǒng)的基本原理與應(yīng)用


岸橋箱號識別系統(tǒng):精準(zhǔn)高效,穩(wěn)定可靠#岸橋識別系統(tǒng) #岸橋理貨系統(tǒng) #岸橋箱號識別系統(tǒng)

手持火車號識別系統(tǒng)能識別哪些類型的火車#手持火車號識別設(shè)備 #手持終端火車號識別系統(tǒng)
工地AI行為識別系統(tǒng)作用
景區(qū)AI行為識別系統(tǒng)作用

工廠園區(qū)AI行為識別系統(tǒng)作用

岸橋箱號識別系統(tǒng)的應(yīng)用場景#岸橋箱號識別軟件 #岸橋箱號識別系統(tǒng) #岸橋集裝箱號識別 #海關(guān)岸橋箱號識別


孚為智能岸橋識別系統(tǒng)實現(xiàn)秒級精準(zhǔn)理貨 #岸橋集裝箱號碼識別系統(tǒng) #集裝箱岸橋理貨軟件 #AI岸橋識別系統(tǒng)

火車車號識別系統(tǒng)的工作原理 #火車車號識別系統(tǒng) #火車車號識別器 #火車車號識別裝置 #火車車號識別

新唐科技基于NuMaker-M55M1平臺的人臉識別系統(tǒng)
RFID識別系統(tǒng)

評論