科學(xué)家們通過記錄海洋、叢林、森林以及其他自然環(huán)境中的動(dòng)物聲音來研究本地的動(dòng)物種群已有30多年的歷史了。他們利用這些結(jié)果來評(píng)估人為噪音對(duì)自然環(huán)境的影響,監(jiān)控瀕危動(dòng)物種群和調(diào)查動(dòng)物之間的交流。由于缺少高級(jí)算法和處理能力,科學(xué)家們面對(duì)被動(dòng)的聲學(xué)監(jiān)控系統(tǒng)產(chǎn)生的數(shù)百萬兆聲音數(shù)據(jù),通常1%都處理不了。
挑戰(zhàn)
康奈爾鳥類學(xué)實(shí)驗(yàn)室研究生物聲學(xué)的科學(xué)家們必須應(yīng)對(duì)來天氣、其他動(dòng)物和附近機(jī)械及車輛的噪音。同一物種動(dòng)物聲音存在的個(gè)體差異增加了復(fù)雜性。噪音和變化性這兩個(gè)因素增加了漏報(bào)和誤報(bào)的數(shù)量,使檢測(cè)算法的準(zhǔn)確性下降。
另一個(gè)挑戰(zhàn)是處理BRP正在收集的數(shù)億兆的數(shù)據(jù)。一個(gè)典型的項(xiàng)目包括處理在多個(gè)信道上記錄的數(shù)年的原始聲學(xué)數(shù)據(jù)(高達(dá)10TB)。每個(gè)信道均可采集數(shù)億的事件——在頻譜圖上發(fā)生突變的聲音數(shù)據(jù)。將在小型高質(zhì)量樣本上測(cè)試的算法應(yīng)用于噪音更大的較大數(shù)據(jù)集時(shí)往往不太準(zhǔn)確。
最后,BRP分析工具必須服務(wù)于廣泛的研究計(jì)劃、環(huán)境和移動(dòng)需求。Clark博士說:“回答我們的初始研究問題經(jīng)常會(huì)通向?qū)⒁剿鞯娜骂I(lǐng)域,我們需要能夠處理需求的突然變化。"
解決方案
BRP數(shù)據(jù)科學(xué)家們使用MATLAB開發(fā)高性能計(jì)算 (HPC) 軟件以自動(dòng)處理聲學(xué)數(shù)據(jù)。
檢測(cè)分類項(xiàng)目首先是收集希望檢測(cè)到的動(dòng)物音頻剪輯、動(dòng)物所處環(huán)境中的背景噪音剪輯以及歸檔的聲學(xué)數(shù)據(jù)的MAT文件。使用MATLAB時(shí),他們開發(fā)新算法或優(yōu)化現(xiàn)有算法,在與剪輯目錄相似的歸檔數(shù)據(jù)中檢測(cè)音頻順序。
這些算法使用Image Processing Toolbox和Signal Processing Toolbox支持的模式匹配、邊緣檢測(cè)、連接的區(qū)域分析、卷積和其他技術(shù)以及Fuzzy Logic Toolbox和Neural Network Toolbox支持的機(jī)器學(xué)習(xí)技術(shù)。為了評(píng)估算法的準(zhǔn)確性,科學(xué)家使用Statistics Toolbox來計(jì)算受試者工作特征 (ROC) 和其他性能曲線。
使用Parallel Computing Toolbox在小型數(shù)據(jù)集上調(diào)試和優(yōu)化算法后,科學(xué)家們使用MATLAB Distributed Computing Server在64個(gè)worker的集群上對(duì)所有存檔數(shù)據(jù)進(jìn)行了運(yùn)算。
BRP團(tuán)隊(duì)開發(fā)了一個(gè)MATLAB界面,使科學(xué)家可以指定算法、數(shù)據(jù)集和處理器的數(shù)量。除了檢測(cè)和分類算法外,BRP使用MATLAB進(jìn)行噪音分析和聲學(xué)建模,在這個(gè)過程中他們采集海洋或陸地環(huán)境的時(shí)間和頻率分布影響并進(jìn)行仿真。
結(jié)果
將開發(fā)時(shí)間縮短了數(shù)年。Dugan博士說:“對(duì)預(yù)測(cè)成本的一項(xiàng)研究顯示,如果我們必須依靠自己來完成這些任務(wù),那么開發(fā)我們所需的這種HPC平臺(tái)將花費(fèi)三年的時(shí)間和100萬美元的成本,并且還需要許多的外部幫助。而借助Parallel Computing Toolbox和MATLAB Distributed Computing Server后,我們不到三個(gè)月就完成了平臺(tái)的開發(fā)?!?/p>
分析時(shí)間從幾周縮減為幾小時(shí)。Dugan博士說:“使用我們的一個(gè)算法處理90的數(shù)據(jù)需要19周的時(shí)間。而借助Parallel Computing Toolbox和MATLAB Distributed Computing Server后,我們?cè)诩荷现挥昧?個(gè)小時(shí)便完成了同一個(gè)分析?!?/p>
在幾天內(nèi)完成以前未能處理的數(shù)據(jù)的分析。Dugan博士說:“一個(gè)數(shù)據(jù)集采集了100,000小時(shí)的聲音。它是如此巨大以至于以前我們連1%都處理不了,根據(jù)預(yù)估,需要一年或更長(zhǎng)的時(shí)間來處理剩余的數(shù)據(jù)。而借助我們的MATLAB HPC平臺(tái)后,在兩天內(nèi),我們對(duì)該數(shù)據(jù)進(jìn)行了六次處理,且每次均使用了不同的檢測(cè)算法?!?/p>
-
數(shù)據(jù)采集
+關(guān)注
關(guān)注
40文章
7187瀏覽量
116535 -
高性能
+關(guān)注
關(guān)注
0文章
220瀏覽量
20942 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8503瀏覽量
134648
發(fā)布評(píng)論請(qǐng)先 登錄
中科曙光攜手中山大學(xué)附屬第一醫(yī)院打造精準(zhǔn)醫(yī)學(xué)高性能計(jì)算平臺(tái)
中科曙光構(gòu)建全國(guó)產(chǎn)化基因組學(xué)高性能計(jì)算平臺(tái)
高性能計(jì)算集群在AI領(lǐng)域的應(yīng)用前景

使用樹莓派構(gòu)建 Slurm 高性能計(jì)算集群:分步指南!

中科曙光助力中國(guó)農(nóng)大生物高性能平臺(tái)落地
高性能計(jì)算面臨的芯片挑戰(zhàn)

中科曙光助力中國(guó)商飛高性能計(jì)算平臺(tái)落地
Triton編譯器在高性能計(jì)算中的應(yīng)用
SiFive 推出高性能 Risc-V CPU 開發(fā)板 HiFive Premier P550

AI高性能計(jì)算平臺(tái)是什么
科研計(jì)算HPC平臺(tái)是什么
利用NVIDIA RAPIDS加速DolphinDB Shark平臺(tái)提升計(jì)算性能

名單公布!【書籍評(píng)測(cè)活動(dòng)NO.43】 算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析
如何理解云計(jì)算?
帶你了解什么是高性能計(jì)算(HPC)

評(píng)論