亚洲最新中文字幕无码,97久久久久久久久久久久,国产在线观看狠友视频在线观看

隨著人工智能技術(shù)的快速發(fā)展，語音成為一種新型的人機(jī)交流方式，如我們手機(jī)上的語音助手Apple Siri、Google Assistant和Microsoft Cortana等，智能音箱Google Home、Amazon Echo、阿里巴巴的天貓精靈和小米的小愛同學(xué)等等。它們方便了人類與機(jī)器交互的同時(shí)，不僅連接了Twitter、Facebook這樣的社交網(wǎng)絡(luò)，也將汽車、智能門鎖和智能電視等物聯(lián)網(wǎng)設(shè)備連接起來。

由此可見，語音交互越來越多地關(guān)系著人們的生命和財(cái)產(chǎn)安全，因此，智能語音的安全性也成為工業(yè)界和學(xué)術(shù)界的研究重點(diǎn)。

圖1 智能語音的應(yīng)用

傳統(tǒng)攻擊通過安裝惡意應(yīng)用和傳播病毒等途徑入侵到系統(tǒng)中，但是如何實(shí)現(xiàn)智能化的攻擊方式還未知。既然聲音成為人機(jī)交互的新型方式，那么利用聲音欺騙人工智能系統(tǒng)成為一種攻擊方法，同時(shí)能夠突破傳統(tǒng)方式需要接觸設(shè)備的局限性。為了在人耳無法覺察的情況下讓智能語音設(shè)備識別出里面的指令，加州伯克利分校和浙江大學(xué)的研究學(xué)者分別將語音信息嵌入到了噪聲和超聲波之中，從而控制智能語音助手和音箱[1][2]。

結(jié)合日常生活中大家喜歡聽音樂的習(xí)慣，中國科學(xué)院信息工程研究所陳愷研究員和波士頓大學(xué)Shengzhi Zhang教授等人實(shí)現(xiàn)了利用音樂為載體攻擊語音識別系統(tǒng)的研究[3]，這種特殊修改過的音樂被稱為是“惡魔音樂”。試想，如果我們在開車或者家中聽的廣播是攻擊者精心制作的“惡魔音樂”，人耳聽起來并不能覺察出什么異常，但是智能語音系統(tǒng)卻能識別出其中“開門”的控制命令，那么將對我們的安全構(gòu)成難以控制的威脅。

圖2 “惡魔音樂”在人們享受音樂的時(shí)候與智能語音系統(tǒng)對話

對抗攻擊：類似于生活中人類感觀誤識別的問題，智能系統(tǒng)也有一定的誤判。因此，研究者想到通過對一個(gè)正常樣本做微小的修改，然后在人們感觀覺察不出來有什么差異的情況下對智能系統(tǒng)造成對抗攻擊，這種欺騙人工智能系統(tǒng)的特殊樣本被稱為是“對抗樣本”。從2013年開始大家特別關(guān)注對抗攻擊，利用梯度下降算法自動(dòng)化地在原始樣本上加微小擾動(dòng)形成對抗樣本，在人類無法覺察的同時(shí)讓機(jī)器識別錯(cuò)誤，從而造成逃逸攻擊。

圖3 對抗樣本攻擊

針對智能語音的對抗攻擊：如果把語音識別系統(tǒng)看成一個(gè)API 接口，音頻以wav格式為代表，那么音頻wav有兩種途徑傳輸給語音識別系統(tǒng)API（1）直接輸入（2）播放音樂并通過實(shí)際應(yīng)用環(huán)境中的物理設(shè)備采集之后再輸入給API。因此，對抗樣本攻擊分別可以視為“Wav-to-API（WTA）攻擊”和“Wav-air-API(WAA)攻擊”。

圖4 “惡魔音樂”直接上傳給語音識別API的WTA攻擊

圖5 “惡魔音樂”在實(shí)際環(huán)境中播放再由智能設(shè)備采集識別的

WAA攻擊

智能語音對抗攻擊存在下面四個(gè)挑戰(zhàn)：

自動(dòng)化：需要找到合適的目標(biāo)函數(shù)，利用梯度下降方法在原始樣本上添加擾動(dòng)逼近目標(biāo)函數(shù)，使最終生成的對抗樣本可以被識別為特殊的文本結(jié)果。

物理攻擊：實(shí)際應(yīng)用中播放、錄音設(shè)備以及周圍環(huán)境噪聲會對樣本的特征造成干擾，難以實(shí)現(xiàn)物理攻擊。

隱蔽性：在保證成功率的前提下盡可能小地修改原始樣本，逃過人耳的覺察。

遷移性：在一個(gè)平臺上攻擊成功的對抗樣本同樣可能攻擊其他平臺，但是由于平臺之間的差異性，樣本的遷移性通常比較低。

語音識別原理

傳統(tǒng)語音識別包括特征提取、聲學(xué)模型和語言模型三個(gè)模塊。其中特征提取是對時(shí)域信號分幀并計(jì)算每幀的頻域特征，通過一系列的變換最終得到模擬人耳的聽覺特征。聲學(xué)模型描述的是特征的統(tǒng)計(jì)特性和實(shí)際發(fā)聲的音素對應(yīng)關(guān)系，音素是組成單詞的最小單元，這一模型由神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到。由于語言有一定的語法、詞法規(guī)則，人們訓(xùn)練出語言模型表示音素、字、詞、句之間的關(guān)聯(lián)關(guān)系，語言模型由加權(quán)有限狀態(tài)轉(zhuǎn)換器表示。具體來看這個(gè)語音識別過程：首先提取音頻的特征向量，然后計(jì)算觀察狀態(tài)的統(tǒng)計(jì)特性，對應(yīng)出這些狀態(tài)代表音素的可能性概率值，進(jìn)而計(jì)算音素上下文關(guān)聯(lián)的狀態(tài)轉(zhuǎn)換關(guān)系，最后計(jì)算出特征向量對應(yīng)音素序列概率最大的路徑，這個(gè)路徑對應(yīng)的句子就是識別（解碼）結(jié)果。

圖6 語音識別原理

音頻直接上傳給系統(tǒng)的WTA攻擊

語音識別不同于圖像識別的是：聲學(xué)模型需要結(jié)合后面的語言模型共同決定識別結(jié)果，而且由于發(fā)音的延續(xù)性，語音識別受一定的上下文關(guān)系影響。由于語言模型結(jié)構(gòu)復(fù)雜，攻擊者可以首先逆向分析出什么樣的聲學(xué)模型輸出結(jié)果（神經(jīng)網(wǎng)絡(luò)的計(jì)算結(jié)果）一定會被解碼成目標(biāo)文本，然后以這樣的輸出結(jié)果作為目標(biāo)函數(shù)修改原始音頻，直到生成的對抗樣本達(dá)到或者非常接近這個(gè)目標(biāo)，那么這個(gè)對抗樣本就能夠被識別為想要的文本。確定目標(biāo)函數(shù)后，進(jìn)一步用梯度下降算法修改x(t)逼近這個(gè)目標(biāo)函數(shù)，從而生成修改幅度較小的對抗樣本x‘(t)=x(t)+δ(t)，即直接將音頻上傳給語音識別系統(tǒng)API的WTA攻擊已經(jīng)成功。

圖7 WTA攻擊原理圖

物理世界的WAA攻擊

考慮到實(shí)際生活應(yīng)用中，音樂通常是被播放出來再被語音識別系統(tǒng)錄音接收的，這里播放和錄音設(shè)備的電子噪聲以及環(huán)境的背景噪聲均會對嵌入音頻的特征進(jìn)行破壞，直接的辦法是在對抗樣本生成過程中引入“噪聲模型”模擬這種影響。即在對抗樣本生成過程中加入模擬的噪聲，保證這樣之后仍然能夠被系統(tǒng)識別為目標(biāo)指令，那么嵌入到音樂中的音頻特征就足夠強(qiáng)到可以抵抗實(shí)際噪聲的破壞。但是由于對實(shí)際應(yīng)用中噪聲建模需要大量工作，可以采用“隨機(jī)噪聲”代替，從而很大程度上簡化噪聲模型的構(gòu)建過程，同時(shí)由于隨機(jī)噪聲不拘泥于模擬特殊的設(shè)備和環(huán)境影響，這種方式生成的對抗樣本具有更強(qiáng)的適應(yīng)能力，可以很好地實(shí)現(xiàn)多種設(shè)備及多種環(huán)境下的物理攻擊。

圖8 WAA攻擊原理圖

智能語音安全問題越來越多地受人們重視，本文介紹了一種針對傳統(tǒng)語音識別的對抗攻擊方法。通過逆向分析語音識別算法，挖掘深度神經(jīng)網(wǎng)絡(luò)的脆弱性，然后采用梯度下降算法自動(dòng)化地修改音樂生成對抗樣本，即生成“惡魔音樂”在人們無法覺察的情況下攻擊語音識別系統(tǒng)。進(jìn)一步通過引入噪聲模型模擬實(shí)際應(yīng)用場景中設(shè)備和環(huán)境噪聲的影響，提升對抗樣本的魯棒性，從而能夠在實(shí)際應(yīng)用中攻擊商業(yè)化平臺（如科大訊飛的訊飛輸入法），而且這種攻擊通過網(wǎng)絡(luò)或者無線信號傳播之后攻擊仍然有效。

對抗樣本是人工智能安全應(yīng)用的一個(gè)重要威脅，挖掘深度學(xué)習(xí)算法的脆弱性，研究深度學(xué)習(xí)的對抗攻防技術(shù)對于人工智能落地具有重要意義。目前來看，提高對抗樣本的隱蔽性、遷移性和物理攻擊成功率還有很遠(yuǎn)的路要走。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴