微軟院士：Speech DDK技能太強了，語音識別超專業(yè)翻譯人士水平

【導(dǎo)讀】2016年152層殘差網(wǎng)絡(luò)圖像識別精準(zhǔn)率96%，2017年語音識別基準(zhǔn)測試誤差率5.1%，2018年1月文本理解測試精準(zhǔn)率88.5%，3月機器翻譯研究系統(tǒng)精準(zhǔn)率達到69.9%，12月語音合成測試版在Azure正式上線，并首次達到超過專業(yè)翻譯人士的水平，微軟人工智能（AI）再次刷新世界紀(jì)錄。

12月18日，在IoT In Ac tion峰會上，微軟全球資深院士首席語音科學(xué)家黃學(xué)東博士介紹智能語音和語言上的最新進展。首款媲美專業(yè)發(fā)音人的實時在線語音合成系統(tǒng)預(yù)覽版在Azure上正式運營服務(wù)。

黃學(xué)東博士表示，微軟在云服務(wù)上提供了世界級的語音合成服務(wù)，所有的互聯(lián)網(wǎng)內(nèi)容提供商都可以享受這個世界級的技術(shù)。它不僅解決了過去20年機器語音識別錯誤率居高不下的難題，更是人工智能語音和語言上的一次歷史性突破——采用先進深度網(wǎng)絡(luò)學(xué)習(xí)，簡化了傳統(tǒng)語音合成的架構(gòu)。

從以上圖片可以看出，左邊紫色系統(tǒng)架構(gòu)下，微軟通過端到端的深度學(xué)習(xí)優(yōu)化，為大家提供前所未有的、最自然的語音合成系統(tǒng)。

“基于神經(jīng)網(wǎng)絡(luò)的語音合成系統(tǒng)”是業(yè)界第一個實時的在語音上上線的人工智能服務(wù)。黃學(xué)東博士指出，大家可以享受更好的語音合成質(zhì)量、更快的引擎性能、更廣的全球服務(wù)部署。所有的內(nèi)容提供商，不管是有沒有音頻、你的內(nèi)容都可以轉(zhuǎn)換成自然的聲音表達，不管是在開車還是在睡覺，都可以享受高質(zhì)量的交互。

同時，微軟聯(lián)合全球合作伙伴一起推出強大的語音麥克風(fēng)陣列開發(fā)系統(tǒng)（Speech Devices SDK簡稱Speech DDK），它可以在25m之外都可以轉(zhuǎn)寫你的聲音，DDK不僅可供用戶免費使用，還可以整合到任何硬件設(shè)備中去，通過微軟云服務(wù)為用戶提供最先進的、世界一流的語音交互服務(wù)。

DDK讓智能音箱“說話”。這是一款眼觀六路的智能音箱系統(tǒng)，為企業(yè)級的會議轉(zhuǎn)寫提供前所未有的智能服務(wù)。

可以看到，它不僅僅是業(yè)界第一臺多人原場會議轉(zhuǎn)錄系統(tǒng)，而且是業(yè)界第一臺“睜開雙眼”的智能音箱。

隨著語音識別技術(shù)不斷取得進步。放眼未來，各國間的語言溝通障礙不再有任何問題，人類離人工智能真正的目標(biāo)又將推進一小步。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

微軟

微軟

+關(guān)注

關(guān)注
4

文章
6686

瀏覽量
105771
神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4814

瀏覽量
103631
語音識別

語音識別

+關(guān)注

關(guān)注
39

文章
1782

瀏覽量
114246
人工智能

人工智能

+關(guān)注

關(guān)注
1807

文章
49028

瀏覽量
249551
語音合成

語音合成

+關(guān)注

關(guān)注
2

文章
92

瀏覽量
16499