99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌語音輸入法可離線識別啦!

電子工程師 ? 來源:lp ? 2019-03-15 10:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

谷歌語音輸入法可離線識別啦!

這次出手的,又是谷歌 AI 團隊。剛剛,他們?yōu)槠煜碌囊豢?a target="_blank">手機輸入法 Gboard (不要跟谷歌拼音輸入法搞混了啊~)上線了新功能:離線語音識別。目前這一新功能,只能在其自家的產品 Pixel 系列手機上使用。

廣大已經下載或正在趕往下載路上的 Pixel 圈外人士,包括 iOS 用戶可能都會失望了。

他們是這樣描述這款新功能的配置的:端到端、全神經、本地部署的語音識別系統(tǒng)。

在其最近的論文 “Streaming End-to-End Speech Recognition for Mobile Devices” 中,他們提出了一種基于 RNN-T(RNN transducer)的訓練模型。

它非常緊湊,可滿足在手機上部署。這意味著不會出現(xiàn)太多網(wǎng)絡延遲或紊亂,即使用戶處于脫機狀態(tài),這款語音識別系統(tǒng)也始終可用。該模型始終以字符級工作, 因此即便你說話,它也會逐個字符地輸出單詞,就好像有人在實時鍵入并準確在虛擬鍵盤聽寫出你說的話。

例如,下面兩張圖片中展示的是在聽寫系統(tǒng)中輸入相同句子時的情況展示:左側為服務器端,右側為本地端。哪邊的語音識別體驗更好呢?

總結起來就是,“離線狀態(tài)下,沒有任何延遲。”這也是谷歌此次亮出的大殺器。

發(fā)生延遲是因為你的語音數(shù)據(jù)必須從手機傳輸?shù)椒掌魃希馕鐾瓿珊笤俜祷?。這可能需要幾毫秒甚至幾秒的時間。萬一語音數(shù)據(jù)包在以太網(wǎng)中丟失,則需要更長的時間。

將語音轉換成毫秒級的文本需要相當多的計算力。這不只簡單是聽到聲音然后寫一個單詞那么簡單,而是需要理解一個人講話的含義,以及背后涉及的很多有關語言和意圖的上下文語境。

在手機上是可以做到這一點的,但如此的話,又會很損耗電池電量。

語音識別模型簡史

一般來講,語音識別系統(tǒng)由幾個部分組成:將音頻片段(通常為 10 毫秒幀)映射到音素的聲學模型、將音素連接起來形成單詞的發(fā)聲模型,以及一個表達給定模型的語言模型。在早期系統(tǒng),這些組件是相對獨立優(yōu)化的。

2014 年左右,研究人員開始專注于訓練單個神經網(wǎng)絡,將輸入音頻波形直接映射到輸出句子。通過在給定一系列音頻特征的情況下生成一系列單詞或字形來學習模型,這種 sequence-to-sequence 的方法促使了 attention-based 和 listen-attend-spell(LAS)模型的誕生。雖然這些模型在準確性方面表現(xiàn)出極大的前景,但它們通常會檢查整個輸入序列,并且在輸入時不允許輸出,這是實時語音轉錄的必要特征。

同時,一種稱為 connectionist temporal classification(CTC)的技術有助于減少當時識別系統(tǒng)的延時問題。這對于后來創(chuàng)建 RNN-T 架構是一次重要的里程碑,也被看作是 CTC 技術的一次泛化。

(編者注:CTC,其全稱為 Connectionist Temporal Classfication,由 Graves 等人于 2006 年提出,用于訓練遞歸神經網(wǎng)絡(RNN)以解決時序可變的序列問題。它可用于在線手寫識別或識別語音音頻中音素等任務。發(fā)展到如今,CTC 早已不是新名詞,它在工業(yè)界的應用十分成熟。例如,在百度近日公布的在線語音識別輸入法中,其最新語音模型在CTC 的基礎上還融合了 Attention 等新技術。)

何為RNN-T?

RNN-T 是一種不采用注意力機制的 sequence-to-sequence 模型。與大多數(shù) sequence-to-sequence 模型(通常需要處理整個輸入序列(在語音識別中即是波形)以產生輸出句子)不同,RNN-T 會連續(xù)處理輸入樣本和流輸出符號。

輸出符號是字母表的字符。RNN-T 會逐個輸出字符,并在適當?shù)奈恢幂斎肟崭?。它通過反饋循環(huán)執(zhí)行此操作,該訓練將模型預測的符號反饋到其中以預測下一個符號。如下圖所示。

用輸入音頻樣本 x 和預測符號 y 表示 RNN-T。預測符號(Softmax 層的輸出)通過預測網(wǎng)絡反饋到模型中。

有效訓練這樣的模型已經很困難,但隨著新開發(fā)的訓練技術進一步將單詞錯誤率降低了 5%,它的計算強度變得更高。為了解決這個問題,研究人員開發(fā)了一個并行實現(xiàn)過程,因此 RNN-T 損失功能可以在 Google Cloud TPU v2 上大批量運行。訓練中實現(xiàn)了大約 3 倍的加速。

離線識別

在傳統(tǒng)的語音識別引擎中,聲學、發(fā)聲和語音模型組合成一個大的圖搜索(search graph),其邊緣用語音單元及其概率標記。當語音波形呈現(xiàn)給識別系統(tǒng)時,“解碼器”在給定輸入信號的情況下會搜索圖中相似度最高的路徑,并讀出該路徑所采用字序列。通常,解碼器采用基礎模型的有限狀態(tài)傳感器(Finite State Transducer, FST)表示。然而,盡管有復雜的解碼技術,圖搜索仍很困難,因為生產模型幾乎有 2GB 大小。這可不是在移動電話上想托管就可以實現(xiàn)的,因此這種方法需要在線連接才能正常使用。

為了提高語音識別的有效性,研究人員嘗試直接在設備上托管新模型以避免通信網(wǎng)絡的延遲和固有的不可靠性。因此,端到端的方法不需要在大型解碼器圖上進行搜索。相反,解碼器包括通過單個神經網(wǎng)絡的集束搜索(beam search)。RNN-T 與傳統(tǒng)的基于服務器端的模型具有相同的精度,但前者只有 450MB,而且更加智能地使用參數(shù)和打包信息。但即便在如今的智能手機上,450MB 還是占用了很大的空間,例如通過大型網(wǎng)絡是信號傳播可能會很慢。

因此,研究人員通過使用參數(shù)量化和混合內核技術進一步減小了模型大小。這項技術早在 2016 年就已發(fā)布,并在 TensorFlow Lite 版本中提供公開的模型優(yōu)化工具包。模型量化相對于訓練的浮點模型提供 4 倍壓縮,在運行時實現(xiàn)了 4 倍加速,這使得 RNN-T 比單核上的實時語音運行得更快。壓縮后,最終模型大小只占 80MB。

效果如何?

谷歌公開這一新功能后,TechCrunch 評論稱,“鑒于 Google 的其他產品幾乎沒有是離線工作的,那么你會在離線狀態(tài)下寫一封電子郵件嗎?當然,在網(wǎng)絡條件不好的情況下,這款應用新功能可能會解決了用戶痛點,但顯然,這還是有點諷刺(雞肋)。”

而這也一度吸引來了 HackerNews 上不少用戶評論,他們也將部分矛頭指向了所謂的“離線功能”:

“離線功能雖然不是最主要的吸引力,但正如本文中提到的,延遲問題的減少是巨大的。他們可能沒有提及的是對隱私問題的影響。不過,用戶一般不會離線處理事物,但如果需要來回的穩(wěn)定數(shù)據(jù)包流,連接網(wǎng)絡也是很麻煩的問題?!?/p>

不過,經過嘗試后的用戶還是非??春茫骸拔抑皇菍⑽业?Pixel1 代切換到飛行模型,并嘗試了語音輸入。果然,它的離線工作速度很快!這令人非常印象深刻(我之前嘗試過,但過去它只能理解一些特殊的短語。)

有多好方法可以實現(xiàn)這一功能呢,但我認為任何應用都能從這次語音的改進中受益?!?/p>

為此,營長也特意下載了 Gboard、訊飛、百度三家語音輸入法,試看它們在飛行模式下的效果如何。

Round 1

Gboard:目前非 Pixel 手機中離線語音尚無法使用,且針對某些機型甚至不支持語音。不過,打字還是比較絲滑流暢的。

Round 2

訊飛:可下載離線語音包,不過在正常網(wǎng)絡通暢情況下,語音識別的速度和準確性還是相當高的。

Round 3

百度:也可下載離線語音,無網(wǎng)絡連接狀態(tài)下,語音識別效果還是可以的。

不知國內經常使用訊飛、百度輸入法的小伙伴們,看到這一消息有何想法?歡迎留言。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6231

    瀏覽量

    108167
  • 輸入法
    +關注

    關注

    0

    文章

    48

    瀏覽量

    9921
  • 語音識別
    +關注

    關注

    39

    文章

    1782

    瀏覽量

    114250

原文標題:Google又逆天:語音輸入離線實時輸出文字,僅占80MB!然而……

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Quartus II原理圖輸入法教程

    電子發(fā)燒友網(wǎng)站提供《Quartus II原理圖輸入法教程.ppt》資料免費下載
    發(fā)表于 06-18 17:58 ?0次下載

    Linux系統(tǒng)安裝中文環(huán)境和中文輸入法(下),觸覺智能嵌入式開發(fā)板

    觸覺智能經驗分享,Linux系統(tǒng)安裝中文環(huán)境和中文輸入法(下)
    的頭像 發(fā)表于 02-26 16:26 ?533次閱讀
    Linux系統(tǒng)安裝中文環(huán)境和中文<b class='flag-5'>輸入法</b>(下),觸覺智能嵌入式開發(fā)板

    Linux系統(tǒng)安裝中文環(huán)境和中文輸入法(上),觸覺智能嵌入式開發(fā)板

    觸覺智能經驗分享,Linux系統(tǒng)安裝中文環(huán)境和中文輸入法(上)
    的頭像 發(fā)表于 02-26 16:23 ?625次閱讀
    Linux系統(tǒng)安裝中文環(huán)境和中文<b class='flag-5'>輸入法</b>(上),觸覺智能嵌入式開發(fā)板

    空調語音控制方案NRK3501語音識別芯片-讓智能生活觸手及!

    NRK3501語音識別芯片支持離線語音控制空調,精準識別,遠場降噪,最多支持200條離線指令,5
    的頭像 發(fā)表于 01-07 11:40 ?718次閱讀
    空調<b class='flag-5'>語音</b>控制方案NRK3501<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片-讓智能生活觸手<b class='flag-5'>可</b>及!

    離線語音識別技術引領智能語音燈具市場——NRK3502

    智能語音燈具集高科技與人性化設計,內置NRK3502離線語音識別芯片,支持遠場識別與自定義指令,提供便捷智能體驗,推動智能家居行業(yè)發(fā)展。
    的頭像 發(fā)表于 12-30 15:04 ?767次閱讀
    <b class='flag-5'>離線</b><b class='flag-5'>語音</b><b class='flag-5'>識別</b>技術引領智能<b class='flag-5'>語音</b>燈具市場——NRK3502

    NRK3502系列芯片 | 制氧機離線語音識別方案

    NRK3502芯片制氧機離線語音識別方案制氧機離線語音識別方案是基于NRK3502藍牙雙模智能
    的頭像 發(fā)表于 12-04 01:02 ?490次閱讀
    NRK3502系列芯片 | 制氧機<b class='flag-5'>離線</b><b class='flag-5'>語音</b><b class='flag-5'>識別</b>方案

    【AWTK使用經驗】如何使用系統(tǒng)輸入法與開啟最大化窗口功能

    在Windows運行的桌面程序。在使用AWTK開發(fā)Windows平臺程序時,有些用戶可能想使用系統(tǒng)自帶的輸入法,而不是AWTK內置的輸入法。此時需要對項目應用類型進行一些設置
    的頭像 發(fā)表于 11-14 01:05 ?662次閱讀
    【AWTK使用經驗】如何使用系統(tǒng)<b class='flag-5'>輸入法</b>與開啟最大化窗口功能

    微軟拼音輸入法導致KiCad卡死

    “?在Windows10切換到微軟拼音輸入法,即使是英文輸入狀態(tài),操作KICAD會隨機卡死?,F(xiàn)象是鼠標沒反應了,啥也做不了,只能結束進程。” 問題描述 在KiCad 6及之后的版本中,當IME為
    的頭像 發(fā)表于 11-12 12:23 ?1256次閱讀
    微軟拼音<b class='flag-5'>輸入法</b>導致KiCad卡死

    EVS103智能純離線語音識別芯片介紹

    算法與芯片架構深度融合,為客戶提供 Turnkey 語音識別方案,可廣泛且快速應用于各類帶電池的小家電、可穿戴設備、玩具、單火線供電設備、86盒等需要語音操控的產品。該方案支持50條本地指令
    的頭像 發(fā)表于 11-11 11:34 ?910次閱讀
    EVS103智能純<b class='flag-5'>離線</b><b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片介紹

    影響離線語音識別靈敏度的因素

    有用戶反饋離線語音識別不靈敏,跟著筆者一起分析原因吧。筆者知識能力有限,難免會誤,還請大家批評指正。
    的頭像 發(fā)表于 10-25 17:13 ?1874次閱讀
    影響<b class='flag-5'>離線</b><b class='flag-5'>語音</b><b class='flag-5'>識別</b>靈敏度的因素

    TLV320AIC3204N1_L有語音輸入、IN1_R沒語音輸入時,采集IN1_R的數(shù)據(jù)聲音是IN1_L端的聲音,為什么?

    使用方式:IN1_L與IN1_R分別單端輸入,DSP模式與DSP5509進行數(shù)據(jù)交互。當IN1_L有語音輸入、IN1_R沒語音輸入時,采集IN1_R的數(shù)據(jù),發(fā)現(xiàn)聲音是IN1_L端的聲音。請問是什么原因呢?或者有什么解決辦法嗎?
    發(fā)表于 10-16 06:16

    物聯(lián)網(wǎng)系統(tǒng)智能控制產品的語音識別方案_離線語音識別芯片分析

    01 物聯(lián)網(wǎng)系統(tǒng)中為什么要使用離線語音識別芯片 物聯(lián)網(wǎng)系統(tǒng)中使用離線語音識別芯片的原因主要基于以
    的頭像 發(fā)表于 09-26 17:56 ?1605次閱讀
    物聯(lián)網(wǎng)系統(tǒng)智能控制產品的<b class='flag-5'>語音</b><b class='flag-5'>識別</b>方案_<b class='flag-5'>離線</b><b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片分析

    瑞芯微RK3566鴻蒙開發(fā)板Android11修改第三方輸入法為默認輸入法

    本文適用于觸覺智能所有支持Android11系統(tǒng)的開發(fā)板修改第三方輸入法為默認輸入法。本次使用的是觸覺智能的Purple Pi OH鴻蒙開源主板,搭載了瑞芯微RK3566芯片,類樹莓派設計,是Laval官方社區(qū)主薦的一款鴻蒙開發(fā)板。
    的頭像 發(fā)表于 09-24 09:43 ?1108次閱讀
    瑞芯微RK3566鴻蒙開發(fā)板Android11修改第三方<b class='flag-5'>輸入法</b>為默認<b class='flag-5'>輸入法</b>

    智能玩具用離線語音識別芯片有什么優(yōu)勢

    隨著科技的發(fā)展,很多智能電子產品和兒童玩具實現(xiàn)了與人類的交互,語音芯片在這些人機交互中起到了不可替代的作用,語音識別芯片在智能玩具中的應用就為其帶來了更多的優(yōu)勢。?離線
    的頭像 發(fā)表于 09-20 10:00 ?719次閱讀
    智能玩具用<b class='flag-5'>離線</b><b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片有什么優(yōu)勢

    什么是離線語音識別芯片?與在線語音識別的區(qū)別

    離線語音識別芯片適用于智能家電等,特點為小詞匯量、低成本、安全性高、響應快,無需聯(lián)網(wǎng)。在線語音識別功能更廣泛、
    的頭像 發(fā)表于 07-22 11:33 ?958次閱讀