自動(dòng)語音識(shí)別( ASR )正在成為日常生活的一部分,從與數(shù)字助理交互到聽寫文本信息。由于以下方面的最新進(jìn)展, ASR 研究繼續(xù)取得進(jìn)展:
ASR 為多個(gè)架構(gòu)建模以滿足需求
在特定行業(yè)的行話、語言、口音和方言方面具有定制靈活性
云、預(yù)部署或混合部署選項(xiàng)
這篇文章首先介紹了常見的 ASR 應(yīng)用程序,然后介紹了兩個(gè)初創(chuàng)公司,他們正在探索 ASR 作為核心產(chǎn)品功能的獨(dú)特應(yīng)用。
語音識(shí)別系統(tǒng)的工作原理
自動(dòng)語音識(shí)別 或語音識(shí)別,是計(jì)算機(jī)系統(tǒng)從音頻中破譯口語單詞和短語并將其轉(zhuǎn)錄成書面文本的能力。開發(fā)人員也可以將 ASR 稱為語音到文本,不要與文本到語音( TTS )混淆。
ASR 系統(tǒng)的文本輸出可能是語音 AI 接口的最終產(chǎn)品,或 會(huì)話人工智能 系統(tǒng)可能會(huì)消耗文本。
常見 ASR 應(yīng)用
ASR 已經(jīng)成為新型交互式產(chǎn)品和服務(wù)的網(wǎng)關(guān)。即使現(xiàn)在,您也可以考慮使用下面詳細(xì)介紹的用例的品牌系統(tǒng):
現(xiàn)場(chǎng)字幕和轉(zhuǎn)錄
實(shí)時(shí)字幕和轉(zhuǎn)錄是兄弟。兩者之間的主要區(qū)別是字幕產(chǎn)生字幕 根據(jù)需要,為流媒體電影等視頻節(jié)目直播。相比之下,轉(zhuǎn)錄可以在現(xiàn)場(chǎng)或批處理模式下進(jìn)行,其中錄制的音頻片段的轉(zhuǎn)錄速度比實(shí)時(shí)快幾個(gè)數(shù)量級(jí)。
虛擬助理和聊天機(jī)器人
虛擬助手和聊天機(jī)器人與人們互動(dòng),既提供幫助,也提供娛樂。他們可以從用戶輸入的文本或 ASR 系統(tǒng)接收基于文本的輸入,因?yàn)?ASR 系統(tǒng)識(shí)別并輸出用戶的單詞。
助手和機(jī)器人需要足夠快地向用戶發(fā)出響應(yīng),因此處理延遲是不可察覺的。響應(yīng)可能是純文本、合成語音或圖像。
語音命令和聽寫
語音命令和聽寫系統(tǒng)是社交媒體平臺(tái)和醫(yī)療行業(yè)使用的常見 ASR 應(yīng)用。
為了提供一個(gè)社交媒體示例,在移動(dòng)設(shè)備上錄制視頻之前,用戶可能會(huì)發(fā)出語音命令以激活美容過濾器:“給我紫色頭發(fā)”。該社交網(wǎng)絡(luò)應(yīng)用程序涉及一個(gè)支持 ASR 的子系統(tǒng),該子系統(tǒng)以命令的形式接收用戶的話語,同時(shí)應(yīng)用程序同時(shí)處理攝像機(jī)輸入并應(yīng)用過濾器進(jìn)行屏幕顯示。
聽寫系統(tǒng)存儲(chǔ)語音中的文本,擴(kuò)展了 語音人工智能系統(tǒng) 超越命令。為了提供醫(yī)療保健行業(yè)的一個(gè)例子,醫(yī)生口述包含醫(yī)學(xué)術(shù)語和名稱的語音注釋。準(zhǔn)確的文本輸出可以添加到患者電子病歷中的就診摘要中。
獨(dú)特的 ASR 應(yīng)用
除了這些常見用例之外,研究人員和企業(yè)家正在探索各種獨(dú)特的 ASR 應(yīng)用。以下兩個(gè)初創(chuàng)公司正在開發(fā)以新穎方式使用該技術(shù)的產(chǎn)品。
互動(dòng)學(xué)習(xí): Tarteel AI
ASR 的創(chuàng)造性應(yīng)用開始出現(xiàn)在教育材料中,特別是以互動(dòng)學(xué)習(xí)的形式出現(xiàn)在兒童和成人中。
挑戰(zhàn)和解決辦法
雖然應(yīng)用程序現(xiàn)在運(yùn)行順利,但 Tarteel 面臨著一系列艱難的初始挑戰(zhàn)。首先,古蘭經(jīng)阿拉伯語沒有合適的 ASR 模型,最初迫使塔特爾嘗試通用 ASR 模型。
Tarteel Anas-Abou Allaban 的聯(lián)合創(chuàng)始人兼首席執(zhí)行官說:“我們從設(shè)備上的語音人工智能框架開始,就像智能手機(jī)一樣,但它們的設(shè)計(jì)更多是為了命令和短句,而不是精確的背誦?!薄!八鼈円膊皇巧a(chǎn)級(jí)別的工具,甚至不接近?!?/p>
為了克服這一挑戰(zhàn), Tarteel 構(gòu)建了一個(gè)自定義數(shù)據(jù)集來完善現(xiàn)有的 ASR 模型,以滿足應(yīng)用程序的性能目標(biāo)。然后,在他們的下一個(gè)原型中, ASR 模型確實(shí)以較低的字錯(cuò)誤率( WER )運(yùn)行,但仍不能滿足應(yīng)用程序的實(shí)際精度和延遲要求。
阿拉班指出,他在一些電話會(huì)議記錄中看到了 10-15% 的正確率,但在古蘭經(jīng)研究中看到高正確率是另一回事。他說,應(yīng)用程序中超過 300 毫秒的處理延遲“變得非常煩人”。
Tarteel 通過調(diào)整其在 NVIDIA NeMo 框架中的 ASR 模型并在使用 Riva 在 Triton 推理服務(wù)器上部署之前使用 TensorRT 進(jìn)一步優(yōu)化其延遲來應(yīng)對(duì)這些挑戰(zhàn)。
數(shù)字人類服務(wù):Ex-human
創(chuàng)業(yè)公司 Ex human 正在創(chuàng)造超現(xiàn)實(shí)的數(shù)字人 與模擬人(你和我)互動(dòng)。他們目前的重點(diǎn)是為娛樂利基開發(fā) B2B 數(shù)字人類服務(wù),使之能夠創(chuàng)建具有獨(dú)特個(gè)性、知識(shí)和現(xiàn)實(shí)說話聲音的聊天機(jī)器人或游戲角色。
在公司 Botify AI 應(yīng)用 ,人工智能實(shí)體包括名人,通過口頭和圖形交互與用戶互動(dòng),無論您是在智能手機(jī)聊天窗口中打字還是使用語音。 NVIDIA Riva 自動(dòng)語音識(shí)別為數(shù)字人類的自然語言處理子系統(tǒng)提供文本輸入,作為大型語言模型( LLM )的一部分。
為了使虛擬交互可信,需要精確和快速的 ASR 。由于 LLM 是計(jì)算密集型的,并且需要大量的處理資源,因此對(duì)于交互來說,它們可能運(yùn)行得太慢。
例如, Botify AI 應(yīng)用最先進(jìn)的 TTS 來產(chǎn)生語音音頻響應(yīng),進(jìn)而使用另一種 AI 模型驅(qū)動(dòng)面部動(dòng)畫。該團(tuán)隊(duì)觀察到,當(dāng)響應(yīng)的周轉(zhuǎn)時(shí)間短于約三分之一秒時(shí),機(jī)器人與用戶的可信交互處于最佳狀態(tài)。
挑戰(zhàn)和解決辦法
雖然 Botify 人工智能正在努力彌合人工智能生成的真實(shí)視頻與真實(shí)人類之間的差距,但 Ex-human 團(tuán)隊(duì)對(duì)其客戶行為數(shù)據(jù)的分析感到驚訝。“他們正在打造自己的新動(dòng)漫人物,”Ex-human 的創(chuàng)始人兼首席執(zhí)行官阿泰姆·羅迪切夫( Artem Rodichev )說。
通過使用為 Botify AI 生態(tài)系統(tǒng)微調(diào)的 ASR 模型,用戶可以與自己喜愛的個(gè)性進(jìn)行交流或創(chuàng)建自己的個(gè)性。在上傳自定義人臉的背景下,構(gòu)建新動(dòng)畫角色的令人驚訝的模式出現(xiàn)了,通過自定義角色將對(duì)話帶入生活。 Rodichev 解釋說,他的團(tuán)隊(duì)需要快速調(diào)整他們的人工智能模型,以處理例如在風(fēng)格上只是一個(gè)點(diǎn)或一條線的嘴。
Rodichev 和他的團(tuán)隊(duì)通過仔細(xì)選擇工具和 SDK 以及評(píng)估并行處理的機(jī)會(huì),克服了 Ex-human 架構(gòu)中的許多挑戰(zhàn)。 Rodichev 警告說:“由于延遲非常重要,我們使用 NVIDIA TensorRT 優(yōu)化了 ASR 模型和其他模型,并依賴于 Triton 推理服務(wù)器?!?/p>
Botify AI 用戶是否準(zhǔn)備好與數(shù)字人類而不是模擬人類互動(dòng)?數(shù)據(jù)顯示,用戶平均每天花 40 分鐘與 Botify 人工智能數(shù)字人在一起,在這段時(shí)間內(nèi)發(fā)送他們最喜歡的數(shù)百條信息。
開始使用 ASR
您可以開始在自己的設(shè)計(jì)和項(xiàng)目中包括 ASR 功能,從免提語音命令到實(shí)時(shí)轉(zhuǎn)錄。 Riva 等高級(jí) SDK 在世界級(jí)的準(zhǔn)確性、速度、延遲和易集成性方面表現(xiàn)出高性能,所有這些都與您的新想法一致。
關(guān)于作者
David Taubenheim 是 NVIDIA Inception 項(xiàng)目的高級(jí)解決方案架構(gòu)師,該項(xiàng)目是初創(chuàng)企業(yè)的加速器。他目前的技術(shù)重點(diǎn)領(lǐng)域是加速計(jì)算和對(duì)話 AI 使能器。 David 擁有國立技術(shù)大學(xué)的電氣工程碩士學(xué)位和伊利諾伊大學(xué)香檳分校的電氣工程學(xué)士學(xué)位。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5309瀏覽量
106424 -
語音識(shí)別
+關(guān)注
關(guān)注
39文章
1782瀏覽量
114249
發(fā)布評(píng)論請(qǐng)先 登錄
普強(qiáng)信息入選2024語音識(shí)別技術(shù)公司TOP30榜單
廠家芯資訊|廣州唯創(chuàng)電子語音識(shí)別芯片技術(shù)解析

語音識(shí)別技術(shù)在通信領(lǐng)域中的應(yīng)用實(shí)例
詳解語音識(shí)別技術(shù)在通信領(lǐng)域中的應(yīng)用

領(lǐng)先技術(shù)的語音識(shí)別芯片,探索NRK3502芯片的技術(shù)特點(diǎn)
基于語音識(shí)別的智能會(huì)議系統(tǒng)具備哪些交互功能
語音識(shí)別技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用
語音識(shí)別在智能家居中的應(yīng)用
語音識(shí)別與自然語言處理的關(guān)系
語音識(shí)別技術(shù)的應(yīng)用與發(fā)展
ASR與傳統(tǒng)語音識(shí)別的區(qū)別
ASR語音識(shí)別技術(shù)應(yīng)用
基于Arm Neoverse N2實(shí)現(xiàn)自動(dòng)語音識(shí)別技術(shù)



評(píng)論