99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

妥妥媲美真人!火山語音發(fā)布超自然對(duì)話語音合成技術(shù)

話說科技 ? 來源:話說科技 ? 作者:話說科技 ? 2022-09-16 10:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近期,網(wǎng)上就出現(xiàn)了這樣一段由兩位女聲組合而成的音頻片段。在音頻中,兩位女生追憶了自己當(dāng)年第一次聽到周杰倫的心情,還對(duì)周董的音樂風(fēng)格進(jìn)行了解讀,兩人一問一答,時(shí)長長達(dá)近3分鐘。

可是,當(dāng)大家聽著這段音頻節(jié)目,也沉浸在對(duì)那時(shí)青蔥歲月的美好追憶時(shí),你可曾想到,這段對(duì)話,竟然是語音合成的!

提到“語音合成”,你腦海中可能會(huì)出現(xiàn)這樣的種種:

·導(dǎo)航中種類豐富但語氣機(jī)械的“前方路口左轉(zhuǎn)”

·接電話時(shí),對(duì)面笨拙無感情的“您好,這里是xx信用卡中心

·視頻網(wǎng)站上,十個(gè)解說視頻九個(gè)聲音相同,看到就想趕快劃走的“注意看,這個(gè)男人叫小帥”…...

而如今,語音合成技術(shù)竟然已經(jīng)能達(dá)到“天衣無縫”的完美自然效果,就好像真人在對(duì)話一樣,直接顛覆了許多人的刻板印象。而這段音頻的發(fā)布者火山語音,字節(jié)跳動(dòng) AI Lab Speech & Audio 智能語音與音頻團(tuán)隊(duì),為了更好地向大眾解密里面的技術(shù)亮點(diǎn),又提供了兩段音頻——一段,是傳統(tǒng)的語音合成技術(shù)效果,另一段,卻來自火山語音的全新技術(shù)。兩段音頻輸入的文本完全相同—— “南方菜系偏愛蘸料,例如我第一次去上海才知道燒烤里的蔬菜也需要配蘸料” ,但聽上去,合成的音頻效果卻有明顯差異,第二段來源于火山語音團(tuán)隊(duì)的音頻,用上了本次上新的超自然對(duì)話語音合成技術(shù),格外自然,幾乎與真人無異。

回想一下人在日常表達(dá)時(shí)的狀態(tài),大腦處理信息是需要思考時(shí)間的。體現(xiàn)到語言上,人就會(huì)不由自主的出現(xiàn)一些猶豫、拖音、倒裝,甚至是說了一半改口、結(jié)巴重復(fù)的情況,也會(huì)刻意加重讀音強(qiáng)調(diào)想表達(dá)的重點(diǎn)信息。這就帶來了大量難以觀測的細(xì)微表達(dá)。這些現(xiàn)象在傳統(tǒng)的TTS中難以被捕捉還原。而這些細(xì)微之處的完美復(fù)現(xiàn)正是讓聲音真假難辨的奧妙之源,也是上述音頻的奧秘所在。

具體來說,火山語音團(tuán)隊(duì)最新發(fā)布的超自然對(duì)話語音合成技術(shù)相較傳統(tǒng)TTS更加真實(shí)自然,即語氣詞、吸氣聲、猶豫時(shí)的停頓以及字音拖長等細(xì)節(jié)統(tǒng)統(tǒng)被完美復(fù)現(xiàn),而且只需常規(guī)音庫1/4數(shù)據(jù),就可完美還原真人說話細(xì)微的韻律特點(diǎn)、發(fā)音口癖,讓合成效果更加真實(shí)。有專業(yè)評(píng)測結(jié)果顯示,火山語音的這項(xiàng)新技術(shù)與真人錄音對(duì)比基本沒有差距,難以被評(píng)測者分辨出來。此外這項(xiàng)技術(shù)目前已在視頻配音、電話客服等多個(gè)場景投入應(yīng)用,近日即將上線火山引擎語音技術(shù)官網(wǎng)對(duì)外露出。

這么厲害的技術(shù),究竟是怎么辦到的?

據(jù)介紹,上述這些在實(shí)際交流中經(jīng)常出現(xiàn)的倒吸氣、吞音、思考時(shí)不由自主的拖長字音、低笑等表現(xiàn)被稱為副語言現(xiàn)象(paralanguage),盡管這是人腦思考、表達(dá)過程中最真實(shí)的表現(xiàn),但由于傳統(tǒng)的語音合成技術(shù)框架無法對(duì)分布稀疏的副語言現(xiàn)象進(jìn)行有效建模,所以在說話時(shí)的韻律還原度表現(xiàn)有限、過于“正確”。

基于上述難點(diǎn),火山語音超自然語音合成技術(shù)分別從文本和語音建模兩個(gè)層面進(jìn)行突破,具體來說:

·在文本層面,火山語音采用了生成式的風(fēng)格遷移模型,模仿真人說話的方式對(duì)文本進(jìn)行可控的口語化轉(zhuǎn)寫,讓文本更好地?fù)肀Э谡Z化,避免最終效果太過書面。

·在語音層面,團(tuán)隊(duì)則是通過文本分析模型的突破,在TTS的輸入側(cè)額外增加了副語言預(yù)測,模仿真人的發(fā)音特點(diǎn)來實(shí)現(xiàn)自然自發(fā)的語音效果。

值得一提的是,團(tuán)隊(duì)通過使用無監(jiān)督特征的TTS建模方案,有效提高了模型的穩(wěn)定性與表現(xiàn)力,僅僅使用常規(guī)音庫1/4的數(shù)據(jù)規(guī)模,就可以實(shí)現(xiàn)十分自然多變的韻律效果,很贊吧?

article-body

致力文本口語化 讓“擬真人表達(dá)”躍然紙上

文本作為語音合成技術(shù)的輸入,其風(fēng)格是否貼近真人的表達(dá)方式,是合成效果提升的第一步;但受限于根深蒂固的書寫用語習(xí)慣,大多數(shù)合成前的文本并不夠自然,或者需要投入大量精力不斷調(diào)整,費(fèi)時(shí)費(fèi)力。為了解決此類問題,火山語音團(tuán)隊(duì)采用了兩階段方案并取得了不錯(cuò)的效果:

·階段一:采用自監(jiān)督方法,使用偽數(shù)據(jù)對(duì)口語化模型進(jìn)行預(yù)訓(xùn)練,降低了數(shù)據(jù)量的需求;同時(shí)在模型中引入了指針網(wǎng)絡(luò)結(jié)構(gòu),增強(qiáng)了文本可控性。

·階段二:利用少量優(yōu)質(zhì)的人工標(biāo)注數(shù)據(jù),對(duì)預(yù)訓(xùn)練好的口語化模型進(jìn)行微調(diào),最終實(shí)現(xiàn)可控的、自然的口語化文本效果。

article-body

為了更好地還原真人,區(qū)別于傳統(tǒng)的語音合成技術(shù),火山語音在副語言建模和韻律多樣性上也分別進(jìn)行了深入研究。在副語言建模方面,團(tuán)隊(duì)推出的合成技術(shù)實(shí)現(xiàn)了聲學(xué)模型對(duì)自然表達(dá)中出現(xiàn)的吸氣、笑聲、猶豫、修正等多種副語言現(xiàn)象建模,并且結(jié)合文本的語義信息自動(dòng)插入副語言現(xiàn)象。在插入過程中同時(shí)考慮合理性與隨機(jī)性,表現(xiàn)更加自然真實(shí)。

副語言建模+韻律多樣性可圈可點(diǎn) 語音真實(shí)感全面升級(jí)

“在韻律多樣化的探究中,我們結(jié)合無監(jiān)督表征學(xué)習(xí)技術(shù),自主研發(fā)了高表現(xiàn)力的聲學(xué)模型框架,通過發(fā)音、韻律、音色解耦等方式,不但降低了數(shù)據(jù)量的需求,實(shí)現(xiàn)對(duì)出現(xiàn)頻率極低發(fā)音現(xiàn)象的高效建模;同時(shí)使用無監(jiān)督表征特征并結(jié)合音素級(jí)別的基頻、能量信息等,實(shí)現(xiàn)了韻律的自然多變,促成高質(zhì)量對(duì)話語音生成?!被鹕秸Z音團(tuán)隊(duì)總結(jié)道。

article-body

火山語音,字節(jié)跳動(dòng)AI Lab Speech&Audio智能語音與音頻團(tuán)隊(duì),長期以來面向抖音、剪映、番茄小說、飛書等業(yè)務(wù)提供領(lǐng)先的AI語音技術(shù)能力及全棧語音產(chǎn)品解決方案,并通過火山引擎向外部企業(yè)開放技術(shù)服務(wù)。(作者:張揚(yáng))

審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Air8000 TTS開源,語音合成從此“零距離”!

    技術(shù)不應(yīng)有圍墻,創(chuàng)新需要共生長。Air8000宣布TTS應(yīng)用源代碼全面開放,開發(fā)者可自由定制語音風(fēng)格、優(yōu)化合成效果,讓文字與聲音的對(duì)話,不再受限于黑箱算法。 TTS (Text-to-
    的頭像 發(fā)表于 07-03 16:33 ?199次閱讀
    Air8000 TTS開源,<b class='flag-5'>語音</b><b class='flag-5'>合成</b>從此“零距離”!

    明遠(yuǎn)智睿SSD2351開發(fā)板:語音機(jī)器人領(lǐng)域的變革力量

    ,提高語音識(shí)別的準(zhǔn)確率;同時(shí)也可連接高質(zhì)量的揚(yáng)聲器,確保語音合成后的聲音清晰、自然。TF卡接口能夠存儲(chǔ)大量的語音數(shù)據(jù)、
    發(fā)表于 05-28 11:36

    大模型時(shí)代的新燃料:大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)集

    大模型充分學(xué)習(xí)到語音的發(fā)音規(guī)律、語義特征、語境等信息,從而提升語音識(shí)別、語音合成等關(guān)鍵能力,提供更加準(zhǔn)確、自然、智能的
    的頭像 發(fā)表于 04-30 16:17 ?270次閱讀

    智能收銀語音交互新標(biāo)桿—WT3000T8語音合成芯片TTS技術(shù)應(yīng)用解析

    一、行業(yè)應(yīng)用背景在零售業(yè)態(tài)智能化轉(zhuǎn)型的浪潮中,收銀設(shè)備正經(jīng)歷從功能型向服務(wù)型轉(zhuǎn)變的關(guān)鍵階段。WT3000T8語音合成芯片應(yīng)運(yùn)而生,專為滿足新零售場景下智能收銀終端的語音交互需求而設(shè)計(jì)。該芯片通過創(chuàng)新
    的頭像 發(fā)表于 04-24 08:45 ?272次閱讀
    智能收銀<b class='flag-5'>語音</b>交互新標(biāo)桿—WT3000T8<b class='flag-5'>語音</b><b class='flag-5'>合成</b>芯片TTS<b class='flag-5'>技術(shù)</b>應(yīng)用解析

    話語音配線架怎么接線

    話語音配線架的接線方法主要根據(jù)線纜類型、配線架規(guī)格及具體應(yīng)用場景選擇直接連接、跳線連接等方式,并需遵循色譜線序規(guī)范進(jìn)行打線操作。以下為具體步驟: 一、接線前的準(zhǔn)備工作 工具與材料準(zhǔn)備 工具:剝線鉗
    的頭像 發(fā)表于 04-10 10:36 ?720次閱讀

    【CW32模塊使用】語音合成播報(bào)模塊

    SYN6288E 中文語音合成芯片是北京宇音天下科技有限公司在 2010 年初推出的一款性/價(jià)比更高的 SYN6288 芯片的基礎(chǔ)上更改封裝方式的,效果更自然的一款中高端語音
    的頭像 發(fā)表于 03-29 17:25 ?641次閱讀
    【CW32模塊使用】<b class='flag-5'>語音</b><b class='flag-5'>合成</b>播報(bào)模塊

    芯資訊|WT3000T8語音合成芯片:高性價(jià)比語音交互解決方案

    在智能終端設(shè)備快速普及的當(dāng)下,語音交互已成為提升用戶體驗(yàn)的關(guān)鍵功能。廣州唯創(chuàng)電子推出的WT3000T8語音合成芯片,憑借其卓越的語音處理能力、靈活的控制模式及超低功耗設(shè)計(jì),成為工業(yè)控制
    的頭像 發(fā)表于 03-24 09:05 ?426次閱讀
    芯資訊|WT3000T8<b class='flag-5'>語音</b><b class='flag-5'>合成</b>芯片:高性價(jià)比<b class='flag-5'>語音</b>交互解決方案

    聆思CSK6大模型語音開發(fā)板接入DeepSeek資料匯總(包含深度求索/火山引擎/硅基流動(dòng)華為昇騰滿血版)

    調(diào)用DeepSeek節(jié)點(diǎn),最終將大模型輸出的結(jié)果進(jìn)行語音合成實(shí)現(xiàn)端側(cè)播報(bào) 下載工程模板導(dǎo)入,配置參數(shù)后綁定開發(fā)板ID即可。 關(guān)鍵參數(shù)說明(以火山引擎版為例): HOST
    發(fā)表于 03-06 17:02

    基于W2605C語音識(shí)別合成芯片的智能語音交互鬧鐘方案-AI對(duì)話享受智能生活

    隨著科技的飛速發(fā)展,智能家居產(chǎn)品正逐步滲透到我們的日常生活中,其中智能鬧鐘作為時(shí)間管理的得力助手,也在不斷進(jìn)化?;赪2605C語音識(shí)別與語音合成芯片的智能語音交互鬧鐘,憑借其強(qiáng)大的聯(lián)
    的頭像 發(fā)表于 12-31 11:54 ?874次閱讀

    基于智能語音交互的智能呼叫中心工作機(jī)制

    作為實(shí)現(xiàn)智能呼叫中心的關(guān)鍵技術(shù)之一的智能語音交互技術(shù),它通過集成自然語言處理(NLP)、語音識(shí)別(ASR)和
    的頭像 發(fā)表于 12-03 16:44 ?711次閱讀
    基于智能<b class='flag-5'>語音</b>交互的智能呼叫中心工作機(jī)制

    語音識(shí)別與自然語言處理的關(guān)系

    在人工智能的快速發(fā)展中,語音識(shí)別和自然語言處理(NLP)成為了兩個(gè)重要的技術(shù)支柱。語音識(shí)別技術(shù)使得機(jī)器能夠理解人類的
    的頭像 發(fā)表于 11-26 09:21 ?1501次閱讀

    九芯語音合成芯片NVH-FLASH,看這一篇足矣!

    前言什么是語音合成芯片:簡而言之,就是將文字信息轉(zhuǎn)化為語音信號(hào)輸出的電子器件。它能夠?qū)⒋鎯?chǔ)或接收到的文字內(nèi)容,通過內(nèi)部復(fù)雜的算法處理,轉(zhuǎn)換成自然流暢的
    的頭像 發(fā)表于 11-21 01:01 ?628次閱讀
    九芯<b class='flag-5'>語音</b><b class='flag-5'>合成</b>芯片NVH-FLASH,看這一篇足矣!

    OpenAI發(fā)布ChatGPT高級(jí)語音版,付費(fèi)訂閱并設(shè)對(duì)話時(shí)長限制

    ChatGPT已邁入語音交互的新紀(jì)元,為付費(fèi)用戶解鎖了高級(jí)語音功能,旨在讓對(duì)話體驗(yàn)更加自然流暢。OpenAI在本周二宣布了這一消息,標(biāo)志著其持續(xù)推動(dòng)
    的頭像 發(fā)表于 09-27 15:34 ?3101次閱讀

    字節(jié)跳動(dòng)豆包大模型已支持實(shí)時(shí)語音通話

    字節(jié)跳動(dòng)火山引擎今日隆重推出創(chuàng)新對(duì)話式AI實(shí)時(shí)交互解決方案,該方案以火山方舟大模型服務(wù)平臺(tái)為核心,全面升級(jí)語音交互體驗(yàn)。該方案深度融合火山
    的頭像 發(fā)表于 08-12 16:13 ?1197次閱讀

    OpenAI提前解鎖GPT-4o語音模式,引領(lǐng)對(duì)話新紀(jì)元

    OpenAI近日宣布了一項(xiàng)令人振奮的消息:即日起,部分ChatGPT Plus用戶將率先體驗(yàn)到GPT-4o的語音模式,這一創(chuàng)新功能標(biāo)志著自然語言處理與人工智能交互技術(shù)邁出了重要一步。GPT-4o的高級(jí)
    的頭像 發(fā)表于 08-01 18:24 ?1501次閱讀