谁有欧美成人大片网址,综合中文一区二区三区

近期，網(wǎng)上就出現(xiàn)了這樣一段由兩位女聲組合而成的音頻片段。在音頻中，兩位女生追憶了自己當(dāng)年第一次聽到周杰倫的心情，還對(duì)周董的音樂風(fēng)格進(jìn)行了解讀，兩人一問一答，時(shí)長長達(dá)近3分鐘。

可是，當(dāng)大家聽著這段音頻節(jié)目，也沉浸在對(duì)那時(shí)青蔥歲月的美好追憶時(shí)，你可曾想到，這段對(duì)話，竟然是語音合成的！

提到“語音合成”，你腦海中可能會(huì)出現(xiàn)這樣的種種：

·導(dǎo)航中種類豐富但語氣機(jī)械的“前方路口左轉(zhuǎn)”

·接電話時(shí)，對(duì)面笨拙無感情的“您好，這里是xx信用卡中心”

·視頻網(wǎng)站上，十個(gè)解說視頻九個(gè)聲音相同，看到就想趕快劃走的“注意看，這個(gè)男人叫小帥”…...

而如今，語音合成技術(shù)竟然已經(jīng)能達(dá)到“天衣無縫”的完美自然效果，就好像真人在對(duì)話一樣，直接顛覆了許多人的刻板印象。而這段音頻的發(fā)布者火山語音，字節(jié)跳動(dòng) AI Lab Speech & Audio 智能語音與音頻團(tuán)隊(duì)，為了更好地向大眾解密里面的技術(shù)亮點(diǎn)，又提供了兩段音頻——一段，是傳統(tǒng)的語音合成技術(shù)效果，另一段，卻來自火山語音的全新技術(shù)。兩段音頻輸入的文本完全相同—— “南方菜系偏愛蘸料，例如我第一次去上海才知道燒烤里的蔬菜也需要配蘸料” ，但聽上去，合成的音頻效果卻有明顯差異，第二段來源于火山語音團(tuán)隊(duì)的音頻，用上了本次上新的超自然對(duì)話語音合成技術(shù)，格外自然，幾乎與真人無異。

回想一下人在日常表達(dá)時(shí)的狀態(tài)，大腦處理信息是需要思考時(shí)間的。體現(xiàn)到語言上，人就會(huì)不由自主的出現(xiàn)一些猶豫、拖音、倒裝，甚至是說了一半改口、結(jié)巴重復(fù)的情況，也會(huì)刻意加重讀音強(qiáng)調(diào)想表達(dá)的重點(diǎn)信息。這就帶來了大量難以觀測的細(xì)微表達(dá)。這些現(xiàn)象在傳統(tǒng)的TTS中難以被捕捉還原。而這些細(xì)微之處的完美復(fù)現(xiàn)正是讓聲音真假難辨的奧妙之源，也是上述音頻的奧秘所在。

具體來說，火山語音團(tuán)隊(duì)最新發(fā)布的超自然對(duì)話語音合成技術(shù)相較傳統(tǒng)TTS更加真實(shí)自然，即語氣詞、吸氣聲、猶豫時(shí)的停頓以及字音拖長等細(xì)節(jié)統(tǒng)統(tǒng)被完美復(fù)現(xiàn)，而且只需常規(guī)音庫1/4數(shù)據(jù)，就可完美還原真人說話細(xì)微的韻律特點(diǎn)、發(fā)音口癖，讓合成效果更加真實(shí)。有專業(yè)評(píng)測結(jié)果顯示，火山語音的這項(xiàng)新技術(shù)與真人錄音對(duì)比基本沒有差距，難以被評(píng)測者分辨出來。此外這項(xiàng)技術(shù)目前已在視頻配音、電話客服等多個(gè)場景投入應(yīng)用，近日即將上線火山引擎語音技術(shù)官網(wǎng)對(duì)外露出。

這么厲害的技術(shù)，究竟是怎么辦到的？

據(jù)介紹，上述這些在實(shí)際交流中經(jīng)常出現(xiàn)的倒吸氣、吞音、思考時(shí)不由自主的拖長字音、低笑等表現(xiàn)被稱為副語言現(xiàn)象（paralanguage），盡管這是人腦思考、表達(dá)過程中最真實(shí)的表現(xiàn)，但由于傳統(tǒng)的語音合成技術(shù)框架無法對(duì)分布稀疏的副語言現(xiàn)象進(jìn)行有效建模，所以在說話時(shí)的韻律還原度表現(xiàn)有限、過于“正確”。

基于上述難點(diǎn)，火山語音超自然語音合成技術(shù)分別從文本和語音建模兩個(gè)層面進(jìn)行突破，具體來說：

·在文本層面，火山語音采用了生成式的風(fēng)格遷移模型，模仿真人說話的方式對(duì)文本進(jìn)行可控的口語化轉(zhuǎn)寫，讓文本更好地?fù)肀Э谡Z化，避免最終效果太過書面。

·在語音層面，團(tuán)隊(duì)則是通過文本分析模型的突破，在TTS的輸入側(cè)額外增加了副語言預(yù)測，模仿真人的發(fā)音特點(diǎn)來實(shí)現(xiàn)自然自發(fā)的語音效果。

值得一提的是，團(tuán)隊(duì)通過使用無監(jiān)督特征的TTS建模方案，有效提高了模型的穩(wěn)定性與表現(xiàn)力，僅僅使用常規(guī)音庫1/4的數(shù)據(jù)規(guī)模，就可以實(shí)現(xiàn)十分自然多變的韻律效果，很贊吧？

article-body

致力文本口語化讓“擬真人表達(dá)”躍然紙上

文本作為語音合成技術(shù)的輸入，其風(fēng)格是否貼近真人的表達(dá)方式，是合成效果提升的第一步；但受限于根深蒂固的書寫用語習(xí)慣，大多數(shù)合成前的文本并不夠自然，或者需要投入大量精力不斷調(diào)整，費(fèi)時(shí)費(fèi)力。為了解決此類問題，火山語音團(tuán)隊(duì)采用了兩階段方案并取得了不錯(cuò)的效果：

·階段一：采用自監(jiān)督方法，使用偽數(shù)據(jù)對(duì)口語化模型進(jìn)行預(yù)訓(xùn)練，降低了數(shù)據(jù)量的需求；同時(shí)在模型中引入了指針網(wǎng)絡(luò)結(jié)構(gòu)，增強(qiáng)了文本可控性。

·階段二：利用少量優(yōu)質(zhì)的人工標(biāo)注數(shù)據(jù)，對(duì)預(yù)訓(xùn)練好的口語化模型進(jìn)行微調(diào)，最終實(shí)現(xiàn)可控的、自然的口語化文本效果。

article-body

為了更好地還原真人，區(qū)別于傳統(tǒng)的語音合成技術(shù)，火山語音在副語言建模和韻律多樣性上也分別進(jìn)行了深入研究。在副語言建模方面，團(tuán)隊(duì)推出的合成技術(shù)實(shí)現(xiàn)了聲學(xué)模型對(duì)自然表達(dá)中出現(xiàn)的吸氣、笑聲、猶豫、修正等多種副語言現(xiàn)象建模，并且結(jié)合文本的語義信息自動(dòng)插入副語言現(xiàn)象。在插入過程中同時(shí)考慮合理性與隨機(jī)性，表現(xiàn)更加自然真實(shí)。

副語言建模+韻律多樣性可圈可點(diǎn) 語音真實(shí)感全面升級(jí)

“在韻律多樣化的探究中，我們結(jié)合無監(jiān)督表征學(xué)習(xí)技術(shù)，自主研發(fā)了高表現(xiàn)力的聲學(xué)模型框架，通過發(fā)音、韻律、音色解耦等方式，不但降低了數(shù)據(jù)量的需求，實(shí)現(xiàn)對(duì)出現(xiàn)頻率極低發(fā)音現(xiàn)象的高效建模；同時(shí)使用無監(jiān)督表征特征并結(jié)合音素級(jí)別的基頻、能量信息等，實(shí)現(xiàn)了韻律的自然多變，促成高質(zhì)量對(duì)話語音生成?！被鹕秸Z音團(tuán)隊(duì)總結(jié)道。

article-body

火山語音，字節(jié)跳動(dòng)AI Lab Speech&Audio智能語音與音頻團(tuán)隊(duì)，長期以來面向抖音、剪映、番茄小說、飛書等業(yè)務(wù)提供領(lǐng)先的AI語音技術(shù)能力及全棧語音產(chǎn)品解決方案，并通過火山引擎向外部企業(yè)開放技術(shù)服務(wù)。（作者：張揚(yáng)）

審核編輯黃昊宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴