99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何讓神經(jīng)聲碼器高效地用于序列到序列聲學模型

ss ? 來源:IT創(chuàng)事記 ? 作者:IT創(chuàng)事記 ? 2021-01-07 16:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

往往在放下手機之后你才會意識到,電話那頭的客服其實是個機器人;或者準確地說,是“一位”智能客服。

沒錯,今天越來越多的工作正在被交給人工智能技術(shù)去完成,文本轉(zhuǎn)語音(TTS,Text To Speech)就是其中非常成熟的一部分。它的發(fā)展,決定了今天我們聽到的許多“人聲”,是如此地逼真,以至于和真人發(fā)聲無異。

除了我們接觸最多的智能客服,智能家居中的語音助手、可以服務(wù)聽障人士的無障礙播報,甚至是新聞播報和有聲朗讀等服務(wù),事實上都基于TTS這項技術(shù)。它是人機對話的一部分——簡單地說,就是讓機器說人話。

它被稱為同時運用語言學和心理學的杰出之作。不過在今天,當我們稱贊它的杰出時,更多的是因為它在在線語音生成中表現(xiàn)出的高效。

要提升語音合成效率當然不是一件容易的事。這里的關(guān)鍵是如何讓神經(jīng)聲碼器高效地用于序列到序列聲學模型,來提高TTS質(zhì)量。

科學家已經(jīng)開發(fā)出了很多這樣的神經(jīng)網(wǎng)絡(luò)聲碼器,例如WaveNet、Parallel WaveNet、WaveRNN、LPCNet 和 Multiband WaveRNN等,它們各有千秋。

WaveNet聲碼器可以生成高保真音頻,但在計算上它那巨大的復雜性,限制了它在實時服務(wù)中的部署;

LPCNet聲碼器利用WaveRNN架構(gòu)中語音信號處理的線性預測特性,可在單個處理器內(nèi)核上生成超實時的高質(zhì)量語音;但可惜,這對在線語音生成任務(wù)而言仍不夠高效。

科學家們希望TTS能夠在和人的“交流”中,達到讓人無感的順暢——不僅是語調(diào)上的熱情、親切,或冷靜;更要“毫無”延遲。

新的突破出現(xiàn)在騰訊。騰訊 AI Lab(人工智能實驗室)和云小微目前已經(jīng)率先開發(fā)出了一款基于WaveRNN多頻帶線性預測的全新神經(jīng)聲碼器FeatherWave。經(jīng)過測試,這款高效高保真神經(jīng)聲碼器可以幫助用戶顯著提高語音合成效率。

英特爾的工程團隊也參與到了這項開發(fā)工作中。他們把面向第三代英特爾至強可擴展處理器所做的優(yōu)化進行了全面整合,并采用了英特爾深度學習加速技術(shù)(英特爾 DL Boost)中全新集成的 16 位 Brain Floating Point (bfloat16) 功能。

bfloat16是一個精簡的數(shù)據(jù)格式,與如今的32位浮點數(shù)(FP32)相比,bfloat16只通過一半的比特數(shù)且僅需對軟件做出很小程度的修改,就可達到與FP32同等水平的模型精度;與半浮點精度 (FP16) 相比,它可為深度學習工作負載提供更大的動態(tài)范圍;與此同時,它無需使用校準數(shù)據(jù)進行量化/去量化操作,因此比 INT8 更方便。這些優(yōu)勢不僅讓它進一步提升了模型推理能力,還讓它能為模型訓練提供支持。

事實上,英特爾至強可擴展處理器本就是專為運行復雜的人工智能工作負載而設(shè)計的。借助英特爾深度學習加速技術(shù),英特爾志強可擴展處理器將嵌入式 AI 性能提升至新的高度。目前,此種處理器現(xiàn)已支持英特爾高級矢量擴展 512 技術(shù)(英特爾AVX-512 技術(shù))和矢量神經(jīng)網(wǎng)絡(luò)指令 (VNNI)。

在騰訊推出的全新神經(jīng)聲碼器FeatherWave 聲碼器中,就應(yīng)用了這些優(yōu)化技術(shù)。

FeatherWave 聲碼器框圖

利用英特爾AVX-512技術(shù)和bfloat16指令,騰訊的科學家們確保了GRU模塊和Dense運算符中粗略部分/精細部分的所有SGEMV計算都使用512位矢量進行矢量化,并采用bfloat16點積指令;對于按元素逐個加/乘等運算以及其他非線性激活,都使用最新的英特爾AVX-512 指令運行。

在最終都性能測試中,通過優(yōu)化,相同質(zhì)量水平(MOS4.5)的文本轉(zhuǎn)語音速度比FP32提升了高達1.54倍。

此外,騰訊還以 GAN 和 Parallel WaveNet (PWaveNet)為基礎(chǔ),推出了一種改進后的模型,并基于第三代英特爾至強可擴展處理器對模型性能進行了優(yōu)化,最終使性能與采用FP32相比提升了高達1.89倍,同時質(zhì)量水平仍保持不變 (MOS4.4)。

騰訊在TTS領(lǐng)域的進展顯示出了人工智能領(lǐng)域的一個趨勢,那就是科學家們越來越多開始利用英特爾深度學習加速技術(shù)在CPU平臺上開展工作。

就像騰訊在針對TTS的探索中獲得了性能提升那樣,第二代和第三代英特爾至強可擴展處理器在集成了加速技術(shù)后,已經(jīng)顯著提升了人工智能工作負載的性能。

在更廣泛的領(lǐng)域內(nèi),我們已經(jīng)能夠清楚地看到這種變化——在效率表現(xiàn)上,由于針對常見人工智能軟件框架,如TensorFlow和PyTorch、庫和工具所做的優(yōu)化,CPU平臺可以幫助保持較高的性能功耗比和性價比。

尤其是擴展性上,用戶在設(shè)計系統(tǒng)時可以利用如英特爾以太網(wǎng)700系列,和英特爾傲騰內(nèi)存存儲技術(shù),來優(yōu)化網(wǎng)絡(luò)和內(nèi)存配置。這樣一來,他們就可以在充分利用現(xiàn)有硬件投資的情況下,輕松擴展人工智能訓練的工作負載,獲得更高的吞吐量,甚至處理巨大的數(shù)據(jù)集。

不止于處理器平臺本身,英特爾目前在面向人工智能優(yōu)化的軟件,以及市場就緒型人工智能解決方案兩個維度,都建立起了差異化的市場優(yōu)勢。

例如在軟件方面,英特爾2019年2月進行的 OpenVINO/ResNet50 INT8 性能測試顯示,使用 OpenVINO或TensorFlow和英特爾深度學習加速技術(shù)時,人工智能推理性能可提高多達 3.75 倍。

今天,英特爾已經(jīng)攜手解決方案提供商,構(gòu)建了一系列的精選解決方案。這些方案預先進行了配置,并對工作負載進行了優(yōu)化。這就包括了如基于人工智能推理的英特爾精選解決方案,以及面向在面向在Apache Spark上運行的BigDL的英特爾精選解決方案等。

這些變化和方案的出現(xiàn)對于那些希望能從整體業(yè)務(wù)視角,去觀察人工智能進展的機構(gòu)或企業(yè)的管理層顯然也很有意義——如果只通過優(yōu)化,就能在一個通用平臺上完成所有人工智能的探索和落地,那么投資的價值就能夠?qū)崿F(xiàn)最大化。

許多企業(yè)做出了這樣的選擇,GE醫(yī)療就是其中一家。作為GE集團旗下的醫(yī)療健康業(yè)務(wù)部門,它構(gòu)建了一個人工智能醫(yī)學影像部署架構(gòu)。

通過采用英特爾至強可擴展處理器,和英特爾固態(tài)盤,以及多項英特爾關(guān)鍵技術(shù)——例如英特爾深度學習開發(fā)工具包,和面向深度神經(jīng)網(wǎng)絡(luò)的英特爾數(shù)學核心函數(shù)庫等;GE醫(yī)療收獲了未曾預料到的成果:

這一解決方案最終比基礎(chǔ)解決方案的推理速度提升了多達14倍,且超過了GE原定推理目標5.9倍。

責任編輯:xj

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    213

    文章

    29748

    瀏覽量

    212987
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4814

    瀏覽量

    103690
  • 智能化
    +關(guān)注

    關(guān)注

    15

    文章

    5128

    瀏覽量

    57300
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    用于LEGIC Advant UID/序列號的NFC讀卡,為什么無法讀取這些卡的UID/序列號?

    我目前正在開發(fā)一個小展示柜,其中 LEGIC Advant 卡 (CTC) 的 UID/序列號應(yīng)由 NFC 閱讀讀取。在當前的設(shè)置中,我有一個使用 MFRC522 芯片的 ESP32。不幸
    發(fā)表于 04-02 08:07

    使用BP神經(jīng)網(wǎng)絡(luò)進行時間序列預測

    使用BP(Backpropagation)神經(jīng)網(wǎng)絡(luò)進行時間序列預測是一種常見且有效的方法。以下是一個基于BP神經(jīng)網(wǎng)絡(luò)進行時間序列預測的詳細步驟和考慮因素: 一、數(shù)據(jù)準備 收集數(shù)據(jù) :
    的頭像 發(fā)表于 02-12 16:44 ?774次閱讀

    如何使用MATLAB構(gòu)建Transformer模型

    LanguageProcessing, NLP)中的序列到序列任務(wù),如機器翻譯。Transformer 通過引入自注意力機制使得處理長距離依賴關(guān)系時變得高效。因此 Vaswani 等人的論文強調(diào)“注意力是所需的一切”。
    的頭像 發(fā)表于 02-06 10:21 ?4059次閱讀
    如何使用MATLAB構(gòu)建Transformer<b class='flag-5'>模型</b>

    時空引導下的時間序列自監(jiān)督學習框架

    考慮各個序列之間的關(guān)系。因此,本文提出的方法更適合作為時空預測領(lǐng)域的預訓練模型。下面為大家詳細介紹一下這篇文章。 摘要 相關(guān)時間序列分析在許多現(xiàn)實行業(yè)中扮演著重要的角色。為進一步的下游任務(wù)學習這個大規(guī)模數(shù)據(jù)的有效表示是必要
    的頭像 發(fā)表于 11-15 11:41 ?773次閱讀
    時空引導下的時間<b class='flag-5'>序列</b>自監(jiān)督學習框架

    循環(huán)神經(jīng)網(wǎng)絡(luò)的常見調(diào)參技巧

    循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,簡稱RNN)是一種用于處理序列數(shù)據(jù)的深度學習模型,它能夠捕捉時間序列中的動
    的頭像 發(fā)表于 11-15 10:13 ?762次閱讀

    如何使用RNN進行時間序列預測

    時間序列預測在金融、氣象、銷售預測等領(lǐng)域有著廣泛的應(yīng)用。傳統(tǒng)的時間序列分析方法,如ARIMA和指數(shù)平滑,雖然在某些情況下表現(xiàn)良好,但在處理非線性和復雜模式時可能不夠靈活。遞歸神經(jīng)網(wǎng)絡(luò)(RNN)提供了
    的頭像 發(fā)表于 11-15 09:45 ?922次閱讀

    如何使用Python構(gòu)建LSTM神經(jīng)網(wǎng)絡(luò)模型

    numpy tensorflow 2. 準備數(shù)據(jù) LSTM模型通常用于序列數(shù)據(jù),比如時間序列預測或文本生成。這里我們以一個簡單的時間序列
    的頭像 發(fā)表于 11-13 10:10 ?1584次閱讀

    LSTM神經(jīng)網(wǎng)絡(luò)在時間序列預測中的應(yīng)用

    時間序列預測是數(shù)據(jù)分析中的一個重要領(lǐng)域,它涉及到基于歷史數(shù)據(jù)預測未來值。隨著深度學習技術(shù)的發(fā)展,長短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)因其在處理序列數(shù)據(jù)方面的優(yōu)勢而受到廣泛關(guān)注。 LSTM神經(jīng)
    的頭像 發(fā)表于 11-13 09:54 ?2059次閱讀

    LSTM神經(jīng)網(wǎng)絡(luò)的基本原理 如何實現(xiàn)LSTM神經(jīng)網(wǎng)絡(luò)

    LSTM(長短期記憶)神經(jīng)網(wǎng)絡(luò)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),它能夠?qū)W習長期依賴信息。在處理序列數(shù)據(jù)時,如時間序列分析、自然語言處理等,LSTM因其能夠有效地捕捉時間
    的頭像 發(fā)表于 11-13 09:53 ?1589次閱讀

    如何訪問UCD90XXX序列GPIO

    電子發(fā)燒友網(wǎng)站提供《如何訪問UCD90XXX序列GPIO.pdf》資料免費下載
    發(fā)表于 09-13 09:17 ?0次下載
    如何訪問UCD90XXX<b class='flag-5'>序列</b><b class='flag-5'>器</b>GPIO

    【「時間序列與機器學習」閱讀體驗】時間序列的信息提取

    模型效果與性能的過程。 時間序列的缺失值填充方法有:插值法;回歸填充;均值/中位數(shù)/眾數(shù)填充;可以借助 Python 的 Pandas庫,通過前向填充、后向填充、線性插值、均值/中位數(shù)/眾數(shù)填充等
    發(fā)表于 08-17 21:12

    【《時間序列與機器學習》閱讀體驗】+ 時間序列的信息提取

    利用這些信息來建立時間序列模型,可見信息提取是一個關(guān)鍵的步驟。 本章第一小節(jié)直接引入了特征工程定義: 特征工程(Feature Engineering)是將數(shù)據(jù)轉(zhuǎn)換為更好地表示潛在問題的特征,從而
    發(fā)表于 08-14 18:00

    【「時間序列與機器學習」閱讀體驗】+ 簡單建議

    預測更加精準、分析更為透徹。書中的案例豐富多彩,不僅覆蓋了常見的智能、金融等領(lǐng)域,還深入探討了各案例背后的數(shù)據(jù)處理技巧與模型選擇邏輯,人受益匪淺。 這本書提供詳細的目錄和豐富的案例,我就不講了,
    發(fā)表于 08-12 11:21

    【《時間序列與機器學習》閱讀體驗】+ 了解時間序列

    收到《時間序列與機器學習》一書,彩色印刷,公式代碼清晰,非常精美。感謝作者,感謝電子發(fā)燒友提供了一個讓我學習時間序列及應(yīng)用的機會! 前言第一段描述了編寫背景: 由此可知,這是一本關(guān)于時間序列進行大數(shù)
    發(fā)表于 08-11 17:55

    【「時間序列與機器學習」閱讀體驗】全書概覽與時間序列概述

    模型、指數(shù)平滑方法、Prophet,以及神經(jīng)網(wǎng)絡(luò),例如循環(huán)神經(jīng)網(wǎng)絡(luò)長短期記憶網(wǎng)絡(luò)、Transformer、Informer 等。 ●第4章“時間序列異常檢測”:介紹時間
    發(fā)表于 08-07 23:03