99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何在MATLAB中構(gòu)建智能語音助手

MATLAB ? 來源:MATLAB ? 2025-06-30 14:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

具身智能是一種將智能與物理實體深度融合的人工智能形態(tài),強調(diào)智能行為既依賴智能體自身算力,更離不開其與環(huán)境的感知交互。在具身智能體與人類交互方面,自然語言是極為直觀且高效的溝通方式。

大語言模型(LLM)憑借卓越的自然語言理解、生成與推理能力,與具身智能結(jié)合,人類可經(jīng)語音智能體發(fā)出指令、提出問題或者表達需求,LLM 能處理理解語言信息并生成回復(fù),還可以將用戶指令解析為具體動作或任務(wù)目標(biāo),助力具身智能體精準(zhǔn)把握人類意圖并協(xié)同工作。

我們利用 MATLAB 開發(fā)了一個簡易智能助手,實現(xiàn)了基于語音的人機交互。下面的視頻將展示該語音助手如何被喚醒,以及它如何應(yīng)答用戶提問和接收指令以操控電機開關(guān)。

系統(tǒng)概況

下圖展示了該智能助手簡要的工作流程:它通過監(jiān)聽環(huán)境并檢測觸發(fā)詞來被喚醒,之后調(diào)用語音轉(zhuǎn)文本模型將用戶語音轉(zhuǎn)化為文本,通過文本判斷是否為用戶指令:若為指令,則將其轉(zhuǎn)化為控制信息發(fā)送至硬件執(zhí)行;若非指令,則調(diào)用LLM生成相應(yīng)的回復(fù);最后,通過文本轉(zhuǎn)語音模型將回復(fù)文本轉(zhuǎn)化為語音并播放。

wKgZO2hiLzqAXdg4AAGOkeSNF0s896.png

本文將展示如何在 MATLAB 中構(gòu)建這樣一個語音助手,以及 MATLAB 在智能應(yīng)用快速原型方面的如下能力:

用戶界面設(shè)計與實現(xiàn)

語音信號采集與處理

Python 模型集成

大語言模型支持

硬件控制與代碼部署

用戶界面設(shè)計與實現(xiàn)

MATLAB 提供一個用于設(shè)計和編程 App 的交互式開發(fā)環(huán)境 App Designer,可以用來設(shè)計智能助手的用戶界面。App Designer 內(nèi)置完整的 MATLAB 編輯器和豐富的交互式 UI 組件,支持通過網(wǎng)格布局管理界面,并可自動適應(yīng)屏幕尺寸變化。用戶可直接在工具欄將 App 打包為安裝文件分發(fā),或借助 MATLAB Compiler 創(chuàng)建獨立桌面或 Web App。

wKgZPGhiLzqAIv1JAAGlSb_DO1E198.png

可參考如下網(wǎng)頁快速入門 App Designer:

使用 App 設(shè)計工具開發(fā) App:https://ww2.mathworks.cn/help/matlab/app-designer.html

語音采集與處理

除了基本的 Signal Processing Toolbox,MATLAB 還專門為音頻、語音和聲學(xué)信號的處理與分析提供了Audio Toolbox,這也為我們智能助手的語音采集和處理提供了便利。Audio Toolbox 提供豐富的算法,可用于音頻信號處理、聲學(xué)指標(biāo)估算、音頻數(shù)據(jù)集標(biāo)注與增強,以及音頻特征提取。

可訪問如下網(wǎng)頁學(xué)習(xí)如何在 MATLAB 中通過 Audio Toolbox 采集、分析及處理語音信號:

Audio Toolbox:https://ww2.mathworks.cn/help/audio/index.html

結(jié)合上一步,如需在用戶界面上實現(xiàn)音頻文件的波形顯示與播放,可參考如下示例:

創(chuàng)建音頻播放與可視化應(yīng)用:*https://ww2.mathworks.cn/help/audio/ug/create-an-app-to-play-and-visualize-audio-files.html *

在智能助手應(yīng)用中,觸發(fā)詞檢測、語音轉(zhuǎn)文本和文本轉(zhuǎn)語音這三個模塊都是基于Audio Toolbox 網(wǎng)頁上提供的 “AI for Audio” 相關(guān)參考示例和函數(shù)來實現(xiàn)的。MATLAB 提供了Statistics and Machine Learning Toolbox 和 Deep Learning Toolbox 來支持 AI 方面的應(yīng)用。其中,觸發(fā)詞檢測主要是通過訓(xùn)練一個深度學(xué)習(xí)網(wǎng)絡(luò)來完成??稍?MathWorks 官網(wǎng)上搜索以下示例,學(xué)習(xí)如何在 MATLAB 中對音頻信號打標(biāo)簽,如何設(shè)計與訓(xùn)練一個用于觸發(fā)詞檢測的深度學(xué)習(xí)網(wǎng)絡(luò),以及如何裁剪及量化 神經(jīng)網(wǎng)絡(luò)并把它部署到樹莓派中。

wKgZO2hiLzqAEZ72AAKy4JdPu1s846.png

對于語音與文本的相互轉(zhuǎn)換,需在 MATLAB 工具欄的“Add-Ons”下點擊“Get Add-Ons”,搜索并安裝“Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries”。也可訪問如下網(wǎng)頁直接下載安裝,并查看其使用文檔及相關(guān)示例:

Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries:https://ww2.mathworks.cn/matlabcentral/fileexchange/160371-audio-toolbox-interface-for-speechbrain-and-torchaudio-libraries

wKgZPGhiLzqAJSVjAANow5pfpn4825.png

該插件可自動安裝 Python 和 PyTorch,并下載 SpeechBrain 和 Torchaudio 庫中的深度學(xué)習(xí)模型,從而為 Audio Toolbox 提供了基于 AI 的語音識別(ASR)和語音合成功能,使得MATLAB 用戶無需深度學(xué)習(xí)經(jīng)驗即可直接使用前沿的 AI 語音模型。

用戶可通過 speechClient 對象,調(diào)用speech2text和text2speech函數(shù),選用本地模型或者Google、IBM、Microsoft、Amazon 等云服務(wù),分別實現(xiàn)語音轉(zhuǎn)文本(STT)(或自動語音識別(ASR))和文本轉(zhuǎn)語音(TTS)(或語音合成)功能。對于中文,可選擇whisper 模型實現(xiàn)語音轉(zhuǎn)文本,注意這時需單獨下載模型權(quán)重。

Python 模型集成

在文本轉(zhuǎn)語音模塊中,text2speech 函數(shù)使用的是 HiFi-GAN/Tacotron2 預(yù)訓(xùn)練模型,無法合成超過約 10 秒的語音信號。因此,可在 MATLAB 中配置 Python 環(huán)境,安裝和調(diào)用其他預(yù)訓(xùn)練好的 Python 模型。具體操作可參考:

從 MATLAB 中調(diào)用 Python:https://ww2.mathworks.cn/help/matlab/call-python-libraries.html

在智能助手的示例中,我們選用的是pyttsx3,一個可直接調(diào)用多種操作系統(tǒng)的 TTS,支持在離線狀態(tài)下實現(xiàn)文本轉(zhuǎn)語音并播放功能的Python 庫。

在 MATLAB 命令行,可使用如下命令安裝pyttsx3庫:

wKgZO2hiLzqAIH1XAACpiaoMxII787.png

然后,通過如下函數(shù)初始化一個基于pyttsx3的TTS引擎并設(shè)置其參數(shù):

wKgZPGhiLzqAWo18AAMpQyEKjTw287.png

之后,就可利用* engine.say()* 函數(shù)傳入需要合成并播放的文本,使用*engine.runAndWait() *函數(shù)等待朗讀任務(wù)的完成。

大語言模型支持

在我們的智能助手項目中,大語言模型被用來回答用戶的提問。為此,需要在附加功能資源瀏覽器中搜索并安裝 “Large Language Models (LLM) with MATLAB” ,或訪問如下網(wǎng)頁直接下載并安裝:

Large Language Models (LLMs) with MATLAB:https://ww2.mathworks.cn/matlabcentral/fileexchange/163796-large-language-models-llms-with-matlab

wKgZPGhiLzuAJvTCAAKWxywY5PM654.png

這個Add-on可以幫助用戶通過 MATLAB 連接或者調(diào)用各種大語言模型。目前支持 OpenAI Chat Completions API 和 OpenAI Images API 等,還支持調(diào)用 Ollama 部署的本地大模型??蓞⒖贾鞍l(fā)布的微信文章《如何運行本地 DeepSeek 模型并在 MATLAB 中使用?》了解更多。

硬件控制和代碼部署

與硬件設(shè)備進行交互是具身智能的一大特色,在這個智能助手項目中,用戶可以通過指令控制電機啟動和關(guān)閉。MATLAB 和 Simulink 可以直接與一些硬件鏈接并進行實時數(shù)據(jù)流傳輸,還能支持將算法和模型自動生成 C/C++、HDL 或 PLC 代碼等,部署到嵌入式系統(tǒng)中,如機器人控制器、無人車的車載計算機等,實現(xiàn)具身智能系統(tǒng)的實際運行。

可在如下網(wǎng)頁中找到更詳細的信息:

MATLAB 的硬件支持:https://ww2.mathworks.cn/hardware-support/home.html

為了演示智能助手對電機的控制,我們基于如下 MATLAB 隨軟件附帶的示例做了簡單修改:

使用基于 STM32 處理器的板子實現(xiàn)對三相交流電機的開環(huán)控制:https://ww2.mathworks.cn/help/ecoder/stmicroelectronicsstm32f4discovery/ug/Openn-Loop-Control-Example.html

原始示例是通過板卡上的按鍵打開或者關(guān)閉電機運行,我們將“Communication” 下的“Start and Stop Motor” 模塊修改成通過 USART2 串口接收信號控制電機啟動與停止(如下圖所示)。所以,當(dāng)智能助手檢測到電機控制指令時,只需要在串口發(fā)送該指令所相對應(yīng)的數(shù)字即可。

wKgZPGhiLzqAFZL0AAExLzHAZtY896.png

記得在 MATLAB 電機控制命令發(fā)送函數(shù)中使用與 STM32 USART2 端口配置中相同的波特率與字長。

wKgZO2hiLzqAWHh1AAMgtotzuf8580.png

總結(jié)

目前,我們僅使用 MATLAB 將具身智能與大語言模型(LLM)結(jié)合,在人機交互方面進行了初步探索,未來將繼續(xù)探索能否直接使用多模態(tài)模型直接解析用戶需求來實現(xiàn)具身智能的人機交互。

除了人機交互, MATLAB 在具身智能的建模與仿真、感知與數(shù)據(jù)處理、決策與控制、學(xué)習(xí)與訓(xùn)練、測試與評估、嵌入式部署及代碼生成等眾多領(lǐng)域,均是功能強大的工具。歡迎感興趣的小伙伴們和我們一同進行探索與研究!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人機交互
    +關(guān)注

    關(guān)注

    12

    文章

    1244

    瀏覽量

    56331
  • matlab
    +關(guān)注

    關(guān)注

    189

    文章

    3000

    瀏覽量

    233700
  • 智能助手
    +關(guān)注

    關(guān)注

    0

    文章

    24

    瀏覽量

    3110
  • 具身智能
    +關(guān)注

    關(guān)注

    0

    文章

    132

    瀏覽量

    434

原文標(biāo)題:大語言模型(LLM) 賦能具身智能中的人機交互

文章出處:【微信號:MATLAB,微信公眾號:MATLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    智能語音助手將成為智能家居用戶入口

    智能語音助手成為2017年CES和MWC熱點之一,內(nèi)置智能語音助手的產(chǎn)品覆蓋多個領(lǐng)域、多個品牌的
    發(fā)表于 05-27 16:26 ?2950次閱讀

    語音助手的常見問題有哪些?

    語音助手語音識別、自然語音處理的完美結(jié)合,目前已被廣泛應(yīng)用于生活,滿足人們對遠端操控的需求。語音
    發(fā)表于 08-06 08:25

    【 平頭哥CB5654語音開發(fā)板試用連載】智能聲控語音助手

    項目名稱:智能聲控語音助手試用計劃:本人在音視頻領(lǐng)域有三年工作經(jīng)歷,在校期間一直關(guān)注智能設(shè)備,對于智能音響和
    發(fā)表于 02-25 16:09

    何在matlab實現(xiàn)Virtual Reality 技術(shù)

    何在matlab實現(xiàn)Virtual Reality 技術(shù),資料的代碼很全,步驟很清晰,很實用,歡迎大家下載交流。
    發(fā)表于 06-03 16:57 ?0次下載

    語音助手智能電視標(biāo)配 真的會用了就離不開語音助手嗎?

    語音助手功能逐漸開始成為電視的標(biāo)配,對于這項功能你應(yīng)該并不陌生,每天拿在手里的智能手機都可以開啟語音助手,比如iPhone的Siri,但很多
    發(fā)表于 06-12 16:44 ?1.2w次閱讀

    語音助手打電話訂餐廳

    語音助手是一款智能型的手機應(yīng)用,通過智能對話與即時問答的智能交互,實現(xiàn)幫忙用戶解決問題,其主要是幫忙用戶解決生活類問題。蘋果手機
    的頭像 發(fā)表于 06-03 06:01 ?2667次閱讀

    何在MATLAB開發(fā)基于像素的視頻和圖像處理算法

    此講座將結(jié)合新產(chǎn)品的特性,重點介紹如何在MATLAB?開發(fā)基于像素流的視頻和圖像處理的算法,并通過HDL代碼產(chǎn)生的技術(shù)快速在FPGA上實現(xiàn)。你將了解到:如何在
    的頭像 發(fā)表于 08-29 06:08 ?3088次閱讀
    如<b class='flag-5'>何在</b><b class='flag-5'>MATLAB</b><b class='flag-5'>中</b>開發(fā)基于像素的視頻和圖像處理算法

    智能語音助手的原理_預(yù)測智能語音助手的未來

    本文首先介紹了自然語言處理(NLP)和自然語言生成(NLG)這兩種基礎(chǔ)技術(shù),然后分別對語音識別的基本原理,工作原理,工作流程進行了解釋,最后簡單地預(yù)測了智能語音助手地未來發(fā)展趨勢。
    發(fā)表于 07-31 10:16 ?2.2w次閱讀

    智能家居設(shè)備有必要植入語音助手功能嗎?

    隨著智能家居技術(shù)在過去五年的不斷進步,萬物互聯(lián)成為了智能設(shè)備的發(fā)展焦點。在所有的智能家居品類之中,以智能音箱發(fā)展最為迅猛,這也得益于
    的頭像 發(fā)表于 07-03 09:43 ?3512次閱讀

    語音數(shù)據(jù)集在智能語音助手中的應(yīng)用與挑戰(zhàn)

    一、引言 隨著智能設(shè)備的普及和人工智能技術(shù)的不斷發(fā)展,智能語音助手已經(jīng)成為人們?nèi)粘I?b class='flag-5'>中不可或缺
    的頭像 發(fā)表于 12-14 15:07 ?1009次閱讀

    語音數(shù)據(jù)集在智能語音助手中的應(yīng)用與挑戰(zhàn)

    一、引言 隨著人工智能技術(shù)的不斷發(fā)展,智能語音助手已經(jīng)成為了人們?nèi)粘I?b class='flag-5'>中不可或缺的一部分。語音
    的頭像 發(fā)表于 01-18 15:46 ?724次閱讀

    智能語音助手在醫(yī)療行業(yè)的應(yīng)用與挑戰(zhàn)

    一、引言 隨著人工智能技術(shù)的不斷發(fā)展,智能語音助手在醫(yī)療行業(yè)的應(yīng)用越來越廣泛。語音數(shù)據(jù)集在醫(yī)療智能
    的頭像 發(fā)表于 01-18 16:41 ?776次閱讀

    智能語音助手在教育行業(yè)的應(yīng)用與挑戰(zhàn)

    一、引言 隨著人工智能技術(shù)的不斷發(fā)展,智能語音助手在教育行業(yè)的應(yīng)用越來越廣泛。語音數(shù)據(jù)集在教育智能
    的頭像 發(fā)表于 01-19 17:21 ?1495次閱讀

    智能語音助手在旅游行業(yè)的應(yīng)用與挑戰(zhàn)

    一、引言 隨著人工智能技術(shù)的不斷發(fā)展和普及,智能語音助手在旅游行業(yè)的應(yīng)用越來越廣泛。語音數(shù)據(jù)集在旅游智能
    的頭像 發(fā)表于 01-19 17:30 ?1331次閱讀

    智能語音助手在醫(yī)療行業(yè)的應(yīng)用與挑戰(zhàn)

    一、引言 隨著人工智能技術(shù)的不斷發(fā)展,智能語音助手在醫(yī)療行業(yè)的應(yīng)用越來越廣泛。語音數(shù)據(jù)集在醫(yī)療智能
    的頭像 發(fā)表于 01-19 17:37 ?1081次閱讀