開源:Github:https://github.com/Hello-XSJ/RDK\_vlm\_demo.git-
本項目聚焦腿臂機(jī)器人在多模態(tài)環(huán)境感知、自然語言交互和自主行為控制方面的技術(shù)瓶頸,基于RDK X3平臺進(jìn)行AI大模型算法開發(fā),提出了一種融合AI大模型的創(chuàng)新性解決方案,提升腿臂機(jī)器人的綜合性能。-
項目首先強(qiáng)化了機(jī)器人的多模態(tài)感知能力,利用雷達(dá)、攝像頭和語音傳感器數(shù)據(jù),通過AI大模型進(jìn)行深度信息融合與智能分析,實(shí)現(xiàn)對作業(yè)環(huán)境的全面理解與精準(zhǔn)感知。在自然語言交互方面,AI大模型的語義解析與邏輯推理能力顯著提升了人機(jī)交互的效率,賦予機(jī)器人情感交互的能力,提供了個性化的交互體驗(yàn)。-
自主行為控制方面,設(shè)計了基于AI大模型的智能行為調(diào)度策略,將自然語言指令轉(zhuǎn)化為可執(zhí)行的語義信息,并通過任務(wù)子函數(shù)實(shí)現(xiàn)行為規(guī)劃與動態(tài)調(diào)整。系統(tǒng)還集成了高層反饋機(jī)制,確保任務(wù)規(guī)劃的準(zhǔn)確性和執(zhí)行效率。-
本項目展示了腿臂機(jī)器人在自然語言交互下進(jìn)行多模式作業(yè)和多場景導(dǎo)航的能力,提升了機(jī)器人的自主性和適應(yīng)性,為其在多樣化任務(wù)場景中的應(yīng)用提供了廣闊前景,也為智能機(jī)器人技術(shù)的發(fā)展提供了新思路和方向——賽博汪汪團(tuán)隊-

791×352 0 Bytes
一、 方案論證與設(shè)計-
1.1 研究目標(biāo)-
當(dāng)前,四足機(jī)器人在自然語言交互、自主行為控制及功能多樣性方面存在顯著局限。本研究旨在融合人工智能大模型技術(shù),重點(diǎn)突破多模態(tài)環(huán)境感知與自主導(dǎo)航、自然語言交互和自主行為控制三大關(guān)鍵領(lǐng)域。-
在多模感知與指令式導(dǎo)航上,通過集成雷達(dá)、相機(jī)、語音等多源傳感器,利用 AI 大模型融合分析感知數(shù)據(jù),使機(jī)器人能精準(zhǔn)感知環(huán)境動態(tài)變化,實(shí)現(xiàn)復(fù)雜環(huán)境下的自主導(dǎo)航與任務(wù)執(zhí)行。-
自然交互層面,借助 AI 大模型強(qiáng)大的語義解析和邏輯推理能力,實(shí)現(xiàn)機(jī)器人對自然語言的理解與生成,不僅能執(zhí)行指令,還能識別情感并提供個性化交互體驗(yàn),通過語音、姿態(tài)等多方式互動提升用戶滿意度。-
自主行為控制方面,AI 大模型深度融合自然語言語義信息與傳感器圖像信息,基于指令分析與環(huán)境識別,生成任務(wù)指令和控制決策,無需復(fù)雜算法即可顯著提升機(jī)器人自主行動能力。-
1.2系統(tǒng)方案設(shè)計-
為全面提升四足機(jī)器人性能,設(shè)計包含四部分的系統(tǒng)方案:基于動力學(xué)模型的多模式運(yùn)動控制、多模態(tài)環(huán)境感知與指令式導(dǎo)航、基于 AI 大模型的智能行為調(diào)度、實(shí)驗(yàn)仿真與物理樣機(jī)測試。-
1.21 基于動力學(xué)模型的四足機(jī)器人多模式運(yùn)動控制-
基于動力學(xué)模型的多模式運(yùn)動控制是四足機(jī)器人技術(shù)核心。通過構(gòu)建動力學(xué)模型分析機(jī)器人力學(xué)特性,優(yōu)化靜態(tài)與特征參數(shù)獲取最優(yōu)控制參數(shù),實(shí)現(xiàn)步態(tài)、姿態(tài)和速度的靈活調(diào)整。-
采用基于模型預(yù)測的全身運(yùn)動控制策略,開發(fā)強(qiáng)魯棒性控制器。該控制器處理本體傳感器數(shù)據(jù),經(jīng)濾波降噪后,運(yùn)用高頻反饋與高維預(yù)測技術(shù),實(shí)現(xiàn)站立、行走、跑跳等多種運(yùn)動模式平滑切換,保障機(jī)器人執(zhí)行指令時的穩(wěn)定性。-
1.22 環(huán)境感知與指令式導(dǎo)航-
融合 AI 大模型的導(dǎo)航系統(tǒng),使四足機(jī)器人具備復(fù)雜環(huán)境理解與決策能力。通過深度學(xué)習(xí)結(jié)合大語言模型,利用感知網(wǎng)絡(luò)編碼環(huán)境狀態(tài),為導(dǎo)航提供精準(zhǔn)信息。-
路徑規(guī)劃網(wǎng)絡(luò)中的指令式導(dǎo)航規(guī)劃器解析目標(biāo)指令,借助最優(yōu)軌跡優(yōu)化器反向傳播優(yōu)化運(yùn)動軌跡。以增強(qiáng)簽名距離場為代價地圖,結(jié)合差分器實(shí)現(xiàn)動態(tài)避障與路徑調(diào)整,最終由運(yùn)動控制器將規(guī)劃軌跡轉(zhuǎn)化為實(shí)際運(yùn)動指令。-
1.23 基于 AI 大語言模型的智能行為調(diào)度-
基于 AI 大語言模型的智能行為調(diào)度方法,賦予機(jī)器人智能決策能力。在線調(diào)用大語言模型解析自然語言指令,轉(zhuǎn)化為機(jī)器人可理解的語義指令,實(shí)現(xiàn)人機(jī)自然交互。-
基于語義指令進(jìn)行子任務(wù)規(guī)劃,結(jié)合高層反饋糾錯機(jī)制保障任務(wù)準(zhǔn)確性。在執(zhí)行階段,運(yùn)動狀態(tài)機(jī)與規(guī)劃將高層指令轉(zhuǎn)化為運(yùn)動序列,運(yùn)動控制器實(shí)時評估調(diào)整。遇錯時底層反饋觸發(fā)重新規(guī)劃,同時通過自然語言處理持續(xù)優(yōu)化機(jī)器人行為 。-
二、系統(tǒng)設(shè)計-
2.1 四足機(jī)器人硬件系統(tǒng)設(shè)計-
四足機(jī)器人運(yùn)動控制由 Upboard 嵌入式 PC 主控制器實(shí)現(xiàn),通過 PREMAP 補(bǔ)丁運(yùn)行實(shí)時 linux 系統(tǒng)。其經(jīng) USB 口與 IMU 以 500Hz 頻率通信采集姿態(tài)信息,通過 SBUS 與 AT9S 遙控器交互指令。關(guān)節(jié)執(zhí)行器與控制器間采用 CAN 總線通信,利用基于 STM32f446 的轉(zhuǎn)接板解決 Upboard 無 CAN 接口問題,完成 SPI、TTL 與 CAN 的轉(zhuǎn)換。-
硬件布局及總體框架中,感知與語音系統(tǒng)共用 NUC 處理器,千兆交換機(jī)組建局域網(wǎng),支持遠(yuǎn)程筆記本通過 Rviz 可視化界面監(jiān)控操控。Ouster-64 雷達(dá)經(jīng)網(wǎng)口連交換機(jī),相機(jī)、音頻設(shè)備分別通過 USB 和藍(lán)牙接入 NUC,傳感器數(shù)據(jù)在 NUC 處理后,經(jīng)網(wǎng)口傳輸控制指令至運(yùn)動控制器,驅(qū)動機(jī)器人執(zhí)行動作。-
供電方面,配備兩塊鋰電池。46.2V、30A 電池經(jīng)隔穩(wěn)壓模塊,輸出 42V 供關(guān)節(jié)驅(qū)動器,5V 供運(yùn)動控制器;25.2V 電池經(jīng)穩(wěn)壓模塊,輸出 19.5V 為 NUC 供電,12V 為雷達(dá)供電,續(xù)航 1 小時 。-
2.2 軟件系統(tǒng)設(shè)計-
2.2.1 開發(fā)平臺-
本文算法開發(fā)和實(shí)驗(yàn)平臺均基于 Ubuntu 操作系統(tǒng),四足機(jī)器人運(yùn)動控制算法基于 C++開發(fā),同時控制器上安裝有 PREEMPT-RT 補(bǔ)丁,作為一個 Linux 內(nèi)核的實(shí)時拓展補(bǔ) 丁,可以提高系統(tǒng)對實(shí)時性要求的響應(yīng)性,通過減小 Ubuntu 系統(tǒng)內(nèi)核的搶占延遲,使 其更適用于四足機(jī)器人這種對實(shí)時控制要求較高的平臺。 本文的感知算法和指令式導(dǎo)航算法基于 ROS 機(jī)器人開發(fā)系統(tǒng)并利用了可視化工具 Rviz,在窗口中直接顯示語義分割結(jié)果和四足機(jī)器人規(guī)劃的導(dǎo)航路線等信息,進(jìn)一步豐 富了實(shí)驗(yàn)過程的視覺呈現(xiàn)。-
2.2.2 通信子系統(tǒng)-
在通信系統(tǒng)設(shè)置上本文在通信方式的選擇上根據(jù)不同階段采用了不同策略,其中主 要分為兩種,語音識別算法是直接在線調(diào)用 AI 大語言模型,通過 WIFI 網(wǎng)絡(luò)通信;在感 知算法內(nèi)部采用的是基于 ROS 的通信機(jī)制,而在與四足機(jī)器人進(jìn)行通訊時,由于四足 機(jī)器人控制器上并沒有配置 ROS 開發(fā)系統(tǒng),因而選擇了一種輕量化的通訊框架:LCM 通訊。感知模塊處理完的信息先通過在線調(diào)用 AI 大語言模型進(jìn)行信息推理,然后通過 LCM 將圖像信息和導(dǎo)航指令消息傳遞給四足機(jī)器人運(yùn)動控制器,實(shí)現(xiàn)四足機(jī)器人建圖 以及導(dǎo)航功能的視線。-
2.2.3 軟件系統(tǒng)架構(gòu)-
本軟件系統(tǒng)架構(gòu)圖展示了一個高度集成的四足 機(jī)器人智能交互和任務(wù)規(guī)劃執(zhí)行流程。系統(tǒng)通過語音文本識別和自然人機(jī)交互模塊,實(shí) 現(xiàn)與用戶的高效溝通。利用 AI 大語言模型進(jìn)行語義解析,將輸入的自然語言轉(zhuǎn)化為精 確的語義指令。結(jié)合感知網(wǎng)絡(luò)和訓(xùn)練參數(shù)優(yōu)化,系統(tǒng)能夠生成適應(yīng)環(huán)境的感知信息。任 務(wù)規(guī)劃和運(yùn)動規(guī)劃模塊通過代價計算和高層反饋,實(shí)現(xiàn)對機(jī)器人行為的智能規(guī)劃和路徑優(yōu)化。關(guān)鍵點(diǎn)路徑和三次樣條曲線的應(yīng)用,確保了軌跡跟蹤的平滑性和控制指令的精確性。整個系統(tǒng)架構(gòu)通過底層反饋機(jī)制,實(shí)現(xiàn)了對規(guī)劃執(zhí)行的實(shí)時監(jiān)控和動態(tài)調(diào)整,確保了機(jī)器人在復(fù)雜環(huán)境中的高效、穩(wěn)定和自適應(yīng)的運(yùn)行。-
第 3 章 算法原理分析-
3.1 基于動力學(xué)模型的多模式運(yùn)動控制原理-
采用零空間映射全身運(yùn)動控制(WBC)方法,將低優(yōu)先級任務(wù)映射至高優(yōu)先級任務(wù)零空間,實(shí)現(xiàn)多任務(wù)運(yùn)動。四足機(jī)器人運(yùn)動控制任務(wù)按優(yōu)先級分為軀干位置、姿態(tài)、支撐腿及擺動腿任務(wù),通過零空間映射獲取關(guān)節(jié)位置、速度與加速度。其中,關(guān)節(jié)位置和速度利用 PD 控制穩(wěn)定姿態(tài);關(guān)節(jié)加速度結(jié)合模型預(yù)測控制(MPC)計算的前饋支撐力,通過 QP 優(yōu)化調(diào)整誤差,最終由動力學(xué)方程算出加速度。該方法通過 MPC 確定最優(yōu)反力分布,WBC 據(jù)此計算關(guān)節(jié)力矩、位置與速度,降低控制復(fù)雜度。-
3.2 基于指令式學(xué)習(xí)的四足機(jī)器人自主導(dǎo)航原理-
3.2.1 環(huán)境語義構(gòu)建-
將雷達(dá)、相機(jī)采集信息傳入大語言模型,利用其語義理解能力提取關(guān)鍵信息并生成優(yōu)化指令,再通過百度文本合成模塊播報,助力機(jī)器人在復(fù)雜環(huán)境下快速決策。-
3.2.2 指令式學(xué)習(xí)路徑規(guī)劃-
基于度量的可微分優(yōu)化訓(xùn)練策略,構(gòu)建可微分代價圖計算路徑穿越成本,指導(dǎo)網(wǎng)絡(luò)更新。訓(xùn)練后的策略從自身觀察提取環(huán)境信息,解碼為可穿越性數(shù)據(jù),規(guī)劃行動路徑。端到端訓(xùn)練使觀察特征可依目標(biāo)優(yōu)化,提升實(shí)際應(yīng)用性能。-
3.3 基于 AI 大語言模型的智能行為調(diào)度-
3.3.1 自然人機(jī)交互的語義解析-
使用百度 Appbuilder 語音識別極速版(ASR)處理語音指令,通過認(rèn)證創(chuàng)建請求,采用 RAW 音頻傳輸提高效率。識別文本經(jīng)短文本語音合成(TTS)輸出,調(diào)用時控制文本長度優(yōu)化處理。針對中文多音字標(biāo)注實(shí)現(xiàn)自定義發(fā)音。-
基于提示語言模型,將輸入文本預(yù)處理后,由提示生成模塊創(chuàng)建任務(wù)提示,大語言模型分析生成內(nèi)部表示,輸出模塊轉(zhuǎn)化為文本,反饋模塊依據(jù)用戶反饋優(yōu)化。通過提示工程,ASR 將語音轉(zhuǎn)換文本并提取關(guān)鍵詞,大語言模型將其轉(zhuǎn)為標(biāo)準(zhǔn)化控制指令,TTS 反饋結(jié)果,實(shí)現(xiàn)人機(jī)交互。-
3.3.2 邏輯推理與智能調(diào)度-
利用大語言模型邏輯推理能力解析用戶指令,在復(fù)雜場景中提供替代方案、處理倫理判斷。提出智能行為調(diào)度策略,將人類指令轉(zhuǎn)化語義信息,通過高層反饋糾錯、動態(tài)調(diào)整任務(wù)子函數(shù),運(yùn)動狀態(tài)機(jī)與規(guī)劃轉(zhuǎn)化為具體運(yùn)動,底層反饋應(yīng)對執(zhí)行問題,實(shí)現(xiàn)機(jī)器人復(fù)雜環(huán)境下的智能決策與自主調(diào)度。
-
機(jī)器人
+關(guān)注
關(guān)注
213文章
29748瀏覽量
212977 -
AI
+關(guān)注
關(guān)注
88文章
35168瀏覽量
280122 -
RDK
+關(guān)注
關(guān)注
0文章
26瀏覽量
9227
發(fā)布評論請先 登錄
從工業(yè)到醫(yī)療再到太空機(jī)器人 機(jī)械臂都有什么不同?
大象機(jī)器人攜手進(jìn)迭時空推出 RISC-V 全棧開源六軸機(jī)械臂產(chǎn)品
《電子發(fā)燒友電子設(shè)計周報》聚焦硬科技領(lǐng)域核心價值 第18期:2025.06.30--2025.07.4
《電子發(fā)燒友電子設(shè)計周報》聚焦硬科技領(lǐng)域核心價值 第19期:2025.07.7--2025.07.11
《電子發(fā)燒友電子設(shè)計周報》聚焦硬科技領(lǐng)域核心價值 第20期:2025.07.14--2025.07.18
扭矩傳感器實(shí)現(xiàn)機(jī)器人敏捷操作
【mBot申請】視覺機(jī)器人
工業(yè)機(jī)器人的工作原理
ANYmal機(jī)器人具有腿和腳,可跨越障礙物
如何控制真實(shí)機(jī)械臂/機(jī)器人呢
機(jī)器人系統(tǒng)與控制需求簡介
制造業(yè)最常見的機(jī)器人——機(jī)械臂
機(jī)械臂和移動機(jī)器人的架構(gòu)介紹
機(jī)械臂焊接機(jī)器人軌跡控制原理
地瓜機(jī)器人RDK X5 規(guī)格書與地瓜機(jī)器人RDK X5原理圖

評論