99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

自然語言控制機械臂:ChatGPT與機器人技術(shù)的融合創(chuàng)新(下)

大象機器人科技 ? 來源:大象機器人科技 ? 作者:大象機器人科技 ? 2024-04-11 15:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

引言


在我們的上一篇文章中,我們探索了如何將ChatGPT集成到myCobot 280機械臂中,實現(xiàn)了一個通過自然語言控制機械臂的系統(tǒng)。我們詳細介紹了項目的動機、使用的關(guān)鍵技術(shù)如ChatGPT和Google的Speech-to-text服務(wù),以及我們是如何通過pymycobot模塊來控制機械臂的。通過將自然語言處理和機械臂控制相結(jié)合,我們的項目旨在降低機器人編程的門檻,使得非專業(yè)人士也能輕松地進行機器人編程和實驗。

接下來,在這篇文章中,我們將討論在開發(fā)這一系統(tǒng)過程中遇到的挑戰(zhàn),我們是如何克服這些挑戰(zhàn)的,以及項目未來的擴展可能性。我們的目標(biāo)是深入了解技術(shù)實施的具體問題,并探索該系統(tǒng)未來發(fā)展的新方向。

wKgZomYXhL2AWINGAHjQGzQa6LU646.png

開發(fā)當(dāng)中遇到的困難


在開發(fā)集成了ChatGPT的mycobot 280機械臂控制系統(tǒng)的過程中,我面臨了幾個主要的技術(shù)挑戰(zhàn)。

1.語音識別的準確性和響應(yīng)時間


首先,我遇到的挑戰(zhàn)是語音識別的準確性和反應(yīng)時間。盡管使用了Google的Speech-to-text,但在實際應(yīng)用中,我發(fā)現(xiàn)它有時難以準確識別專業(yè)術(shù)語或在嘈雜環(huán)境中捕捉語音指令??赡苁且驗椴惶斫獾讓舆壿嬤\行的一個原理是什么,也不知道如何來正確的使用。此外,從語音輸入到文本輸出的過程延遲較長,如何來判斷這句話是不是說完了,通常響應(yīng)的時間較久。

wKgZomYXjQiAdddWAAA5T4Pbqmk535.png

在我說完之后,大概會有3s左右的響應(yīng)時間。

2.OpenAI API的實用性和地域限制


ChatGPT的API 是整個項目的核心功能點,沒有了他就不能實現(xiàn)AI的機械臂控制系統(tǒng)了。在一開始測試代碼的時候我用的是WEB版本的ChatGPT,一開始沒有考慮到使用API是一個比較大的問題。

因為地區(qū)的問題,沒有辦法直接通過API進行訪問OpenAI,會出現(xiàn)網(wǎng)絡(luò)延遲,不能夠使用代理等軟件來實現(xiàn)訪問。除此之外還得確保網(wǎng)絡(luò)的穩(wěn)定性才能夠快快速的進行處理。

wKgZomYXjTqAJnVDAAB5lnQ5YAc478.png

3.自然語言轉(zhuǎn)指令的處理


如果解決了上邊的生成代碼的問題,我們將會得到類似于命令行的字符串,需要將它轉(zhuǎn)變成可以編譯的代碼。一開始只考慮到了單行的命令行

"robot.move_to_zero()"


要將字符串轉(zhuǎn)化成執(zhí)行的代碼可以用到python的getattr(),他是一個內(nèi)置函數(shù),用于獲取對象的屬性值。

getattr(object, name[, default]) object:表示要獲取屬性的對象。 name:表示要獲取的屬性的名稱。 default:可選參數(shù),表示如果指定的屬性不存在時返回的默認值。


getattr() 函數(shù)會嘗試獲取指定對象的指定屬性的值。如果對象具有該屬性,則返回屬性的值;如果對象沒有指定的屬性,但提供了默認值,則返回默認值;如果對象沒有指定的屬性,并且沒有提供默認值,則會引發(fā) AttributeError 異常。

舉個例子直接調(diào)用類的方法

class Myclass: def print_1(self): print("halo word") obj = mycalss() getattr(obj,"print_1")() """ halo word


用這個方法就可以完美解決如何將字符串的形式輸出可執(zhí)行的代碼了!

接下來是將字符串轉(zhuǎn)化為可執(zhí)行代碼的過程:

我們收到的字符串是代碼的形式例如

"robot.move_to_zero()"


我們要將這一部分進行拆分,分為obj和方法兩部分,就要用到python當(dāng)中的分割的方法。

# 以.為節(jié)點分為前后兩個部分 command_str = "robot.move_to_zero()" parts = command_str.split(".") parts[0] = "robot" part[1] = "move_to_zero()" # 去掉括號保留,方法名 method_name = part[1].split("()")[0] method = getatter(robot,method_name) method() #處理轉(zhuǎn)化方法 def execute_command(instance,command_str): try: #分割對象名和方法 parts = command_str.split(".") if len(parts) != 2 or parts[0] != 'robot': print("Invalid command format.") return method_name = parts[1].split("()")[0] #移除括號 #使用getattr 安全的獲取方法引用 if hasattr(instance, method_name): method = getattr(instance, method_name) method() else: print(f"the method {method_name} does not exist!") except Exception as e: print(f"An error occurred: {e}")

這樣就完成了,能夠處理單行的字符串,但是在測試的時候使用產(chǎn)生多行的命令的時候,這個代碼就不行了,它會變成一長串,所以這個方法是無效的。

上述三個是我主要遇到的問題,接下來我將一一的進行解答。

解決方案和應(yīng)對策略


1.優(yōu)化語音識別


根據(jù)我上述描寫的識別延遲的問題,我是通過設(shè)置時間來優(yōu)化我的程序。

# 設(shè)置timeout為3秒,phrase_time_limit為10秒 audio = recognizer.listen(source, timeout=3, phrase_time_limit=10)


默認設(shè)置沒有聽到聲音,一直的進行監(jiān)聽,我設(shè)置了時間上的限制10s,也能夠保證我在說完話之后較快的一個響應(yīng)。

接下來完成的功能代碼

import speech_recognition as sr def speech_to_text(): # 初始化識別器 recognizer = sr.Recognizer() with sr.Microphone() as source: print("start speaking...") # 監(jiān)聽源,設(shè)置timeout和phrase_time_limit # timeout:在這段時間內(nèi)沒有檢測到聲音,則停止監(jiān)聽 # phrase_time_limit:監(jiān)聽的最大時長 try: audio = recognizer.listen(source, timeout=3, phrase_time_limit=10) except sr.WaitTimeoutError: print("No speech was detected within the timeout period.") return None try: # 使用Google的語音識別服務(wù) text = recognizer.recognize_google(audio, language='en-US') print("You said: " + text) return text except sr.UnknownValueError: print("Google Speech Recognition could not understand audio") return None except sr.RequestError as e: print(f"Could not request results from Google Speech Recognition service; {e}") return None

這目前已經(jīng)可以滿足大部分的需求了,實際的使用情況下來來看,整個的功能還是比較完整的,能夠有效的識別出語音內(nèi)容,特別是讓我說數(shù)字的時候他主動轉(zhuǎn)化成阿拉伯?dāng)?shù)字,在進行交互的過程中省了處理數(shù)字的問題。

1.自然語言轉(zhuǎn)化優(yōu)化


如何來解決多行的指令問題呢。

當(dāng)我們收到,多行的指令就不能跟之前單純的分離來進行處理了得考慮其他的方式,以下的情況默認ChatGPT生成的指令是下面這種換行行的字符串,沒有帶注釋的(ChatGPT很喜歡寫注釋)。

"robot.move_to_zero() robot.grab_position() robot.plus_z_coords(20)"


只要把多個當(dāng)成一個來看就好了!

# 分割成多行 commands = command_str.strip().split('n') #萬一里面存在一些空白符,得先進行處理 for cmd in commands: cmd = cmd.strip() if not cmd: continue # 我們默認obj 是robot,就只需要獲取方法名字就可以了 if cmd.startswith("robot."): cmd = cmd[6:] # 分割方法名,和參數(shù) if '(' in cmd and cmd.endswith(")"): method_name, args_str = cmd.split('(', 1) method_name = method_name.strip() #刪除前后空格 args_str = args_str.rstrip(")") #刪除右側(cè)的) # 移除可能的空白字符,并按逗號分隔參數(shù) args = [arg.strip() for arg in args_str.split(',')] if args_str else []

wKgaomYXj6qAJXcQAABhB7CAPh4382.png

it works!

3.ChatGPT API的問題

關(guān)于這個問題,我目前并沒能很好的進行解決,大家如果有好的方法可以,私信我跟我溝通,因為地區(qū)的問題,并不能夠直接的用API獲取響應(yīng)。

項目的擴展功能和未來展望
視覺功能


在本次記錄當(dāng)中,缺少了最重要的一個模塊,視覺模塊,單獨有一個機械臂沒有眼睛的話跟瞎子又有什么區(qū)別呢。 對于這一部分的開發(fā),會需要花費較大的經(jīng)歷,如果以后有完成一定程度上的開發(fā),我也會及時出來跟大家進行分享。

之前也有看到日本的Shirokuma 開發(fā)個類似的項目,用到了ChatGPT4-vision的功能,做了說出目標(biāo)進行抓取的一個功能。

https://twitter.com/neka_nat/status/1733517151947108717

這個項目也是相當(dāng)?shù)挠幸馑?,給了我不少開發(fā)這個項目的想法。

wKgaomYXkAOAfa1rAAbFhnzWR4E408.png

更加智能的“賈維斯”


相信大家的肯定都有看過鋼鐵俠,隨著AI的不斷發(fā)展,我覺得在不久的將來,肯定會出現(xiàn)一款如同電影當(dāng)中的機械臂,能夠通過交流的方式來幫助你完成一些工作。

近幾年也能說是人工智能的突發(fā)猛進的幾年,AIGC是近期最火熱的內(nèi)容,只要接收到內(nèi)容就可以生成對應(yīng)的文本,圖像,視頻音頻等等。

總結(jié)


很期待未來,AI和機器人相結(jié)合能夠融合到怎樣的一個程度,是不是已經(jīng)能夠幫助人類做一定的事情了!如果你有一些好的想法,或者對我的項目修改的意見歡迎隨時跟我提出!

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    213

    文章

    29735

    瀏覽量

    212850
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    49014

    瀏覽量

    249407
  • 機械臂
    +關(guān)注

    關(guān)注

    13

    文章

    554

    瀏覽量

    25378
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1589

    瀏覽量

    9098
  • 大象機器人
    +關(guān)注

    關(guān)注

    0

    文章

    86

    瀏覽量

    121
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    RDK × 腿機器人:這只 “機械汪” 竟會說人話、走花路!

    開源:Github:https://github.com/Hello-XSJ/RDK\_vlm\_demo.git-本項目聚焦腿機器人在多模態(tài)環(huán)境感知、自然語言交互和自主行為控制方面
    的頭像 發(fā)表于 07-01 20:27 ?563次閱讀
    RDK × 腿<b class='flag-5'>臂</b><b class='flag-5'>機器人</b>:這只 “<b class='flag-5'>機械</b>汪” 竟會說人話、走花路!

    大象機器人攜手進迭時空推出 RISC-V 全棧開源六軸機械產(chǎn)品

    大象機器人成立于2016年,專注協(xié)作機器人研發(fā)與應(yīng)用,產(chǎn)品線涵蓋輕量級協(xié)作機器人、人形機器人、仿生機器人等多種形態(tài)。拳頭產(chǎn)品myCobot系
    的頭像 發(fā)表于 06-06 16:55 ?529次閱讀
    大象<b class='flag-5'>機器人</b>攜手進迭時空推出 RISC-V 全棧開源六軸<b class='flag-5'>機械</b><b class='flag-5'>臂</b>產(chǎn)品

    詳細介紹機場智能指路機器人的工作原理

    免與行人發(fā)生碰撞,為旅客提供安全、舒適的引導(dǎo)服務(wù)。 智能交互系統(tǒng) 語音識別與理解 :智能指路機器人利用先進的語音識別技術(shù),將旅客輸入的語音信號轉(zhuǎn)化為文字信息。然后,通過自然語言處理算法對文字進行分析
    發(fā)表于 05-10 18:26

    大象機器人攜手進迭時空推出 RISC-V 全棧開源六軸機械產(chǎn)品

    大象機器人成立于2016年,專注協(xié)作機器人研發(fā)與應(yīng)用,產(chǎn)品線涵蓋輕量級協(xié)作機器人、人形機器人、仿生機器人等多種形態(tài)。拳頭產(chǎn)品myCobot系
    發(fā)表于 04-25 17:59

    【「具身智能機器人系統(tǒng)」閱讀體驗】2.具身智能機器人大模型

    的設(shè)計不僅提高了機器人對環(huán)境的理解能力,還使其能夠更精準地執(zhí)行復(fù)雜任務(wù)。 擴散模型的新思路 除了大模型,擴散模型的引入為機器人控制開辟了新的研究方向。在以UniPi為代表的創(chuàng)新工作中,
    發(fā)表于 12-29 23:04

    《具身智能機器人系統(tǒng)》第7-9章閱讀心得之具身智能機器人與大模型

    研讀《具身智能機器人系統(tǒng)》第7-9章,我被書中對大模型與機器人技術(shù)融合的深入分析所吸引。第7章詳細闡述了ChatGPT for Roboti
    發(fā)表于 12-24 15:03

    【「具身智能機器人系統(tǒng)」閱讀體驗】+初品的體驗

    動態(tài)互動的。 該理論強調(diào)智能行為源于智能體的物理存在和行為能力,智能體必須具備感知環(huán)境并在其中執(zhí)行任務(wù)的能力。具身智能的實現(xiàn)涵蓋了機器學(xué)習(xí)、人工智能、機器人學(xué)、計算機視覺、自然語言處理及強化學(xué)習(xí)等領(lǐng)域
    發(fā)表于 12-20 19:17

    《具身智能機器人系統(tǒng)》第1-6章閱讀心得之具身智能機器人系統(tǒng)背景知識與基礎(chǔ)模塊

    物理交互納入智能系統(tǒng)的核心要素。 第3章是探討機器人計算系統(tǒng)。這一章節(jié)詳細闡述了自主機器人的軟硬件架構(gòu)。計算系統(tǒng)需要滿足機器人任務(wù)對算法的精度、實時性和功耗要求。書中介紹的多傳感器融合
    發(fā)表于 12-19 22:26

    自然語言處理在聊天機器人中的應(yīng)用

    上歸功于自然語言處理技術(shù)的進步。 聊天機器人的工作原理 聊天機器人的核心是一個對話系統(tǒng),它能夠處理用戶的輸入(通常是文本形式),并生成相應(yīng)的回復(fù)。這個系統(tǒng)通常包括以下幾個關(guān)鍵組件:
    的頭像 發(fā)表于 12-05 15:24 ?1189次閱讀

    自然語言處理與機器學(xué)習(xí)的關(guān)系 自然語言處理的基本概念及步驟

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學(xué)領(lǐng)域的一個分支,它致力于研究如何讓計算機能夠理解、解釋和生成人類語言。機器學(xué)習(xí)(Ma
    的頭像 發(fā)表于 12-05 15:21 ?1984次閱讀

    語音識別與自然語言處理的關(guān)系

    在人工智能的快速發(fā)展中,語音識別和自然語言處理(NLP)成為了兩個重要的技術(shù)支柱。語音識別技術(shù)使得機器能夠理解人類的語音,而自然語言處理則讓
    的頭像 發(fā)表于 11-26 09:21 ?1500次閱讀

    ASR與自然語言處理的結(jié)合

    ASR(Automatic Speech Recognition,自動語音識別)與自然語言處理(NLP)是人工智能領(lǐng)域的兩個重要分支,它們在許多應(yīng)用中緊密結(jié)合,共同構(gòu)成了自然語言理解和生成的技術(shù)體系
    的頭像 發(fā)表于 11-18 15:19 ?1025次閱讀

    自然語言處理與機器學(xué)習(xí)的區(qū)別

    在人工智能的快速發(fā)展中,自然語言處理(NLP)和機器學(xué)習(xí)(ML)成為了兩個核心的研究領(lǐng)域。它們都致力于解決復(fù)雜的問題,但側(cè)重點和應(yīng)用場景有所不同。 1. 自然語言處理(NLP) 定義: 自然語
    的頭像 發(fā)表于 11-11 10:35 ?1546次閱讀

    機器人技術(shù)的發(fā)展趨勢

    能力。 機器人能夠通過學(xué)習(xí)和訓(xùn)練,不斷優(yōu)化自身的行為和性能,實現(xiàn)更高效、更智能的工作。 自然語言處理與理解 : 隨著自然語言處理技術(shù)的進步,機器人
    的頭像 發(fā)表于 10-25 09:27 ?2351次閱讀

    工業(yè)機器人機械的設(shè)計、功能和應(yīng)用有哪些區(qū)別?

    機械是一種由多個關(guān)節(jié)連接而成的機械結(jié)構(gòu),類似于的胳膊。它通常具有可旋轉(zhuǎn)或可伸縮的關(guān)節(jié),使其能夠在空間中執(zhí)行精確的定位和操作。機械
    的頭像 發(fā)表于 08-16 09:43 ?1048次閱讀