日韩欧美中文字幕一区二区三区日日骚 ,中文字幕一区无线解说日日爽,无码在线视频一区二区

動(dòng)物學(xué)習(xí)使用工具的技能大多來自觀察學(xué)習(xí)和實(shí)踐。例如通過觀察，黑猩猩學(xué)會(huì)了用樹枝“捕捉”昆蟲，卷尾猴會(huì)用棍子將食物掃到身邊。雖然我們不知道它們是否只是“機(jī)械模仿”，但我們相信這種使用工具的能力代表著一種更高水平的智力。

大猩猩用木棍收集草藥

一個(gè)值得探討的問題：我們能否讓機(jī)器人以同樣的方式——觀察和實(shí)踐 ——學(xué)會(huì)使用工具？

執(zhí)行這種復(fù)雜的多對(duì)象操作任務(wù)（例如涉及工具使用的任務(wù)）的前提是理解物體間的物理因果關(guān)系，也就是要能夠預(yù)測(cè)一個(gè)物體如何與另一個(gè)物體相互作用的。我們?cè)谥暗囊曈X模型強(qiáng)化學(xué)習(xí)的研究中探究過機(jī)器人在沒有監(jiān)測(cè)的情況下怎樣利用因果視覺預(yù)測(cè)模型與周圍環(huán)境互動(dòng)。學(xué)習(xí)這樣的模型之后，機(jī)器人可以完成各種簡單的任務(wù)，包括折疊衣物和擺放物體。但是，如果我們考慮有更多工具的情況，例如用掃帚將污垢掃入簸箕，這種學(xué)習(xí)模型是不夠的。

利用因果視覺預(yù)測(cè)模型與周圍環(huán)境互動(dòng)

https://bair.berkeley.edu/blog/2018/11/30/visual-rl/

因此，我們從動(dòng)物的學(xué)習(xí)方式中汲取靈感，設(shè)計(jì)了一種算法，使機(jī)器人可以通過模仿和互動(dòng)式學(xué)習(xí)獲得工具使用技能。尤其是我們的設(shè)計(jì)還可以通過混合示范數(shù)據(jù)和無監(jiān)督學(xué)習(xí)，使機(jī)器人在沒有已知工具的情況下，可以使用其他新物體作為臨時(shí)工具。此外，根據(jù)設(shè)計(jì)的需要，我們的機(jī)器人還可以自行決定是否使用被提供的工具。在這篇文章中，我將解釋其中原理。

我們的設(shè)計(jì)使機(jī)器人明白如何使用不同的物體作為工具來實(shí)現(xiàn)指定的任務(wù)（根據(jù)黃色箭頭標(biāo)記）。機(jī)器人在執(zhí)行任務(wù)期間自行決定是否使用已提供的工具。

從示范中學(xué)習(xí)

首先，我們用示范數(shù)據(jù)集來說明如何使用各種工具。因?yàn)槲覀冏罱K希望機(jī)器人學(xué)習(xí)一種對(duì)各種工具使用技能都有用的模型，所以我們收集了使用不同工具完成各種任務(wù)的示范數(shù)據(jù)。對(duì)于每次示范，我們都會(huì)用機(jī)器人自帶攝像頭記錄圖像序列，包括工具的位置和各種指令的動(dòng)作。

運(yùn)動(dòng)示范例子

通過這些數(shù)據(jù)，我們可以擬合一個(gè)模型，設(shè)計(jì)一系列動(dòng)作，使機(jī)器人能夠?qū)?dāng)前場(chǎng)景中的物體用作工具。并且，為了得到示范中各種動(dòng)作的范圍，該動(dòng)作設(shè)計(jì)模型輸出了動(dòng)作序列的分布。

視覺預(yù)測(cè)模型的無監(jiān)督數(shù)據(jù)集

由于我們希望機(jī)器人不只是機(jī)械模仿示范的行為，而是能夠應(yīng)對(duì)新物體和新情況，因此我們需要大量不同的數(shù)據(jù)。也就是說，機(jī)器人可以自主收集數(shù)據(jù)。例如，我們希望機(jī)器人能夠理解小失誤，有偏差的抓取可能會(huì)影響其下一步動(dòng)作。因此，我們要讓機(jī)器人通過自己收集的數(shù)據(jù)來累積經(jīng)驗(yàn)。

機(jī)器人還可以兩種不同的方式自主收集數(shù)據(jù)：通過隨機(jī)的動(dòng)作序列收集數(shù)據(jù)或者通過之前強(qiáng)化學(xué)習(xí)模型輸入的動(dòng)作樣本收集數(shù)據(jù)。后者使機(jī)器人可以抓住工具并隨意移動(dòng)它們，這對(duì)于理解多物體相互作用至關(guān)重要。

我們最終的數(shù)據(jù)集包括專業(yè)示范數(shù)據(jù)，機(jī)器人對(duì)各種工具的自學(xué)經(jīng)驗(yàn)以及BAIR機(jī)器人交互數(shù)據(jù)。我們用這個(gè)數(shù)據(jù)集來訓(xùn)練機(jī)器人的動(dòng)態(tài)模型。該模型使用循環(huán)卷積神經(jīng)網(wǎng)絡(luò)，輸入先前收集的圖像和每個(gè)時(shí)間點(diǎn)的動(dòng)作，就可以生成下一個(gè)圖像預(yù)測(cè)以作出反應(yīng)。

示范指導(dǎo)動(dòng)作

在測(cè)試時(shí)，機(jī)器人可以使用模擬數(shù)據(jù)訓(xùn)練的模型來指導(dǎo)動(dòng)作計(jì)劃過程和預(yù)測(cè)模型，以確定采取哪些動(dòng)作可以完成它要執(zhí)行的任務(wù)。

新任務(wù)是通過用戶提供的物體移動(dòng)關(guān)鍵點(diǎn)位置來指定的。例如，我們想要機(jī)器人把垃圾掃進(jìn)簸箕，就可以選擇垃圾的中心點(diǎn)和垃圾在簸箕上的最終位置來確定任務(wù)（見下圖）。用這種方式指定任務(wù)不會(huì)告訴機(jī)器人如何使用某工具，甚至不會(huì)告訴它在這個(gè)場(chǎng)景下有哪種工具可以使用，機(jī)器人必須在其動(dòng)作規(guī)劃過程中自行確定。

我們使用基于抽樣的動(dòng)作計(jì)劃程序，利用動(dòng)作設(shè)計(jì)和視頻預(yù)測(cè)模型，使機(jī)器人可以使用不同的工具和物體來完成各種任務(wù)。需要指出的是，動(dòng)作序列最初是來自動(dòng)作設(shè)計(jì)模型的隨機(jī)采樣。然后，我們?cè)偻ㄟ^視頻預(yù)測(cè)模型來預(yù)測(cè)每個(gè)動(dòng)作計(jì)劃的結(jié)果。

對(duì)同一初始場(chǎng)景不同動(dòng)作序列的視頻預(yù)測(cè)

通過采用頂層計(jì)劃（最有可能導(dǎo)致期望結(jié)果的動(dòng)作序列）并使其合理分布，我們可以重復(fù)采樣并改進(jìn)最頂層計(jì)劃，然后讓機(jī)器人執(zhí)行。

實(shí)踐

我們嘗試此方法使機(jī)器人能夠使用新工具來完成用戶指定的任務(wù)。

左：帶有任務(wù)指示箭頭的初始場(chǎng)景。中：與最佳計(jì)劃相對(duì)應(yīng)的視頻預(yù)測(cè)。右：機(jī)器人執(zhí)行計(jì)劃。

在前文提到的任務(wù)中，機(jī)器人使用附近的掃把來更有效地執(zhí)行任務(wù)：

盡管機(jī)器人之前從未見過海綿，但它可以自學(xué)如何使用它來清潔盤子上的碎屑：

在下面的示例中，機(jī)器人只能在綠色陰影區(qū)域內(nèi)移動(dòng)，并且需要將藍(lán)色圓柱體向自己方向拉。這個(gè)示例的關(guān)鍵是，機(jī)器人學(xué)會(huì)如何使用L形鉤來完成任務(wù)：

而且，即使出現(xiàn)諸如瓶子一類的普通物體時(shí)，機(jī)器人也可以推斷出如何將其用作工具來完成任務(wù)：

最后，在可以不使用工具的情況下，機(jī)器人選擇用自己的鉗子完成任務(wù)：

場(chǎng)景1：機(jī)器人使用工具從而更有效地移動(dòng)兩個(gè)對(duì)象。

場(chǎng)景2：機(jī)器人忽略鉤型工具，用自己的鉗子移動(dòng)單個(gè)物體。

除了這些例子之外，我們?cè)谡撐闹械亩拷Y(jié)果表明，我們的方法比只從示范中學(xué)習(xí)更通用，比只從經(jīng)驗(yàn)中學(xué)習(xí)更能提高機(jī)器人的能力。

其他相關(guān)研究

先前的深度學(xué)習(xí)研究探索了在指定任務(wù)和運(yùn)動(dòng)計(jì)劃框架下使用邏輯編程和已知模型的如何讓機(jī)器人操作工具。但是，基于邏輯和基于分析模型的系統(tǒng)容易受到建模錯(cuò)誤的影響，這些錯(cuò)誤可能會(huì)在測(cè)試執(zhí)行期間累積，從而影響整個(gè)系統(tǒng)。

其他研究包括將工具的使用分解為面向任務(wù)的學(xué)習(xí)，及使用計(jì)劃或策略學(xué)習(xí)來操作工具等。這些方法將機(jī)器人的運(yùn)動(dòng)范圍限制在工具附近的區(qū)域內(nèi)，而我們的方法能夠應(yīng)對(duì)周圍有工具或沒有工具的不同情況。

還有一些研究還提出了工具使用的動(dòng)態(tài)學(xué)習(xí)模型。然而，不同于這些使用手工設(shè)計(jì)的感知通道或完全放棄感知的方法，我們的方法可以直接從原始圖像像素中學(xué)習(xí)物體之間的交互作用。

結(jié)論

執(zhí)行涉及未知物體的多樣化復(fù)雜任務(wù)是機(jī)器人技術(shù)中的一項(xiàng)挑戰(zhàn)，我們研究學(xué)習(xí)了將物體作為工具來使用的不同任務(wù)。我們演示了我們的方法，它結(jié)合了模仿和自我監(jiān)督的交互學(xué)習(xí)，使機(jī)器人能夠用多個(gè)物體完成復(fù)雜的任務(wù)，甚至可以在新場(chǎng)景下使用臨時(shí)工具。我們希望這項(xiàng)研究代表著機(jī)器人向更通用和更強(qiáng)大邁出的一步，這樣它們終有一天可以在現(xiàn)實(shí)環(huán)境下執(zhí)行任務(wù)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器人

機(jī)器人

+關(guān)注

關(guān)注
213

文章
29748

瀏覽量
212976
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1224

瀏覽量
25457
強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
269

瀏覽量
11605

原文標(biāo)題：伯克利BAIR最新研究：讓機(jī)器人自己學(xué)會(huì)使用工具

文章出處：【微信號(hào)：BigDataDigest，微信公眾號(hào)：大數(shù)據(jù)文摘】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

搜索歷史

我們能否讓機(jī)器人以同觀察和實(shí)踐學(xué)會(huì)使用工具？

評(píng)論

搜索歷史

我們能否讓機(jī)器人以同觀察和實(shí)踐學(xué)會(huì)使用工具？

評(píng)論

我們能否讓機(jī)器人以同觀察和實(shí)踐學(xué)會(huì)使用工具？