99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌提出對加速智能體的學習過程

mK5P_AItists ? 來源:未知 ? 作者:鄧佳佳 ? 2018-04-02 09:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在強化學習問題中,關于任務目標的制定,往往需要開發(fā)人員花費很多的精力,在本文中,谷歌大腦聯(lián)合佐治亞理工學院提出了正向-反向強化學習(Forward-Backward Reinforcement Learning,F(xiàn)BRL),它既能從開始位置正向進行探索,也可以從目標開始進行反向探索,從而加速智能體的學習過程。

一般來說,強化學習問題的目標通常是通過手動指定的獎勵來定義的。為了設計這些問題,學習算法的開發(fā)人員必須從本質(zhì)上了解任務的目標是什么。然而我們卻經(jīng)常要求智能體在沒有任何監(jiān)督的情況下,在這些稀疏獎勵之外,獨自發(fā)現(xiàn)這些任務目標。雖然強化學習的很多力量來自于這樣一種概念,即智能體可以在很少的指導下進行學習,但這一要求對訓練過程造成了極大的負擔。

如果我們放松這一限制,并賦予智能體關于獎勵函數(shù)的知識,尤其是目標,那么我們就可以利用反向歸納法(backwards induction)來加速訓練過程。為了達到這個目的,我們提出訓練一個模型,學習從已知的目標狀態(tài)中想象出反向步驟。

我們的方法不是專門訓練一個智能體以決策該如何在前進的同時到達一個目標,而是反向而行,共同預測我們是如何到達目標的。我們在Gridworld和漢諾塔(Towers of Hanoi)中對我們的研究進行了評估,并通過經(jīng)驗證明了,它的性能比標準的深度雙Q學習(Deep Double Q-Learning,DDQN)更好。

強化學習(Reinforcement Learning,RL)問題通常是由智能體在對環(huán)境的任務獎勵盲然無知的情況下規(guī)劃的。然而,對于許多稀疏獎勵問題,包括點對點導航、拾取和放置操縱、裝配等等目標導向的任務,賦予該智能體以獎勵函數(shù)的知識,對于學習可泛化行為來說,既可行又實用。

通常,這些問題的開發(fā)人員通常知道任務目標是什么,但不一定知道如何解決這些問題。在本文中,我們將介紹我們?nèi)绾卫脤δ繕说闹R,使我們甚至能夠在智能體到達這些領域之前學習這些領域中的行為。相比于那些從一開始就將學習初始化的方法,這種規(guī)劃性方案可能更容易解決。

例如,如果我們知道所需的位置、姿勢或任務配置,那么我們就可以逆轉(zhuǎn)那些將我們帶到那里的操作,而不是迫使智能體獨自通過隨機發(fā)現(xiàn)來解決這些難題。

Gridworld和漢諾塔環(huán)境

本文中,我們介紹了正向-反向強化學習(Forward-Backward Reinforcement Learning,F(xiàn)BRL),它引入反向歸納,使我們的智能體能夠及時進行逆向推理。通過一個迭代過程,我們既從開始位置正向進行了探索,也從目標開始進行了反向探索。

為了實現(xiàn)這一點,我們引入了一個已學習的反向動態(tài)模型,以從已知的的目標狀態(tài)開始進行反向探索,并在這個局部領域中更新值。這就產(chǎn)生了“展開”稀疏獎勵的效果,從而使它們更容易發(fā)現(xiàn),并因此加速了學習過程。

標準的基于模型的方法旨在通過正向想象步驟并使用這些產(chǎn)生幻覺的事件來增加訓練數(shù)據(jù),從而減少學習優(yōu)秀策略所必需的經(jīng)驗的數(shù)量。然而,并不能保證預期的狀態(tài)會通向目標,所以這些轉(zhuǎn)出結(jié)果可能是不充分的。

預測一個行為的結(jié)果的能力并不一定能提供指導,告訴我們哪些行為會通向目標。與此相反,F(xiàn)BRL采用了一種更有指導性的方法,它給定了一個精確的模型,我們相信,每一個處于反向步驟中的狀態(tài)都有通向目標的路徑。

Gridworld中的實驗結(jié)果,其中n =5、10、15、20。我們分別使用50、100、150、200步的固定水平,結(jié)果是10次實驗的平均值。

相關研究

當我們訪問真正的動態(tài)模型時,可以使用純粹基于模型的方法(如動態(tài)編程)來計算所有狀態(tài)的值(Sutton和Barto于1998年提出),盡管當狀態(tài)空間較大或連續(xù)時,難以在整個狀態(tài)空間中進行迭代。Q-Learning是一種無模型方法,它通過直接訪問狀態(tài)以在線方式更新值,而函數(shù)逼近技術(如Deep Q-Learning)可以泛化到未見的數(shù)據(jù)中(Mnih等人于2015年提出)。

基于模型和無模型信息的混合方法也可以使用。例如,DYNA-Q(Sutton于1990年提出)是一種早期的方法,它使用想象的轉(zhuǎn)出出來更新Q值,就如同在真實環(huán)境中經(jīng)歷過一樣。最近出現(xiàn)了更多方法,例如NAF(Gu等人于2016年提出)和I2A(Weber等人于2017年提出)。但這些方法只使用正向的想象力。

與我們自己的方法相似的方法是反向的值迭代(Zang等人于2007年提出),但這是一種純粹基于模型的方法,并且它不學習反向模型。一個相關的方法從一開始就實現(xiàn)雙向搜索和目標(Baldassarre于2003年提出),但這項研究只是學習值,而我們的目標是學習行動和值。

另一項相似的研究是通過使用接近目標狀態(tài)的反向課程來解決問題(Florensa等人于2017年提出)。但是,該方法假設智能體可以在目標附近得以初始化。我們不做這個假設,因為了解目標狀態(tài)并不意味著我們知道該如何達到這一狀態(tài)。

漢諾塔中的實驗結(jié)果,其中n = 2、3。我們分別使用50、100步的固定水平。 結(jié)果是10次試驗的平均值。

許多研究通過使用域知識來幫助加速學習,例如獎勵塑造(Ng等人于1999年提出)。另一種方法是更有效地利用回放緩沖區(qū)中的經(jīng)驗。優(yōu)先經(jīng)驗復現(xiàn)(Schaul等人于2015年提出)旨在回放具有高TD誤差的樣本。事后經(jīng)驗回放(Hindsight experience replay)將環(huán)境中的每個狀態(tài)視為一個潛在目標,這樣即使系統(tǒng)無法達到所需的目標,也可以進行學習。

使用反向動力學的概念類似于動力學逆過程(Agrawal等人于2016年,Pathak等人于2017年提出)。在這些方法中,系統(tǒng)預測在兩個狀態(tài)之間產(chǎn)生轉(zhuǎn)換的動態(tài)。我們的方法是利用狀態(tài)和動作來預測前一個狀態(tài)。此函數(shù)的目的是進行反向操作,并使用此分解來學習靠近目標的值。

本文中,我們介紹了一種加速學習具有稀缺獎勵問題的方法。我們介紹了FBRL,它從目標的反向過程中得到了想象步驟。我們證明了該方法在Gridworld和諾塔中的性能表現(xiàn)優(yōu)于DDQN。這項研究有多個擴展方向。

我們對于評估一個反向計劃方法很感興趣,但我們也可以運用正向和反向的想象力進行訓練。另一項進步是改善規(guī)劃策略。我們使用了一種具有探索性和貪婪性的方法,但沒有評估如何在兩者之間進行權衡。我們可以使用優(yōu)先掃描(Moore和Atkeson等人于1993年提出),它選擇那些能夠?qū)е戮哂懈逿D誤差狀態(tài)的行為。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6231

    瀏覽量

    108189
  • 智能
    +關注

    關注

    8

    文章

    1733

    瀏覽量

    120374

原文標題:谷歌大腦提出對智能體進行「正向-反向」強化學習訓練,加速訓練過程

文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    IBM推動AI智能應用加速普及

    受訪企業(yè)高管表示,預計 2025年,人工智能支持的工作流程將激增 8倍,人工智能將提高流程效率、降低成本并改變工作流程。
    的頭像 發(fā)表于 06-28 10:41 ?454次閱讀

    宇視科技2025合作伙伴大會丨業(yè)內(nèi)首次提出“AIoT智能”新理念

    4月29日,春滿長安,雁塔風起,2025宇視合作伙伴大會在西安國際會展中心隆重舉行。宇視和近兩千名合作伙伴齊聚古都,共探AIoT與行業(yè)大模型深度融合的創(chuàng)新實踐,共繪智能時代產(chǎn)業(yè)升級藍圖。本次大會以
    的頭像 發(fā)表于 04-30 11:08 ?392次閱讀
    宇視科技2025合作伙伴大會丨業(yè)內(nèi)首次<b class='flag-5'>提出</b>“AIoT<b class='flag-5'>智能</b><b class='flag-5'>體</b>”新理念

    什么是AI智能

    在當今數(shù)字化迅速發(fā)展的時代,AI智能作為技術進步的重要標志之一,正逐漸滲透到我們生活的各個方面。簡單來說,AI智能是指能夠執(zhí)行特定任務、解決問題或做出決策的人工
    的頭像 發(fā)表于 04-16 09:52 ?679次閱讀
    什么是AI<b class='flag-5'>智能</b><b class='flag-5'>體</b>

    硅基覺醒已至前夜,聯(lián)發(fā)科攜手生態(tài)加速智能化用戶體驗時代到來

    、主動、無界的“智能化用戶體驗“時代。 “智能化用戶體驗”將會擁有“主動及時、知你懂你、互動協(xié)作、學習進化、專屬隱私信息守護”五大特征。
    發(fā)表于 04-13 19:51

    請求贈閱《零基礎開發(fā)AI Agent——手把手教你用扣子做智能

    博主好!致敬葉濤 管鍇 張心雨三位AI具身智能-智能方面的專家、導師! 《零基礎開發(fā)AI Agent——手把手教你用扣子做智能》一不懂編
    發(fā)表于 04-10 12:16

    學習智能開發(fā)

    智能是大模型的應用落地,正在學習中,這本書太及時了,非常想看看。
    發(fā)表于 03-27 15:48

    AI智能套件

    智能解決方案。一、應用領域AI智能套件具備自然語言處理、機器學習以及人機交互能力,可以滲入用戶的日常生活與工作環(huán)境,對傳統(tǒng)設備進行升級。教育領域:
    發(fā)表于 02-25 16:48 ?0次下載

    谷歌AI智能執(zhí)行復雜任務能力大幅提升

    自然語言描述任務,隨后由AI智能代替用戶執(zhí)行并最終完成任務,極大地提升工作效率和便捷性。 為了推進這一技術的實現(xiàn),谷歌正在積極開發(fā)兩個相關項目。其中備受矚目的是名為“Mariner”的瀏覽器擴展程序。通過該程序,AI
    的頭像 發(fā)表于 02-17 14:39 ?642次閱讀

    谷歌加速AI部門整合:AI Studio團隊并入DeepMind

    近日,谷歌正緊鑼密鼓地推進其人工智能(AI)部門的整合工作。據(jù)谷歌AI Studio主管Logan Kilpatrick在領英頁面上的透露,谷歌已將AI Studio團隊整體轉(zhuǎn)移至De
    的頭像 發(fā)表于 01-13 14:40 ?719次閱讀

    英偉達與谷歌聯(lián)手加速量子計算設備設計

    近日,據(jù)外媒最新報道,英偉達與谷歌兩大科技巨頭宣布攜手合作,共同加速下一代量子計算設備的設計進程。 雙方在一份聯(lián)合聲明中透露,谷歌的量子人工智能部門將充分利用英偉達強大的Eos超級計算
    的頭像 發(fā)表于 11-21 11:08 ?763次閱讀

    NPU與機器學習算法的關系

    緊密。 NPU的起源與特點 NPU的概念最早由谷歌在其TPU(Tensor Processing Unit)項目中提出,旨在為TensorFlow框架提供專用的硬件加速。NPU的設計目標是提高機器
    的頭像 發(fā)表于 11-15 09:19 ?1237次閱讀

    具身智能與機器學習的關系

    具身智能(Embodied Intelligence)和機器學習(Machine Learning)是人工智能領域的兩個重要概念,它們之間存在著密切的關系。 1. 具身智能的定義 具身
    的頭像 發(fā)表于 10-27 10:33 ?1059次閱讀

    FPGA加速深度學習模型的案例

    FPGA(現(xiàn)場可編程門陣列)加速深度學習模型是當前硬件加速領域的一個熱門研究方向。以下是一些FPGA加速深度學習模型的案例: 一、基于FPG
    的頭像 發(fā)表于 10-25 09:22 ?1242次閱讀

    谷歌AlphaChip強化學習工具發(fā)布,聯(lián)發(fā)科天璣芯片率先采用

    近日,谷歌在芯片設計領域取得了重要突破,詳細介紹了其用于芯片設計布局的強化學習方法,并將該模型命名為“AlphaChip”。據(jù)悉,AlphaChip有望顯著加速芯片布局規(guī)劃的設計流程,并幫助芯片在性能、功耗和面積方面實現(xiàn)更優(yōu)表現(xiàn)
    的頭像 發(fā)表于 09-30 16:16 ?705次閱讀

    FPGA在人工智能中的應用有哪些?

    FPGA(現(xiàn)場可編程門陣列)在人工智能領域的應用非常廣泛,主要體現(xiàn)在以下幾個方面: 一、深度學習加速 訓練和推理過程加速:FPGA可以用來
    發(fā)表于 07-29 17:05