99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

適合初學者的神經(jīng)網(wǎng)絡理論到實踐(3):打破概念束縛:什么是強化學習?

電子設計 ? 來源:電子設計 ? 作者:電子設計 ? 2020-12-10 19:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

專欄中《零神經(jīng)網(wǎng)絡實戰(zhàn)》系列持續(xù)更新介紹神經(jīng)元怎么工作,最后使用python從0到1不調(diào)用任何依賴神經(jīng)網(wǎng)絡框架(不使用tensorflow等框架)來實現(xiàn)神經(jīng)網(wǎng)絡,梯度下降、反向傳播、卷積神經(jīng)網(wǎng)絡CNN、循環(huán)神經(jīng)網(wǎng)絡RNN。從0基礎角度進行神經(jīng)網(wǎng)絡實戰(zhàn)。本篇為第三篇。
作者:司南牧

Alpha Zero就是利用強化學習打敗柯潔??梢哉f強化學習是我覺得目前最可以叫做智能算法。因為不需要數(shù)據(jù)就能自己總結(jié)出經(jīng)驗,這符合人的學習方式。

注意:強化學習有很多概念,不要一開始被這些概念束縛了。首先得知道強化學習大致是什么,再看這些概念就會恍然大悟。 本文的思路就是先介紹我對強化學習的理解。然后介紹強化學習中的一些概念。最后是強化學習實踐。

打破概念束縛:強化學習是個啥?

答:強化學習就是受到動物從生活中學習技能的思想啟發(fā)的一種智能算法;那么怎么啟發(fā)的呢?動物學習技能的過程就是不斷嘗試各種行為,最后總結(jié)經(jīng)驗,然后以后遇到相同情況直接用以往的經(jīng)驗就可以。強化學習就是這么做的?!安粩嗖聹y,檢驗,再猜測,再檢驗,直到找到達成目標的經(jīng)驗”這個過程就是強化學習。它學習的經(jīng)驗叫做模型。學習到了這些經(jīng)驗后以后就不用猜測了,直接用經(jīng)驗就可以。強化學習“學到”的經(jīng)驗是什么:“在某個狀態(tài)下,做哪個行為,得到的獎勵最大”,經(jīng)驗這是一個列表是一本教科書。

總結(jié):強化學習的輸出結(jié)果是找到解決某個問題的經(jīng)驗。強化學習的過程是不斷亂嘗試,并記錄所處的狀態(tài)和行為,找到某個狀態(tài)下獎勵最大的行為。

為何要用強化學習?( 知道為什么才是打破概念束縛的關(guān)鍵)

答:因為智能體不知道哪些行為可以產(chǎn)生獎勵,也不知道什么時候會來獎勵。這些經(jīng)驗都是要從環(huán)境中學習所得到。

似懂非懂?沒關(guān)系有個模糊的是那么回事的印象就可以??聪旅娴睦泳投?。

舉個例子:在高中生物書上有個“巴甫洛夫的狗”這個實驗。 就是巴甫洛夫每次給它狗喂食的時候都會搖鈴鐺,然后這條狗慢慢學到了“搖鈴鐺=有東西吃”這個經(jīng)驗。然后學到這個經(jīng)驗后,只要“搖鈴鐺”它就會流口水。強化學習就是受到這種啟發(fā)而發(fā)明的算法。
從“巴甫洛夫的狗”看強化學習幾個概念

強化學習思想很簡單,7個詞夠了:

智能體、目標、環(huán)境、觀察、狀態(tài)、行動、獎勵

不要慌。接下來用例子來解釋著7個東西是什么。 我們用“巴甫洛夫的狗”這個實驗解釋下這強化學習這個六個要素。

智能體。首先這條狗它是一個智能體(Agent)。

目標。它的目標(Goal)是吃飯。

環(huán)境。環(huán)境就是字面意思,它在的這個地方發(fā)生的一切都屬于環(huán)境里面的東西。

觀察。然后,它各種看和聽什么現(xiàn)象和食物相關(guān)。這個過程叫做觀察。

狀態(tài)。觀察到的內(nèi)容叫做狀態(tài)(state)。這里的狀態(tài)是:有沒有飯吃、有沒有人說話、有沒有腳步聲、有沒有鈴聲。

行為。然后它根據(jù)這些觀察會作出一些動作,如:“搖尾巴,流口水等等”。這個叫做行為(action)。行為是根據(jù)觀察到內(nèi)容(狀態(tài))而作出的。 這里可能的行為是(前半部分是狀態(tài),后半部分是行為):

聽到腳步聲——搖尾巴

聽到鈴聲——流口水

聽到腳步聲——流口水

看到天黑了——汪汪汪叫

7.獎勵。在這里,獎勵是作出的行為有沒有飯吃。

聽到腳步聲——搖尾巴——沒飯吃

聽到鈴聲——流口水——有飯吃

聽到腳步聲——流口水——沒飯吃

看到天黑了——汪汪汪叫——沒飯吃


從“巴甫洛夫的狗”分析強化學習執(zhí)行過程

現(xiàn)在,我想你隱隱約約應該看出動物怎么學習的了。就是“不斷猜測,檢驗,再猜測,再檢驗”,檢驗唯一標準是有沒有達成目標。

但是怎么理性科學的看待這個問題呢?答:“不斷猜測,檢驗,再猜測,再檢驗,直到找到達成目標的經(jīng)驗”這個過程就是強化學習。它學習的經(jīng)驗叫做模型。學習到了這些經(jīng)驗后以后就不用猜測了,直接用經(jīng)驗就可以。強化學習“學到”的經(jīng)驗是什么:“在某個狀態(tài)下,做哪個行為,得到的獎勵最大”,這是一個列表清單。

為何“狗”要不斷嘗試呢?

因為它不知道哪些行為可以產(chǎn)生獎勵,也不知道什么時候會來獎勵。這些都是要從環(huán)境中學習所得到。


審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1807

    文章

    49035

    瀏覽量

    249743
  • 強化學習
    +關(guān)注

    關(guān)注

    4

    文章

    269

    瀏覽量

    11607
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    18個常用的強化學習算法整理:從基礎方法到高級模型的理論技術(shù)與代碼實現(xiàn)

    本來轉(zhuǎn)自:DeepHubIMBA本文系統(tǒng)講解從基本強化學習方法到高級技術(shù)(如PPO、A3C、PlaNet等)的實現(xiàn)原理與編碼過程,旨在通過理論結(jié)合代碼的方式,構(gòu)建對強化學習算法的全面理
    的頭像 發(fā)表于 04-23 13:22 ?430次閱讀
    18個常用的<b class='flag-5'>強化學習</b>算法整理:從基礎方法到高級模型的<b class='flag-5'>理論</b>技術(shù)與代碼實現(xiàn)

    電子設備EMC測試整改:從理論到實踐的跨越

    深圳南柯電子|電子設備EMC測試整改:從理論到實踐的跨越
    的頭像 發(fā)表于 02-20 14:46 ?559次閱讀
    電子設備EMC測試整改:從<b class='flag-5'>理論到</b><b class='flag-5'>實踐</b>的跨越

    如何優(yōu)化BP神經(jīng)網(wǎng)絡學習

    優(yōu)化BP神經(jīng)網(wǎng)絡學習率是提高模型訓練效率和性能的關(guān)鍵步驟。以下是一些優(yōu)化BP神經(jīng)網(wǎng)絡學習率的方法: 一、理解學習率的重要性
    的頭像 發(fā)表于 02-12 15:51 ?947次閱讀

    BP神經(jīng)網(wǎng)絡的優(yōu)缺點分析

    BP神經(jīng)網(wǎng)絡(Back Propagation Neural Network)作為一種常用的機器學習模型,具有顯著的優(yōu)點,同時也存在一些不容忽視的缺點。以下是對BP神經(jīng)網(wǎng)絡優(yōu)缺點的分析: 優(yōu)點
    的頭像 發(fā)表于 02-12 15:36 ?932次閱讀

    什么是BP神經(jīng)網(wǎng)絡的反向傳播算法

    神經(jīng)網(wǎng)絡(即反向傳播神經(jīng)網(wǎng)絡)的核心,它建立在梯度下降法的基礎上,是一種適合于多層神經(jīng)元網(wǎng)絡學習算法。該算法通過計算每層
    的頭像 發(fā)表于 02-12 15:18 ?778次閱讀

    BP神經(jīng)網(wǎng)絡與深度學習的關(guān)系

    BP神經(jīng)網(wǎng)絡與深度學習之間存在著密切的關(guān)系,以下是對它們之間關(guān)系的介紹: 一、BP神經(jīng)網(wǎng)絡的基本概念 BP神經(jīng)網(wǎng)絡,即反向傳播
    的頭像 發(fā)表于 02-12 15:15 ?868次閱讀

    深度學習入門:簡單神經(jīng)網(wǎng)絡的構(gòu)建與實現(xiàn)

    深度學習中,神經(jīng)網(wǎng)絡是核心模型。今天我們用 Python 和 NumPy 構(gòu)建一個簡單的神經(jīng)網(wǎng)絡。 神經(jīng)網(wǎng)絡由多個神經(jīng)元組成,
    的頭像 發(fā)表于 01-23 13:52 ?534次閱讀

    神經(jīng)網(wǎng)絡理論研究的物理學思想介紹

    本文主要介紹神經(jīng)網(wǎng)絡理論研究的物理學思想 神經(jīng)網(wǎng)絡在當今人工智能研究和應用中發(fā)揮著不可替代的作用。它是人類在理解自我(大腦)的過程中產(chǎn)生的副產(chǎn)品,以此副產(chǎn)品,人類希望建造一個機器智能來實現(xiàn)機器文明
    的頭像 發(fā)表于 01-16 11:16 ?919次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡理論</b>研究的物理學思想介紹

    人工神經(jīng)網(wǎng)絡的原理和多種神經(jīng)網(wǎng)絡架構(gòu)方法

    在上一篇文章中,我們介紹了傳統(tǒng)機器學習的基礎知識和多種算法。在本文中,我們會介紹人工神經(jīng)網(wǎng)絡的原理和多種神經(jīng)網(wǎng)絡架構(gòu)方法,供各位老師選擇。 01 人工神經(jīng)網(wǎng)絡 ? 人工
    的頭像 發(fā)表于 01-09 10:24 ?1215次閱讀
    人工<b class='flag-5'>神經(jīng)網(wǎng)絡</b>的原理和多種<b class='flag-5'>神經(jīng)網(wǎng)絡</b>架構(gòu)方法

    XD08M3232紅外感應單片機開發(fā)板適合初學者嗎?

    學習效果和興趣保持。以下是關(guān)于XD08M3232開發(fā)板是否適合初學者的詳細分析。 1. 硬件特性 XD08M3232開發(fā)板具有豐富的硬件特性,如8K字節(jié)的FLASH、128字節(jié)的EEPROM、256字節(jié)
    發(fā)表于 12-07 14:55

    卷積神經(jīng)網(wǎng)絡與傳統(tǒng)神經(jīng)網(wǎng)絡的比較

    在深度學習領(lǐng)域,神經(jīng)網(wǎng)絡模型被廣泛應用于各種任務,如圖像識別、自然語言處理和游戲智能等。其中,卷積神經(jīng)網(wǎng)絡(CNNs)和傳統(tǒng)神經(jīng)網(wǎng)絡是兩種常見的模型。 1. 結(jié)構(gòu)差異 1.1 傳統(tǒng)
    的頭像 發(fā)表于 11-15 14:53 ?1885次閱讀

    深度學習中的卷積神經(jīng)網(wǎng)絡模型

    深度學習近年來在多個領(lǐng)域取得了顯著的進展,尤其是在圖像識別、語音識別和自然語言處理等方面。卷積神經(jīng)網(wǎng)絡作為深度學習的一個分支,因其在圖像處理任務中的卓越性能而受到廣泛關(guān)注。 卷積神經(jīng)網(wǎng)絡
    的頭像 發(fā)表于 11-15 14:52 ?851次閱讀

    RNN模型與傳統(tǒng)神經(jīng)網(wǎng)絡的區(qū)別

    神經(jīng)網(wǎng)絡是機器學習領(lǐng)域中的一種強大工具,它們能夠模擬人腦處理信息的方式。隨著技術(shù)的發(fā)展,神經(jīng)網(wǎng)絡的類型也在不斷增加,其中循環(huán)神經(jīng)網(wǎng)絡(RNN)和傳統(tǒng)
    的頭像 發(fā)表于 11-15 09:42 ?1138次閱讀

    如何使用 PyTorch 進行強化學習

    的計算圖和自動微分功能,非常適合實現(xiàn)復雜的強化學習算法。 1. 環(huán)境(Environment) 在強化學習中,環(huán)境是一個抽象的概念,它定義了智能體(agent)可以執(zhí)行的動作(acti
    的頭像 發(fā)表于 11-05 17:34 ?1054次閱讀

    關(guān)于卷積神經(jīng)網(wǎng)絡,這些概念你厘清了么~

    隨著人工智能(AI)技術(shù)的快速發(fā)展,AI可以越來越多地支持以前無法實現(xiàn)或者難以實現(xiàn)的應用。本文基于此解釋了 卷積神經(jīng)網(wǎng)絡 (CNN)及其對人工智能和機器學習的意義。CNN是一種能夠從復雜數(shù)據(jù)中提
    發(fā)表于 10-24 13:56