99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DeepMind又出AI大招

機(jī)器人技術(shù)與應(yīng)用 ? 來(lái)源:機(jī)器人技術(shù)與應(yīng)用 ? 作者:機(jī)器人技術(shù)與應(yīng)用 ? 2021-03-11 15:58 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

DeepMind 公司因?yàn)檠兄瞥鰰?huì)下棋的人工智能AlphaGo和AlphaZero而聲名鵲起,如今他們將注意力轉(zhuǎn)向了另一種棋盤游戲:強(qiáng)權(quán)外交(Diplomacy),也被稱為外交或者外交風(fēng)云,是經(jīng)典的桌面游戲之一。該游戲與圍棋不同,它是七人游戲,需要游戲玩家既競(jìng)爭(zhēng)又合作,并且每回合玩家都會(huì)同時(shí)進(jìn)行移動(dòng),因此,每個(gè)玩家都必須推理其他玩家的想法,非常復(fù)雜。

研制一個(gè)能玩外交游戲的人工智能軟件,DeepMind公司的計(jì)算機(jī)專家Andrea Tacchetti表示:“與游戲Go或國(guó)際象棋相比,這是一個(gè)本質(zhì)上不同的問(wèn)題?!?去年12月,Tacchetti和合作者在NeurIPS會(huì)議上就其系統(tǒng)發(fā)表了一篇論文,該論文介紹了能玩外交游戲的AI系統(tǒng)策略。

“外交”是一種策略游戲,在歐洲地圖上劃分為75個(gè)省。玩家建立并動(dòng)員軍隊(duì)占領(lǐng)各省,直到控制了大部分補(bǔ)給中心的玩家獲勝。玩家每回合寫下自己的行動(dòng),然后執(zhí)行。他們可以攻擊或防御對(duì)方玩家,或者支援對(duì)方玩家的進(jìn)攻和防御,建立聯(lián)盟。在完整版中,玩家可以協(xié)商,為了方便人工智能研究,DeepMind公司使用了簡(jiǎn)單版的“No Press”策略,不需要人工智能軟件發(fā)布策略與其他玩家進(jìn)行溝通。

從歷史上看,人工智能使用人工制定的策略來(lái)發(fā)揮決策作用。2019年,蒙特利爾研究所的Mila通過(guò)使用深度學(xué)習(xí)系統(tǒng)取得了勝利。他們基于150000個(gè)人類游戲的數(shù)據(jù)集,訓(xùn)練了一個(gè)稱為DipNet的神經(jīng)網(wǎng)絡(luò)來(lái)模仿人類。DeepMind從DipNet版本開始,使用強(qiáng)化學(xué)習(xí)(一種反復(fù)試驗(yàn))來(lái)完善它。但是,僅通過(guò)反復(fù)試驗(yàn)來(lái)探索可能性會(huì)帶來(lái)問(wèn)題。因此,他們調(diào)整了強(qiáng)化學(xué)習(xí)算法。在訓(xùn)練過(guò)程中,他們?cè)诿恳徊街卸紝?duì)對(duì)手的可能舉動(dòng)進(jìn)行采樣,計(jì)算出在這些情況下平均效果最佳的行動(dòng),然后訓(xùn)練自己的權(quán)重以偏向于此行動(dòng)。經(jīng)過(guò)訓(xùn)練,它跳過(guò)了采樣過(guò)程,僅根據(jù)其學(xué)習(xí)的知識(shí)進(jìn)行工作。Tacchetti說(shuō):“我們論文的信息是:我們可以在這樣的環(huán)境中進(jìn)行強(qiáng)化學(xué)習(xí)?!?他們?cè)O(shè)計(jì)的一個(gè)AI玩家與六個(gè)DipNet的AI贏了30%的時(shí)間(有14%的機(jī)會(huì))。一個(gè)DipNet對(duì)抗他們的七個(gè),僅贏得了3%的時(shí)間。

今年4月,F(xiàn)acebook將在ICLR會(huì)議上發(fā)表一篇論文,描述他們?cè)凇癗o Press”版本的外交游戲中的研究成果。他們建立了類似DipNet的網(wǎng)絡(luò),但是沒(méi)有添加強(qiáng)化學(xué)習(xí)的元素,而是添加了一個(gè)“SearchBot”搜索玩家策略,SearchBot通過(guò)玩幾回合來(lái)評(píng)估玩家的每種潛在策略(假設(shè)每個(gè)人都根據(jù)神經(jīng)網(wǎng)絡(luò)的首選選擇后續(xù)行動(dòng))。策略不是一個(gè)最佳行動(dòng)組合,而是由50個(gè)可能行動(dòng)組成的一組概率(由神經(jīng)網(wǎng)絡(luò)建議)。

在真實(shí)游戲中進(jìn)行這樣的探索會(huì)減慢SearchBot的速度,但可以使它更優(yōu)于DipNet。SearchBot在外交游戲網(wǎng)站上與人類進(jìn)行了匿名比賽,在玩家中排名前2%。Facebook的計(jì)算機(jī)專家、論文的共同作者亞當(dāng)·勒勒(Adam Lerer)說(shuō):“這是第一個(gè)被證明具有能與人類競(jìng)爭(zhēng)的機(jī)器人?!?/p>

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    49011

    瀏覽量

    249354
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    269

    瀏覽量

    11597
  • DeepMind
    +關(guān)注

    關(guān)注

    0

    文章

    131

    瀏覽量

    11572

原文標(biāo)題:DeepMind又出AI大招

文章出處:【微信號(hào):robotmagazine,微信公眾號(hào):機(jī)器人技術(shù)與應(yīng)用】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    大家都在用什么AI軟件?有沒(méi)有好用的免費(fèi)的AI軟件推薦一下?

    大家都在用什么AI軟件?有沒(méi)有好用的免費(fèi)的AI軟件推薦一下?直接發(fā)個(gè)安裝包,謝謝。比如deepseek、Chatgpt、豆包、阿里AI、百度AI、騰訊
    發(fā)表于 07-09 18:30

    AI岸橋理貨系統(tǒng)高效精準(zhǔn)

    AI
    jf_60141436
    發(fā)布于 :2025年05月30日 11:49:13

    湖南重大招商引資駐京工作專班蒞臨ALVA調(diào)研

    近日,湖南省央企對(duì)接合作暨重大招商引資駐京工作專班主任鄭建新一行赴 ALVA Systems 考察調(diào)研。
    的頭像 發(fā)表于 04-16 10:14 ?427次閱讀

    AI 時(shí)代開啟,企業(yè)跟風(fēng)做 AI 產(chǎn)品是明智之舉?

    AI
    華成工控
    發(fā)布于 :2025年04月10日 17:28:44

    Banana Pi 發(fā)布 BPI-AI2N & BPI-AI2N Carrier,助力 AI 計(jì)算與嵌入式開發(fā)

    []() 2025年3月19日——Banana Pi 今日正式發(fā)布 BPI-AI2N & BPI-AI2N Carrier,基于瑞薩電子(Renesas)同步發(fā)布的最新的高性能處理器
    發(fā)表于 03-19 17:54

    AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》----- 學(xué)習(xí)如何開發(fā)視頻應(yīng)用

    再次感謝發(fā)燒友提供的閱讀體驗(yàn)活動(dòng)。本期跟隨《AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》這本書學(xué)習(xí)如何構(gòu)建開發(fā)一個(gè)視頻應(yīng)用。AI Agent是一種智能應(yīng)用,能夠根據(jù)用戶需求和環(huán)境變化做出相應(yīng)響應(yīng)。通常基于深度
    發(fā)表于 03-05 19:52

    求助,使用reality AI建立內(nèi)容后,出現(xiàn)部分no reference to 的報(bào)錯(cuò)

    將對(duì)應(yīng)的predict文件導(dǎo)入后,出現(xiàn)了如下報(bào)錯(cuò) 然后將自己生成的代碼放到官方發(fā)的那個(gè)姿態(tài)傳感的項(xiàng)目中又可以跑。 將官方的rai文件倒過(guò)來(lái)又出現(xiàn)no reference to 報(bào)錯(cuò)
    發(fā)表于 02-14 20:48

    DeepMind創(chuàng)始人預(yù)計(jì)年內(nèi)有AI設(shè)計(jì)藥物進(jìn)入臨床試驗(yàn)

    近日,英國(guó)人工智能公司DeepMind的創(chuàng)始人兼首席執(zhí)行官德米斯·哈薩比斯(Demis Hassabis)透露,預(yù)計(jì)在今年年底前,將有人工智能(AI)設(shè)計(jì)的藥物進(jìn)入臨床試驗(yàn)階段。
    的頭像 發(fā)表于 01-24 15:46 ?2196次閱讀

    谷歌加速AI部門整合:AI Studio團(tuán)隊(duì)并入DeepMind

    近日,谷歌正緊鑼密鼓地推進(jìn)其人工智能(AI)部門的整合工作。據(jù)谷歌AI Studio主管Logan Kilpatrick在領(lǐng)英頁(yè)面上的透露,谷歌已將AI Studio團(tuán)隊(duì)整體轉(zhuǎn)移至DeepMi
    的頭像 發(fā)表于 01-13 14:40 ?711次閱讀

    谷歌Vertex AI助力企業(yè)生成式AI應(yīng)用

    DeepMind 在模型技術(shù)方面積極探索創(chuàng)新,尤其著力于 Gemini 和 Imagen 的改進(jìn)。我們的企業(yè) AI 平臺(tái) Vertex AI 也推出了數(shù)十項(xiàng)突破性功能。
    的頭像 發(fā)表于 09-09 15:59 ?901次閱讀

    云開發(fā)AI助手

    AI
    草帽王路飛
    發(fā)布于 :2024年07月22日 14:41:54

    谷歌DeepMind被曝抄襲開源成果,論文還中了頂流會(huì)議

    谷歌DeepMind一篇中了頂流新生代會(huì)議CoLM 2024的論文被掛了,瓜主直指其抄襲了一年前就掛在arXiv上的一項(xiàng)研究。開源的那種。
    的頭像 發(fā)表于 07-16 18:29 ?869次閱讀
    谷歌<b class='flag-5'>DeepMind</b>被曝抄襲開源成果,論文還中了頂流會(huì)議