DeepMind又出AI大招

DeepMind 公司因?yàn)檠兄瞥鰰?huì)下棋的人工智能AlphaGo和AlphaZero而聲名鵲起，如今他們將注意力轉(zhuǎn)向了另一種棋盤游戲：強(qiáng)權(quán)外交（Diplomacy），也被稱為外交或者外交風(fēng)云，是經(jīng)典的桌面游戲之一。該游戲與圍棋不同，它是七人游戲，需要游戲玩家既競(jìng)爭(zhēng)又合作，并且每回合玩家都會(huì)同時(shí)進(jìn)行移動(dòng)，因此，每個(gè)玩家都必須推理其他玩家的想法，非常復(fù)雜。

研制一個(gè)能玩外交游戲的人工智能軟件，DeepMind公司的計(jì)算機(jī)專家Andrea Tacchetti表示：“與游戲Go或國(guó)際象棋相比，這是一個(gè)本質(zhì)上不同的問(wèn)題?！?去年12月，Tacchetti和合作者在NeurIPS會(huì)議上就其系統(tǒng)發(fā)表了一篇論文，該論文介紹了能玩外交游戲的AI系統(tǒng)策略。

“外交”是一種策略游戲，在歐洲地圖上劃分為75個(gè)省。玩家建立并動(dòng)員軍隊(duì)占領(lǐng)各省，直到控制了大部分補(bǔ)給中心的玩家獲勝。玩家每回合寫下自己的行動(dòng)，然后執(zhí)行。他們可以攻擊或防御對(duì)方玩家，或者支援對(duì)方玩家的進(jìn)攻和防御，建立聯(lián)盟。在完整版中，玩家可以協(xié)商，為了方便人工智能研究，DeepMind公司使用了簡(jiǎn)單版的“No Press”策略，不需要人工智能軟件發(fā)布策略與其他玩家進(jìn)行溝通。

從歷史上看，人工智能使用人工制定的策略來(lái)發(fā)揮決策作用。2019年，蒙特利爾研究所的Mila通過(guò)使用深度學(xué)習(xí)系統(tǒng)取得了勝利。他們基于150000個(gè)人類游戲的數(shù)據(jù)集，訓(xùn)練了一個(gè)稱為DipNet的神經(jīng)網(wǎng)絡(luò)來(lái)模仿人類。DeepMind從DipNet版本開始，使用強(qiáng)化學(xué)習(xí)（一種反復(fù)試驗(yàn)）來(lái)完善它。但是，僅通過(guò)反復(fù)試驗(yàn)來(lái)探索可能性會(huì)帶來(lái)問(wèn)題。因此，他們調(diào)整了強(qiáng)化學(xué)習(xí)算法。在訓(xùn)練過(guò)程中，他們?cè)诿恳徊街卸紝?duì)對(duì)手的可能舉動(dòng)進(jìn)行采樣，計(jì)算出在這些情況下平均效果最佳的行動(dòng)，然后訓(xùn)練自己的權(quán)重以偏向于此行動(dòng)。經(jīng)過(guò)訓(xùn)練，它跳過(guò)了采樣過(guò)程，僅根據(jù)其學(xué)習(xí)的知識(shí)進(jìn)行工作。Tacchetti說(shuō)：“我們論文的信息是：我們可以在這樣的環(huán)境中進(jìn)行強(qiáng)化學(xué)習(xí)?！?他們?cè)O(shè)計(jì)的一個(gè)AI玩家與六個(gè)DipNet的AI贏了30％的時(shí)間（有14％的機(jī)會(huì)）。一個(gè)DipNet對(duì)抗他們的七個(gè)，僅贏得了3％的時(shí)間。

今年4月，F(xiàn)acebook將在ICLR會(huì)議上發(fā)表一篇論文，描述他們?cè)凇癗o Press”版本的外交游戲中的研究成果。他們建立了類似DipNet的網(wǎng)絡(luò)，但是沒(méi)有添加強(qiáng)化學(xué)習(xí)的元素，而是添加了一個(gè)“SearchBot”搜索玩家策略，SearchBot通過(guò)玩幾回合來(lái)評(píng)估玩家的每種潛在策略（假設(shè)每個(gè)人都根據(jù)神經(jīng)網(wǎng)絡(luò)的首選選擇后續(xù)行動(dòng)）。策略不是一個(gè)最佳行動(dòng)組合，而是由50個(gè)可能行動(dòng)組成的一組概率（由神經(jīng)網(wǎng)絡(luò)建議）。

在真實(shí)游戲中進(jìn)行這樣的探索會(huì)減慢SearchBot的速度，但可以使它更優(yōu)于DipNet。SearchBot在外交游戲網(wǎng)站上與人類進(jìn)行了匿名比賽，在玩家中排名前2％。Facebook的計(jì)算機(jī)專家、論文的共同作者亞當(dāng)·勒勒（Adam Lerer）說(shuō)：“這是第一個(gè)被證明具有能與人類競(jìng)爭(zhēng)的機(jī)器人?！?/p>

責(zé)任編輯：lq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1806

文章
49011

瀏覽量
249354
強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
269

瀏覽量
11597
DeepMind

DeepMind

+關(guān)注

關(guān)注
0

文章
131

瀏覽量
11572

原文標(biāo)題：DeepMind又出AI大招

文章出處：【微信號(hào)：robotmagazine，微信公眾號(hào)：機(jī)器人技術(shù)與應(yīng)用】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

機(jī)器人技術(shù)與應(yīng)用
專欄

0 文章 0 閱讀 0 粉絲 0 點(diǎn)贊

關(guān)注個(gè)人主頁(yè)

Hot 大疆推出無(wú)人機(jī)仿真培訓(xùn)軟件—Simulator飛行模擬
Hot CFDA準(zhǔn)批首款國(guó)產(chǎn)神經(jīng)外科手術(shù)機(jī)器人睿米手術(shù)機(jī)器人

New 靈寶CASBOT人形機(jī)器人公司完成超億元天使輪融資,聯(lián)想創(chuàng)投與國(guó)投創(chuàng)合聯(lián)合投資
New 人形機(jī)器人如何成功跑完產(chǎn)業(yè)馬拉松

精選推薦
更多

文章

資料

帖子

瑞芯微全新AI視覺(jué)芯片RV1126B：多場(chǎng)景智能終端方案介紹

大大通
5小時(shí)前

286 閱讀

定義IO初始化結(jié)構(gòu)體

瑞薩MCU小百科
5小時(shí)前

221 閱讀

使用瑞薩R-T系列芯片實(shí)現(xiàn)相電流實(shí)時(shí)采樣

瑞薩MCU小百科
6小時(shí)前

212 閱讀

地平線征程6B成功點(diǎn)亮！18TOPS，助推高性價(jià)比一體機(jī)征戰(zhàn)全球市場(chǎng)

章鷹觀察
7小時(shí)前

2424 閱讀

基于FPGA的數(shù)字識(shí)別系統(tǒng)設(shè)計(jì)

FPGA技術(shù)江湖
7小時(shí)前

273 閱讀

ADI實(shí)驗(yàn)室電路合集（第一冊(cè)）.part1

黃博
20480KB

5積分

24下載

YUDBModel對(duì)象序列化、反序列化、一鍵增刪改查插件

王飛云
2.17 MB

免費(fèi)

0下載

JZMP3Recorder iOS音頻庫(kù)

劉杰
0.02 MB

免費(fèi)

0下載

Arduino Nanuno（表面貼裝版）

ah此生不換
0.20 MB

免費(fèi)

0下載

具有DCS-Control的TPS62147、TPS62148高精度3V至17V 2A 降壓轉(zhuǎn)換器數(shù)據(jù)表

HCPcry
2.73MB

免費(fèi)

0下載

【RA-Eco-RA6M4開發(fā)板評(píng)測(cè)】——3.RA6M4的coremark跑分測(cè)試

jf_43382582
22小時(shí)前

231 閱讀

差分輸出 × 超低抖動(dòng)：打造高速穩(wěn)定的大型數(shù)據(jù)同步時(shí)脈

五三一
22小時(shí)前

205 閱讀

PWM相移問(wèn)題：下面是我的代碼，請(qǐng)問(wèn)各位大佬是什么原因?qū)е碌模?/span>

jf_08053489
22小時(shí)前

392 閱讀

【RA-Eco-RA6M4開發(fā)板評(píng)測(cè)】開箱+Keil環(huán)境搭建+點(diǎn)燈

gtbestom
22小時(shí)前

310 閱讀

【HZ-RK3568開發(fā)板免費(fèi)體驗(yàn)】合眾HZ-RK3568開發(fā)環(huán)境搭建

ouxiaolong
1天前

254 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

搜索歷史

DeepMind又出AI大招

評(píng)論