99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

揭秘星際2人工智能AlphaStar:DeepMind科學(xué)家回應(yīng)一切

mK5P_AItists ? 來源:lq ? 2019-01-28 15:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

25 日凌晨,人工智能 AlphaStar 與職業(yè)玩家 MaNa 進(jìn)行了一場史無前例的「人機(jī)大戰(zhàn)」:雖然之前在內(nèi)部比賽中 AI 十戰(zhàn)十勝,但現(xiàn)場比賽中,MaNa 機(jī)智地戲耍了對(duì)手,為人類取得了一場勝利。賽后,DeepMind 科學(xué)家、AlphaStar 項(xiàng)目的領(lǐng)導(dǎo)者 Oriol Vinyals 和 David Silver 在 Reddit 上回答了人們關(guān)心的很多問題。與此同時(shí),曾與人工智能交手的兩位職業(yè)玩家,Liquid 戰(zhàn)隊(duì)的 TLO 與 MaNa 也作為嘉賓回答了一些有趣的問題。

例如:對(duì)于 AI 研究者來說,打星際 2 的能力是不是應(yīng)該寫進(jìn)簡歷里?

網(wǎng)友 NexYY:我應(yīng)該把會(huì)打星際爭霸 2 作為一項(xiàng)技能寫在簡歷里證明我是一個(gè)有抱負(fù)的 AI 開發(fā)者嗎?有時(shí)我沉迷于打星際,而不是提高寫代碼的能力,我常常因此感到迷?!?/p>

Oriol Vinyals:在比賽那天我打了好多盤星際,我得說這是非常好的體驗(yàn)——特別是考慮到它塑造了我在人工智能、學(xué)習(xí)計(jì)算機(jī)科學(xué)等方面的動(dòng)力。所以如果你想完成一個(gè)好簡歷,請(qǐng)把星際爭霸 2 當(dāng)做一個(gè)愛好寫進(jìn)去,祝你好運(yùn)!

1 月 25 日,AlphaStar 與 MaNa 的人機(jī)大戰(zhàn),以及此前對(duì)戰(zhàn)的一些精彩鏡頭。現(xiàn)場比賽從 10:30 開始。

問:從 pysc2 的早期版本(和目前的 master 版本)來看,似乎 DeepMind 開發(fā)的方法是基于對(duì)人類游戲過程的完全模仿,如 bot 無法獲得屏幕視角外任何東西的信息。而這個(gè)版本似乎放開了這些限制,因?yàn)橐貓D層現(xiàn)在是「全地圖大小」,而且添加了新的要素。是這樣嗎?如果是,那這與從 API 中獲取原始數(shù)據(jù)并將其簡單抽象成結(jié)構(gòu)化數(shù)據(jù)來作為神經(jīng)網(wǎng)絡(luò)的輸入有什么真正的不同呢?DeepMind 博客中甚至表明,直接將原始數(shù)據(jù)和屬性以列表形式的數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò),這似乎表明你們不再真正使用要素圖層了?

Oriol Vinyals:事實(shí)上,有了基于鏡頭的(和不基于鏡頭的)輸入界面,智能體知道已經(jīng)構(gòu)建了什么,因?yàn)槲覀儗⑵渥鳛榱斜恚ㄓ缮窠?jīng)網(wǎng)絡(luò) Transformer 進(jìn)一步處理)輸入。一般來說,即使你沒有那種列表,智能體也會(huì)知道已經(jīng)構(gòu)建了什么,因?yàn)橹悄荏w的記憶會(huì)跟蹤所有之前發(fā)生的動(dòng)作,以及過去訪問的所有視圖的位置。

問:當(dāng)我使用 pysc2 時(shí),我發(fā)現(xiàn)要了解已經(jīng)構(gòu)建、正在進(jìn)行、已經(jīng)完成的事物是一件非常困難的事,因?yàn)槲冶仨氁恢逼揭葡鄼C(jī)視圖來獲取這些信息。camera_interface 方法是如何保存這些信息的?即使在 camera_interface 模式下,通過原始數(shù)據(jù)訪問(如 unitTypeID、建筑物等的計(jì)數(shù)),大量數(shù)據(jù)仍是完全可用的?

Oriol Vinyals:是的,我們的確放開了智能體的視角,主要是因?yàn)樗懔υ颉獩]有屏幕移動(dòng)的游戲大約會(huì)有 1000 步,而有屏幕移動(dòng)的游戲步數(shù)會(huì)是前者的 2-3 倍。我們的確為迷你地圖使用了要素圖層,但是對(duì)于屏幕,你可以認(rèn)為要素列表「轉(zhuǎn)換」了那些信息。實(shí)際上,事實(shí)證明,即使是在處理圖像上,將每個(gè)像素單獨(dú)作為一個(gè)列表效果也很好!

問:達(dá)到當(dāng)前水平需要玩多少把游戲?換句話說,在你們的案例中,200 年游戲時(shí)間一共打了多少把游戲?

Oriol Vinyals:如果平均每場比賽持續(xù) 10 分鐘,這相當(dāng)于大約 1000 萬場比賽。不過請(qǐng)注意,并不是所有智能體的訓(xùn)練時(shí)間都相當(dāng)于 200 年的游戲時(shí)間,這只是接受訓(xùn)練最多的智能體的訓(xùn)練量。

問:所學(xué)知識(shí)遷移到其它地圖效果如何?Oriol 在 discord 上提到它在其它地圖上「有效」。我們都很好奇在哪個(gè)地圖上最有效,所以現(xiàn)在可以揭露答案嗎?根據(jù)我的個(gè)人觀察,AlphaStar 似乎很大程度依賴于記憶中的地圖信息。它有可能在沒見過的地圖上執(zhí)行很好的 wall-off 或 proxy cheese 嗎?在全新地圖上玩時(shí),MMR 的估計(jì)差異是什么?

Oriol Vinyals:參考以上答案。

David Silver(圖中黑衣者)與 Oriol Vinyals 在線回答人們有關(guān) AlphaStar 的問題。

問:智能體對(duì)「save money for X」這個(gè)概念了解得怎么樣?這不是一個(gè)小問題,因?yàn)槿绻銈儚幕胤胖袑W(xué)習(xí),并考慮玩家的無作為行動(dòng)(NOOP),強(qiáng)化學(xué)習(xí)算法通常會(huì)認(rèn)為 NOOP 是在游戲中非理想點(diǎn)時(shí)的最佳決策。所以你們怎么處理「save money for X」,以及在學(xué)習(xí)階段是否排除了 NOOP?

David Silver:實(shí)際上,作為其行動(dòng)的一部分,AlphaStar 會(huì)提前選擇執(zhí)行多少 NOOP。最開始這是從監(jiān)督數(shù)據(jù)中學(xué)到的,以便反映人類游戲玩法,也就是說 AlphaStar 通常以人類玩家相似的速度「點(diǎn)擊」。然后通過強(qiáng)化學(xué)習(xí)來完善,選擇減少或增加 NOOP 次數(shù)。所以,「save money for X」可以通過提前決定實(shí)施幾個(gè) NOOP 來輕松實(shí)現(xiàn)。

問:你們最終使用的步長是多少?在博客中你們寫道,星際的每幀視頻被用作輸入的一步。然而,你們也提到過平均處理時(shí)長是 50 毫秒,而這會(huì)超過實(shí)際時(shí)間(給定 22.4fps,需要<46 毫秒)。所以你們是否要求每 1 步,或每 2 步、3 步是動(dòng)態(tài)的?

Oriol Vinyals:我們要求每一步是動(dòng)態(tài)的,但由于延遲,該操作將僅在某一步結(jié)束后處理(即我們是異步操作)。另一個(gè)選擇是鎖定該步,但這樣會(huì)造成玩家的游戲體驗(yàn)不佳。

問:APM 是怎么回事?我印象中 SC2 LE 被強(qiáng)行限制在 180 WPM,但是我看你們的比賽中,AS 的平均 APM 似乎在很長一段時(shí)間內(nèi)都遠(yuǎn)遠(yuǎn)超過這個(gè)水平。DeepMind 的博客上展示了相關(guān)圖表和數(shù)字,但沒有解釋為什么 APM 如此之高。

Oriol Vinyals:這個(gè)問題問得好,這也是我們打算解釋的。我們咨詢了 TLO 和暴雪關(guān)于 APM 的意見,并對(duì)其增加了一個(gè)硬性限制。具體來說,我們在 5 秒內(nèi)設(shè)置 APM 最大為 600,15 秒內(nèi)為 400,30 秒內(nèi)為 320,60 秒內(nèi)為 300。如果智能體在此期間發(fā)出了更多動(dòng)作,我們會(huì)刪除/忽略那些動(dòng)作。這些值取自人類玩家的統(tǒng)計(jì)數(shù)據(jù)。暴雪在其 APM 計(jì)算中對(duì)某些動(dòng)作進(jìn)行了多次計(jì)算(前面提到的數(shù)字是指 pysc2 中「智能體的動(dòng)作」)。同時(shí),我們的智能體還使用模仿學(xué)習(xí),這意味著我們經(jīng)常看到一些非?!咐沟膭?dòng)作。也就是說,并非所有動(dòng)作都是有效動(dòng)作。有些人已經(jīng)在 Reddit 上指出了這一點(diǎn)——AlphaStar 的有效 APM(或 EPM)相當(dāng)?shù)?。我們很高興能夠聽到社區(qū)的反饋,因?yàn)槲覀冎蛔稍兞松贁?shù)人。我們將考慮所有的反饋。

問:PBT 中需要多少不同的智能體來保持足夠的多樣性以防止災(zāi)難性遺忘?這是如何隨著智能體數(shù)量的增加而擴(kuò)展的?還是只需要幾個(gè)智能體就能保持穩(wěn)健性?這與歷史 checkpoint 的有效通常策略有什么可比性嗎?

David Silver:我們保留了每個(gè)智能體的舊版本作為 AlphaStar 聯(lián)賽的競爭對(duì)手。當(dāng)前的智能體通常根據(jù)對(duì)手的勝率與這些競爭者比賽。這樣能夠很好地防止災(zāi)難性遺忘,因?yàn)橹悄荏w必須一直打敗所有以前的版本。我們也嘗試了一些其他的多智能體學(xué)習(xí)策略,發(fā)現(xiàn)這個(gè)方法非常穩(wěn)健。此外,增加 AlphaStar 聯(lián)賽的多樣性非常重要。關(guān)于擴(kuò)展我們很難給出精確的數(shù)字,但根據(jù)我們的經(jīng)驗(yàn),豐富聯(lián)賽的策略空間有助于使終版的智能體更加強(qiáng)大。

問:從 TPU 和 CPU 的角度來看,總計(jì)算時(shí)間是怎樣的?

David Silver:為了訓(xùn)練 AlphaStar,我們用谷歌的 TPU v3 構(gòu)建了一個(gè)高度可擴(kuò)展的分布式訓(xùn)練系統(tǒng),該系統(tǒng)支持很多智能體從星際 II 的數(shù)千個(gè)并行示例中學(xué)習(xí)。AlphaStar 聯(lián)賽運(yùn)行了 14 天,每個(gè)智能體使用 16 個(gè) TPU。最終的 AlphaStar 智能體由發(fā)現(xiàn)的最有效策略組成,然后在單個(gè)桌面 GPU 上運(yùn)行。

問:看起來 AI 的反應(yīng)速度不太穩(wěn)定。神經(jīng)網(wǎng)絡(luò)是在 GPU 上以 50 毫秒或者 350 毫秒運(yùn)行嗎?還是說這些是指不同的東西(前向傳遞 VS 行動(dòng)限制)?

David Silver:神經(jīng)網(wǎng)絡(luò)本身大概要花 50 毫秒來計(jì)算一個(gè)動(dòng)作,但這只是游戲事件發(fā)生和 AlphaStar 對(duì)該事件做出反應(yīng)期間的部分處理過程。首先,AlphaStar 平均每 250 毫秒才觀察一次游戲,這是因?yàn)樯窠?jīng)網(wǎng)絡(luò)除了本身的動(dòng)作(有時(shí)被稱為時(shí)間抽象動(dòng)作)之外,還會(huì)等待一些其他的游戲動(dòng)作。觀察結(jié)果必須從星際爭霸 2 傳到 AlphaStar,然后再將 AlphaStar 的動(dòng)作傳回到星際爭霸 2,這樣除了神經(jīng)網(wǎng)絡(luò)選擇動(dòng)作的時(shí)間之外,又增加了另外 50 毫秒的延遲時(shí)間,導(dǎo)致平均反應(yīng)時(shí)間為 350 毫秒。

問:有做過泛化測試嗎?可能這些智能體無法玩其他種族(因?yàn)榭捎玫膯挝?動(dòng)作完全不同,甚至架構(gòu)也不盡相同),但它們至少可以泛化至其它地圖吧?

Oriol Vinyals:我們的確做了這種測試。我們有 AlphaStar 的內(nèi)部排行榜,我們沒有將該榜單的地圖設(shè)置為 Catalyst,而是留白了。這意味它會(huì)在所有目前的天梯地圖上運(yùn)行。令人驚訝的是,智能體仍然表現(xiàn)很好,雖然沒到昨天看到的那種水平。

問:看起來人工智能不擅長打逆風(fēng)?如果落后的話它就會(huì)不知所措,這和 OpenAI 在 Dota2 上的 AI 很相似。這是否是人工智能自我博弈所導(dǎo)致的問題?

David Silver:實(shí)際上有很多種不同的學(xué)習(xí)方法。我們發(fā)現(xiàn)單純的自我博弈經(jīng)常會(huì)陷入特定的策略中,有時(shí)也會(huì)讓人工智能忘記如何擊敗此前了解的戰(zhàn)術(shù)。AlphaStar 聯(lián)賽也是基于讓人工智能進(jìn)行自我博弈的思路,但多個(gè)智能體進(jìn)行動(dòng)態(tài)學(xué)習(xí)鼓勵(lì)了與多種戰(zhàn)術(shù)之間的對(duì)抗,并在實(shí)踐中展現(xiàn)了對(duì)抗不尋常戰(zhàn)術(shù)的更強(qiáng)大實(shí)力。

問:在去年 11 月 Blizzcon 訪談中,Vinyals 曾經(jīng)說過會(huì)把星際爭霸 2 bot 開放到天梯上,現(xiàn)在還有這樣的計(jì)劃嗎?

Oriol Vinyals:非常感謝社區(qū)的支持,它會(huì)納入我們的工作中,我們已經(jīng)把這十場比賽的 Replay 公開,讓大家觀看。未來如有新計(jì)劃隨時(shí)會(huì)公開。

問:它如何處理不可見的單位?人類玩家在非常靠近隱身單位時(shí)會(huì)發(fā)現(xiàn)它(注:在星際爭霸 2 中,隱身單位在對(duì)手的屏幕上顯示為類似水波紋的模糊輪廓)。但如果 AI 可以看到的話,那隱身幾乎沒有什么用。但如果它看不見的話,又會(huì)給大規(guī)模隱形單位策略帶來很大優(yōu)勢,因?yàn)橛^察者必須在場才能看到東西。

Oriol Vinyals:非常有趣的問題。一開始我們忽略了不可見單位的「水波紋」。智能體仍然可以玩,因?yàn)槟憧梢灾圃鞕z測器,這樣單位會(huì)像往常一樣顯示出來。但我們后來又增加了一個(gè)「shimmer」功能,如果某個(gè)位置有隱形裝置,這個(gè)功能就會(huì)激活。

問:從這次經(jīng)歷中,你們是否獲得了一些可以用到其他人機(jī)交互強(qiáng)化學(xué)習(xí)任務(wù)中的經(jīng)驗(yàn)?

Oriol Vinyals:當(dāng)我們看到高 APM 值或點(diǎn)錯(cuò)鍵這種問題時(shí),我們覺得這些可能是來自模仿。其實(shí),我們經(jīng)??吹街悄荏w的某些動(dòng)作出現(xiàn)冗余行為(濫發(fā)移動(dòng)命令、在游戲剛開始時(shí)閃爍鏡頭)。

David Silver:就像星際爭霸一樣,多數(shù)人類與 AI 交互的現(xiàn)實(shí)應(yīng)用都有信息不完全的問題。這就意味著沒有真正意義上的最佳行為,智能體必須能夠穩(wěn)健地應(yīng)對(duì)人類可能采取的一系列不可預(yù)測的行為。也許從星際爭霸中學(xué)到的最有用的一點(diǎn)是,我們必須非常謹(jǐn)慎,確保學(xué)習(xí)算法能夠覆蓋所有可能出現(xiàn)的狀況。另外,我認(rèn)為我們學(xué)到了很多關(guān)于如何將 RL 擴(kuò)展到真正復(fù)雜問題中的經(jīng)驗(yàn),這些問題都有很大的動(dòng)作空間和長遠(yuǎn)的視野。

問:很多人認(rèn)為 AlphaStar 在最后一局中的失敗是因?yàn)樵撍惴ㄔ谧詈笠粓霰荣愔惺艿搅艘暳ο拗?。我個(gè)人認(rèn)為這種說法沒有說服力,因?yàn)檎圮S棱鏡在戰(zhàn)爭迷霧中進(jìn)進(jìn)出出,AI 相應(yīng)地指揮其部隊(duì)前進(jìn)撤退。這看起來絕對(duì)像是理解上的差距,而不是操作的局限。AlphaStar 以這種方式落敗,對(duì)此您有什么看法?

David Silver:很難說清我們?yōu)槭裁摧數(shù)簦ɑ蜈A了)某場比賽,因?yàn)?AlphaStar 的決策非常復(fù)雜,是一個(gè)動(dòng)態(tài)多智能體訓(xùn)練進(jìn)程導(dǎo)致的結(jié)果。MaNa 游戲打得很棒,似乎發(fā)現(xiàn)并利用了 AlphaStar 的弱點(diǎn)——但很難確定這一弱點(diǎn)究竟是什么造成的:視角?訓(xùn)練時(shí)間不夠?還是對(duì)手和其它智能體不一樣?

問:Alphastar 的「記憶」有多大?它在玩游戲時(shí)需要接收多少數(shù)據(jù)?

Oriol Vinyals:每個(gè)智能體使用一個(gè)深度 LSTM,每個(gè) LSTM 有 3 個(gè)層和 384 個(gè)單元。AlphaStar 在游戲中每做出一個(gè)動(dòng)作,該記憶就會(huì)更新一次。平均每個(gè)游戲會(huì)有 1000 個(gè)動(dòng)作。我們的網(wǎng)絡(luò)大約有 7000 萬個(gè)參數(shù)。

問:像 AlphaGo 和 AlphaZero 這樣的智能體是使用完美信息游戲進(jìn)行訓(xùn)練的。對(duì)于不完美信息游戲如星際爭霸來說,智能體的設(shè)計(jì)會(huì)有什么不同?AlphaStar 是否有之前與人類對(duì)決的「記憶」?

David Silver:有趣的是,像 AlphaGo 和 AlphaZero 這樣的基于搜索的方法更難適應(yīng)不完美信息博弈。例如,基于搜索的***算法(比如 DeepStack 和 Libratus)通過信念狀態(tài)推測對(duì)手的手牌。

與之不同的是,AlphaStar 是一種無模型的強(qiáng)化學(xué)習(xí)算法,可以間接地推理對(duì)手狀態(tài),即通過學(xué)習(xí)行為這一最有效擊敗對(duì)手的方法,而不是試圖給對(duì)手看到什么建模??梢哉J(rèn)為,這是應(yīng)對(duì)不完整信息的一個(gè)有效方法。

另一方面,不完美信息游戲沒有絕對(duì)最佳的游戲方式,而是取決于對(duì)手的行為。這就是星際爭霸如此讓人著迷的原因,就像「石頭剪刀布」一樣,所有決策都有優(yōu)勢劣勢。這就是我們使用 AlphaStar 聯(lián)賽,以及為什么策略空間的所有角落都如此重要的原因——在圍棋這樣的游戲里這是不重要的,掌握了最優(yōu)策略就可以擊敗所有對(duì)手。

問:星際爭霸 2 之后的下一個(gè)里程碑會(huì)是什么?

Oriol Vinyals:人工智能還面臨著一些重要而令人興奮的挑戰(zhàn)。我最感興趣的是「元學(xué)習(xí)(Meta Learning)」,它與更少的數(shù)據(jù)點(diǎn)和更快速的學(xué)習(xí)有關(guān)。這種思想自然可以應(yīng)用在星際爭霸 2 上——它可以減少訓(xùn)練智能體所需的數(shù)據(jù)量,也可以讓 AI 更好地學(xué)習(xí)和適應(yīng)新的對(duì)手,而不是「凍結(jié)」AlphaStar 的權(quán)重。

問:AlphaStar 的技術(shù)可以應(yīng)用到哪些其他科學(xué)領(lǐng)域?

Oriol Vinyals:AlphaStar 背后的技術(shù)可以應(yīng)用在很多問題上。它的神經(jīng)網(wǎng)絡(luò)架構(gòu)可以用于超長序列的建?!诓煌昝佬畔ⅲ螒驎r(shí)間可以長達(dá)一個(gè)小時(shí),而步驟有數(shù)萬個(gè)。星際爭霸的每一幀都被算作一步輸入,神經(jīng)網(wǎng)絡(luò)會(huì)在每幀之后預(yù)測游戲剩余時(shí)間內(nèi)的預(yù)期行動(dòng)順序。這樣的方式在天氣預(yù)報(bào)、氣候建模、語言理解等需要對(duì)長序列數(shù)據(jù)進(jìn)行復(fù)雜預(yù)測的領(lǐng)域非常有前景。

我們的一些訓(xùn)練方法也可以用于提高人工智能系統(tǒng)的安全性與魯棒性,特別是在能源等安全關(guān)鍵領(lǐng)域,這對(duì)于解決復(fù)雜的前沿問題至關(guān)重要。

職業(yè)玩家的看法

兩位與 AlphaStar 交手的星際爭霸 2 職業(yè)玩家,TLO 與 MaNa (圖中居右)。

問:對(duì)于職業(yè)玩家來說,你們就像在指導(dǎo) AlphaStar,在你們看來它在比賽中展現(xiàn)出了哪些優(yōu)缺點(diǎn)?它獲得勝利的方式來自決策還是操作?

MaNa:它最強(qiáng)的地方顯然是單位控制。在雙方兵力數(shù)量相當(dāng)?shù)那闆r下,人工智能贏得了所有比賽。在僅有的幾場比賽中我們能夠看到的缺點(diǎn)是它對(duì)于技術(shù)的頑固態(tài)度。AlphaStar 有信心贏得戰(zhàn)術(shù)上的勝利,卻幾乎沒有做任何其他事情,最終在現(xiàn)場比賽中也沒有獲得勝利。我沒有看到太多決策的跡象,所以我說人工智能是在靠操作獲得勝利。

問:和 AlphaStar 比賽是什么樣的體驗(yàn)?如果你不知道對(duì)手是誰的話,你能猜出它是機(jī)器嗎?人工智能的引入會(huì)為星際爭霸 2 帶來哪些變化?

MaNa:與 AlphaStar 比賽過程中我非常緊張,特別因?yàn)樗且慌_(tái)機(jī)器。在此之前,我對(duì)它所知甚少。由于缺乏信息,我不得不以一種不熟悉的方式進(jìn)行比賽。如果沒有被告知對(duì)手是誰,我會(huì)質(zhì)疑它是否是人類。它的戰(zhàn)術(shù)和人類很像,但微操不是任何人類都能實(shí)現(xiàn)的。我肯定會(huì)發(fā)現(xiàn)它不是人類,但可能需要不止一場游戲的信息。我對(duì) AlphaStar 的未來非常期待,我迫不及待地想要和它進(jìn)行更多游戲。

星際爭霸 2 人機(jī)大戰(zhàn)賽事回顧

昨天是 DeepMind 星際爭霸 2 智能體 AlphaStar 首秀。DeepMind 放出了 AlphaStar 去年 12 月與星際爭霸 2 職業(yè)玩家 LiquidTLO、MaNa 的比賽視頻,AlphaStar 均以 5:0 的戰(zhàn)績戰(zhàn)勝星際爭霸 2 職業(yè)玩家。目前,AlphaStar 只能玩神族,不過它依然戰(zhàn)勝了神族最強(qiáng)十人之一的 MaNa!

昨天,DeepMind 還組織了一次 MaNa 和 AlphaStar 的現(xiàn)場對(duì)決。MaNa 在賽前稱,自己要來一場「復(fù)仇之戰(zhàn)」。事實(shí)證明,他成功了。

所有 11 場比賽的 Replay:https://deepmind.com/research/alphastar-resources/

在這場比賽中,我們可以看到 AI 的一個(gè)缺陷:除了特定的分兵戰(zhàn)術(shù),并沒有靈活的兵力分配概念。這讓我們想起打星際 1 電腦的遠(yuǎn)古時(shí)代,開局派出一個(gè)農(nóng)民去攻擊電腦的基地,電腦就會(huì)派出所有農(nóng)民去一直追殺你這個(gè)農(nóng)民。這場 MaNa 也是利用的相似的辦法,棱鏡帶著兩不朽在 AI 的基地不停騷擾,AlphaStar 一旦回防立刻飛走,等 AI 兵力出門又立刻繼續(xù)騷擾。

開局不久后,AlphaStar 便逐漸占據(jù)優(yōu)勢,正面利用追獵者襲擾 MaNa 的二礦,背面則用兩個(gè)先知不斷進(jìn)犯礦區(qū)。人工智能展現(xiàn)的壓迫力讓場面變得非常緊張。

雖然人工智能在兵力對(duì)等的情況下每次都能占到便宜,但人類的偷襲戰(zhàn)術(shù)逐漸吸引了 AlphaStar 的主要兵力,幫助 MaNa 成功扛過 AI 的正面進(jìn)攻。隨后,MaNa 的大軍在對(duì)手二礦位置獲得了決定性勝利。到了第 12 分鐘,人類打爆了 AI 的所有建筑,獲得了勝利。

AlphaStar 官方解讀

AlphaStar 的行為是由一種深度神經(jīng)網(wǎng)絡(luò)生成的,該網(wǎng)絡(luò)從原數(shù)據(jù)界面(單位列表與它們的特性)接收輸入數(shù)據(jù),輸出構(gòu)成游戲內(nèi)行為的指令序列。具體來說,該神經(jīng)網(wǎng)絡(luò)在單元中使用了一個(gè) transformer 作為軀干,結(jié)合了一個(gè)深度 LSTM 核、一個(gè)帶有 pointer 網(wǎng)絡(luò)的自動(dòng)回歸策略 head 以及一個(gè)中心價(jià)值基線。

AlphaStar 也使用到了全新的多智能體學(xué)習(xí)算法。神經(jīng)網(wǎng)絡(luò)最初通過暴雪公開的匿名人類游戲視頻以監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練。這讓 AlphaStar 能夠通過模仿進(jìn)行學(xué)習(xí)天梯玩家的基礎(chǔ)微操與宏觀操作策略。

AlphaStar 聯(lián)盟。最初是通過人類玩家的游戲回放視頻進(jìn)行訓(xùn)練,然后與其他對(duì)手對(duì)抗訓(xùn)練。每次迭代就匹配新的對(duì)手,凍結(jié)原來的對(duì)手,匹配對(duì)手的概率和超參數(shù)決定了每個(gè)智能體采用的的學(xué)習(xí)目標(biāo)函數(shù),保留多樣性的同時(shí)增加難度。智能體的參數(shù)通過強(qiáng)化學(xué)習(xí)進(jìn)行更新。最終的智能體采樣自聯(lián)盟的納什分布(沒有更換)。

隨著自我博弈的進(jìn)行,AlphaStar 逐漸開發(fā)出了越來越成熟的戰(zhàn)術(shù)。DeepMind 表示,這一過程和人類玩家發(fā)現(xiàn)戰(zhàn)術(shù)的過程類似:新的戰(zhàn)術(shù)不斷擊敗舊的戰(zhàn)術(shù)。

為了訓(xùn)練 AlphaStar,DeepMind 使用了谷歌最先進(jìn)的深度學(xué)習(xí)芯片 TPU v3 構(gòu)建了一個(gè)高度可擴(kuò)展的分布式訓(xùn)練配置,支持?jǐn)?shù)千個(gè)對(duì)戰(zhàn)訓(xùn)練并行運(yùn)算。AlphaStar 聯(lián)賽運(yùn)行了 14 天,每個(gè)人工智能體使用 16 塊 TPU。在訓(xùn)練時(shí)間上,每個(gè)智能體相當(dāng)于訓(xùn)練了人類的 200 年游戲時(shí)間。最后成型的 AlphaStar 采用了各個(gè)智能體中獲勝概率最高戰(zhàn)術(shù)的組合,并可以在單個(gè) GPU 的計(jì)算機(jī)上運(yùn)行。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4814

    瀏覽量

    103657
  • 人工智能
    +關(guān)注

    關(guān)注

    1807

    文章

    49029

    瀏覽量

    249607
  • DeepMind
    +關(guān)注

    關(guān)注

    0

    文章

    131

    瀏覽量

    11585

原文標(biāo)題:揭秘星際2人工智能AlphaStar:DeepMind科學(xué)家回應(yīng)一切

文章出處:【微信號(hào):AItists,微信公眾號(hào):人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    普強(qiáng)信息入選2025人工智能感知層創(chuàng)新榜單

    近日,由中國科學(xué)院主管、科學(xué)出版社主辦的商業(yè)期刊《互聯(lián)網(wǎng)周刊》(CIW)聯(lián)合德本咨詢(DBC)、中國社會(huì)科學(xué)院信息化研究中心(CIS)評(píng)選的“2025人工智能感知層創(chuàng)新排行”榜單揭曉發(fā)
    的頭像 發(fā)表于 05-10 10:45 ?564次閱讀

    迅為iTOP-RK3576人工智能開發(fā)板Android?系統(tǒng)接口功能測試

    迅為iTOP-RK3576人工智能開發(fā)板Android?系統(tǒng)接口功能測試
    的頭像 發(fā)表于 03-28 14:45 ?2890次閱讀
    迅為iTOP-RK3576<b class='flag-5'>人工智能</b>開發(fā)板Android?系統(tǒng)接口功能測試

    2025年人工智能會(huì)發(fā)生哪些變化

    2025年人工智能會(huì)發(fā)生哪些革命性的變化?斯坦福大學(xué)以人為中心的人工智能研究所的領(lǐng)先專家表示,2025 年人工智能個(gè)主要趨勢是協(xié)作人工智能
    的頭像 發(fā)表于 01-21 11:28 ?1055次閱讀

    依托新的全球數(shù)據(jù)集識(shí)別人工智能領(lǐng)域新輪涌現(xiàn)的杰出女性

    在全球人工智能和數(shù)據(jù)崗位中僅占比25%,在全球科學(xué)家當(dāng)中占比不到30%。 Zeki是唯在全球范圍內(nèi)識(shí)別未被挖掘、缺乏充分代表和被低估的女性科學(xué)和工程人才的數(shù)據(jù)集。 全球僅有僅25%的
    的頭像 發(fā)表于 01-19 09:39 ?340次閱讀

    螞蟻集團(tuán)收購邊塞科技,吳翼出任強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室首席科學(xué)家

    學(xué)習(xí)領(lǐng)域的研究與發(fā)展。令人矚目的是,邊塞科技的創(chuàng)始吳翼已正式加入該實(shí)驗(yàn)室,并擔(dān)任首席科學(xué)家職。 吳翼在其個(gè)人社交平臺(tái)上對(duì)這變動(dòng)進(jìn)行了回應(yīng)
    的頭像 發(fā)表于 11-22 11:14 ?1586次閱讀

    嵌入式和人工智能究竟是什么關(guān)系?

    領(lǐng)域,如工業(yè)控制、智能家居、醫(yī)療設(shè)備等。 人工智能是計(jì)算機(jī)科學(xué)個(gè)分支,它研究如何使計(jì)算機(jī)具備像人類樣思考、學(xué)習(xí)、推理和決策的能力。
    發(fā)表于 11-14 16:39

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第6章AI與能源科學(xué)讀后感

    幸得好書,特此來分享。感謝平臺(tái),感謝作者。受益匪淺。 在閱讀《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》的第6章后,我深刻感受到人工智能在能源
    發(fā)表于 10-14 09:27

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

    。 4. 對(duì)未來生命科學(xué)發(fā)展的展望 在閱讀這章后,我對(duì)未來生命科學(xué)的發(fā)展充滿了期待。我相信,在人工智能技術(shù)的推動(dòng)下,生命科學(xué)將取得更加顯著
    發(fā)表于 10-14 09:21

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得

    非常高興本周末收到本新書,也非常感謝平臺(tái)提供閱讀機(jī)會(huì)。 這是本挺好的書,包裝精美,內(nèi)容詳實(shí),干活滿滿。 關(guān)于《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第二章“AI
    發(fā)表于 10-14 09:16

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得

    的效率,還為科學(xué)研究提供了前所未有的洞察力和精確度。例如,在生物學(xué)領(lǐng)域,AI能夠幫助科學(xué)家快速識(shí)別基因序列中的關(guān)鍵變異,加速新藥研發(fā)進(jìn)程。 2. 跨學(xué)科融合的新范式 書中強(qiáng)調(diào),人工智能
    發(fā)表于 10-14 09:12

    名單公布!【書籍評(píng)測活動(dòng)NO.44】AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新

    ! 《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》 這本書便將為讀者徐徐展開AI for Science的美麗圖景,與大家起去了解: 人工智能究竟幫
    發(fā)表于 09-09 13:54

    智能機(jī)械臂人臉識(shí)別特效丨國產(chǎn)Cortex-A55人工智能實(shí)驗(yàn)箱案例分享

    智能機(jī)械臂人臉識(shí)別特效丨國產(chǎn)Cortex-A55人工智能實(shí)驗(yàn)箱案例分享
    的頭像 發(fā)表于 08-30 13:03 ?839次閱讀
    <b class='flag-5'>智能</b>機(jī)械臂人臉識(shí)別特效丨國產(chǎn)Cortex-A55<b class='flag-5'>人工智能</b>實(shí)驗(yàn)箱案例分享

    報(bào)名開啟!深圳(國際)通用人工智能大會(huì)將啟幕,國內(nèi)外大咖齊聚話AI

    呈現(xiàn)、產(chǎn)業(yè)展覽、技術(shù)交流、學(xué)術(shù)論壇于體的世界級(jí)人工智能合作交流平臺(tái)。本次大會(huì)暨博覽會(huì)由工業(yè)和信息化部政府采購中心、廣東省工商聯(lián)、前海合作區(qū)管理局、深圳市信局等單位指導(dǎo),深圳市人工智能
    發(fā)表于 08-22 15:00

    智能目標(biāo)顏色識(shí)別抓取丨國產(chǎn)Cortex-A55人工智能實(shí)驗(yàn)箱機(jī)械臂案例分享

    智能目標(biāo)顏色識(shí)別抓取丨國產(chǎn)Cortex-A55人工智能實(shí)驗(yàn)箱機(jī)械臂案例分享
    的頭像 發(fā)表于 08-10 08:32 ?690次閱讀
    <b class='flag-5'>智能</b>目標(biāo)顏色識(shí)別抓取丨國產(chǎn)Cortex-A55<b class='flag-5'>人工智能</b>實(shí)驗(yàn)箱機(jī)械臂案例分享

    FPGA在人工智能中的應(yīng)用有哪些?

    FPGA(現(xiàn)場可編程門陣列)在人工智能領(lǐng)域的應(yīng)用非常廣泛,主要體現(xiàn)在以下幾個(gè)方面: 、深度學(xué)習(xí)加速 訓(xùn)練和推理過程加速:FPGA可以用來加速深度學(xué)習(xí)的訓(xùn)練和推理過程。由于其高并行性和低延遲特性
    發(fā)表于 07-29 17:05