午夜高清无码视频,久久影视国产绯色

如何讓AI依照人類的意圖行事？這是將AI應(yīng)用于現(xiàn)實世界復(fù)雜問題的最大障礙之一。DeepMind將這個問題定義為“智能體對齊問題”，并提出了新的解決方案。

如何讓AI符合人類的意圖？

這個問題是將AI系統(tǒng)部署到真實世界、幫助人類解決復(fù)雜問題的最大障礙之一。

DeepMind將這個問題定義為“智能體對齊問題”（agent alignment problem），并提出依賴于獎勵建模，正面解決agent alignment問題的研究方向。

這篇文章基于DeepMind的新論文Scalable agent alignment via reward modeling: a research direction，概述了解決agent alignment問題的研究方向。所提出的方法依賴于獎勵建模的遞歸應(yīng)用，以符合用戶意圖的方式解決復(fù)雜的現(xiàn)實世界問題。

近年來，強化學(xué)習(xí)在許多復(fù)雜游戲環(huán)境中取得了令人矚目的成績，從Atari游戲、圍棋、象棋到Dota 2和星際爭霸II，AI智能體在越來越復(fù)雜的領(lǐng)域迅速超越了人類水平。游戲是開發(fā)和測試機器學(xué)習(xí)算法的理想平臺。它們提出了需要多種認(rèn)知能力才能完成的具有挑戰(zhàn)性的任務(wù)，反映出解決現(xiàn)實世界問題所需的技能。機器學(xué)習(xí)研究人員可以在云上并行運行數(shù)千個模擬實驗，生成系統(tǒng)學(xué)習(xí)所需的訓(xùn)練數(shù)據(jù)。

至關(guān)重要的是，游戲通常都有一個明確的目標(biāo)，以及一個近似于實現(xiàn)該目標(biāo)的進(jìn)展的分?jǐn)?shù)。這個分?jǐn)?shù)為強化學(xué)習(xí)智能體提供了有用的獎勵信號，使我們能夠得到關(guān)于哪些算法和架構(gòu)選擇最有效的快速反饋。

智能體對齊問題

AI發(fā)展的終極目標(biāo)是讓人類受益，讓我們能夠應(yīng)對現(xiàn)實世界中日益復(fù)雜的挑戰(zhàn)。但現(xiàn)實世界并沒有內(nèi)置的獎勵機制。這就帶來了挑戰(zhàn)，因為現(xiàn)實世界任務(wù)的表現(xiàn)不容易定義。我們需要一種好的方式來提供反饋，并使AI能夠可靠地理解我們想要什么，以幫助我們實現(xiàn)目的。

換句話說，我們想用人類反饋的方式訓(xùn)練AI系統(tǒng)，使AI的行為與我們的意圖一致。為了達(dá)到這個目的，我們將智能體對齊問題（agent alignment problem）定義如下:

如何創(chuàng)建符合用戶意圖的智能體？

對齊問題可以在強化學(xué)習(xí)框架中構(gòu)建，不同之處是，智能體可以通過交互協(xié)議與用戶交互，而不是接收數(shù)字獎勵信號。這個交互協(xié)議允許用戶向智能體傳達(dá)他們的意圖。協(xié)議可以采用多種形式：例如，用戶可以提供演示、偏好、最佳操作或傳達(dá)獎勵函數(shù)。Agent alignment問題的解決方案之一是根據(jù)用戶的意圖行事的策略。

DeepMind的新論文概述了正面解決agent alignment問題的研究方向。基于我們之前對AI安全問題分類的研究，以及對眾多AI安全問題的論述，我們描繪了這些領(lǐng)域的進(jìn)展如何能夠產(chǎn)生一個解決agent alignment問題的方案。這將為構(gòu)建能夠更好地理解如何與用戶交互、如何從用戶的反饋中學(xué)習(xí)、以及如何預(yù)測用戶偏好的系統(tǒng)打開大門。

通過獎勵模型進(jìn)行對齊

我們研究方向的要點是基于獎勵建模（reward modeling）：訓(xùn)練一個獎勵模型，其中包含來自用戶的反饋，從而捕捉他們的意圖。與此同時，我們通過強化學(xué)習(xí)訓(xùn)練一個策略，使獎勵模型的獎勵最大化。換句話說，我們把學(xué)習(xí)做什么(獎勵模型)和學(xué)習(xí)怎么做(策略)區(qū)分開來。

獎勵建模的示意圖：根據(jù)用戶的反饋訓(xùn)練獎勵模型，以獲取用戶的意圖；這個獎勵模型為經(jīng)過強化學(xué)習(xí)訓(xùn)練的智能體提供獎勵。

例如，在以前的工作中，我們教智能體根據(jù)用戶偏好做一個后空翻，根據(jù)目標(biāo)狀態(tài)示例將對象排列成特定形狀，以及根據(jù)用戶偏好和專家演示玩Atari游戲。未來，我們希望設(shè)計能夠?qū)W習(xí)適應(yīng)用戶提供反饋的方式(例如使用自然語言)的算法。

擴大獎勵模型的規(guī)模

從長遠(yuǎn)來看，我們希望將獎勵模型的規(guī)模擴大到人類無法直接評估的過于復(fù)雜的領(lǐng)域。要做到這一點，我們需要提高用戶評估結(jié)果的能力。我們將討論如何遞歸地應(yīng)用獎勵建模：可以使用獎勵建建模來訓(xùn)練agent，讓agent幫助用戶進(jìn)行評估過程。如果評估比行為更容易，就可以從簡單的任務(wù)過渡到更加普遍、更加復(fù)雜的任務(wù)。這可以看作是一個迭代擴增（iterated amplification）的實例。

遞歸獎勵建模的示意圖：使用遞歸獎勵建模訓(xùn)練的agent(右邊的小圓圈)幫助用戶評估當(dāng)前正在訓(xùn)練的agent(大圓圈)產(chǎn)生的結(jié)果。

例如，假設(shè)我們想訓(xùn)練一個agent來設(shè)計計算機芯片。為了評估某個提議的芯片設(shè)計，我們使用獎勵建模訓(xùn)練其他的“helper”智能體，以對芯片的模擬性能進(jìn)行基準(zhǔn)測試、計算散熱、估計芯片的壽命、查找安全漏洞，等等?？偟膩碚f，這些helper agents的輸出使用戶能夠通過協(xié)助評估所提議的芯片設(shè)計來訓(xùn)練芯片設(shè)計agent。雖然helper agent必須解決一系列非常困難的任務(wù)，但這些任務(wù)總比直接設(shè)計一個芯片更容易執(zhí)行：要設(shè)計一個計算機芯片，你必須理解每一項評估任務(wù)，但反過來則不然。從這個意義上說，遞歸獎勵建?？梢宰屛覀儭爸С帧盿gent來解決越來越難的任務(wù)，同時保持與用戶意圖一致。

研究挑戰(zhàn)

為了對這些復(fù)雜的問題進(jìn)行獎勵建模，需要解決幾個挑戰(zhàn)性問題。下面列出了其中的五項挑戰(zhàn)，論文中對這些挑戰(zhàn)及其解決辦法進(jìn)行了更深入的描述。

我們希望擴大獎勵建模時遇到的挑戰(zhàn)(左)和有前景的解決方法(右)。

那么就來到了agent alignment的最后一個重要組成部分：在現(xiàn)實世界中部署AI智能體時，我們需要向用戶提供證據(jù)，證明我們的智能體確實已經(jīng)充分對齊了。

本文討論了五種不同的研究途徑，可以幫助增加對agent的信任：設(shè)計選擇、測試、可解釋性、形式驗證和理論保證。

我們的一個雄心勃勃的目標(biāo)是制作安全證書（safety certificates）：可以用來證明負(fù)責(zé)任的技術(shù)開發(fā)工作，并讓用戶對依賴訓(xùn)練好的智能體有信心。

未來研究方向

雖然我們相信遞歸獎勵建模是訓(xùn)練對齊智能體的一個非常有前景的方向，但目前還不知道它可以如何擴展（需要更多的研究）。幸運的是，追求agent alignment還有其他一些研究方向：

模仿學(xué)習(xí)

短視強化學(xué)習(xí)（Myopic reinforcement learning）

逆強化學(xué)習(xí)（Inverse reinforcement learning）

合作逆強化學(xué)習(xí)

迭代擴增

Debate

Agent foundations

本文進(jìn)一步探討它們的異同。

正如對計算機視覺系統(tǒng)相對對抗性輸入的魯棒性的積極研究對于當(dāng)今的ML應(yīng)用程序是至關(guān)重要的一樣，對齊研究對于在復(fù)雜的現(xiàn)實世界中部署ML系統(tǒng)也是至關(guān)重要的。我們有理由保持樂觀：雖然我們希望在擴大獎勵模型時面對挑戰(zhàn)，但這些挑戰(zhàn)是我們可以取得進(jìn)展的具體技術(shù)研究問題。從這個意義上說，我們的研究方向已經(jīng)準(zhǔn)備就緒，可以對深度強化學(xué)習(xí)智能體進(jìn)行實證研究。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴