99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于部分可觀察馬爾可夫決策過程思考自然語言處理和強化學習問題的一些想法

zhKF_jqr_AI ? 來源:李倩 ? 2018-11-30 08:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【編者按】Microsoft Semantic Machines資深研究科學家、UC Berkeley計算機科學博士Jacob Andreas討論了基于部分可觀察馬爾可夫決策過程思考自然語言處理和強化學習問題的一些想法。

AI研究應(yīng)該操心話語含義的明確表示嗎?我這里說的“含義的明確表示”指具備預(yù)定義的解釋的結(jié)構(gòu)化變量——語義學家關(guān)心的那類事情。長期以來,這樣的含義表示一直是將語義與其他任務(wù)連接起來的成功努力的中心,這些任務(wù)涉及推理、感知、行動(從SHRDLU到現(xiàn)代語義解析器)。另外,長期以來,結(jié)構(gòu)化的含義表示同時也是一些不成功的工作的中心,這些工作包括機器翻譯、句法等。這種表示使用了許多不同的表示形式化系統(tǒng)——新戴維森邏輯形式(AZ13),組合子邏輯(LJK11),其他非邏輯結(jié)構(gòu)(TK+11)——不過,從某種角度上來說,它們基本上都屬于基于預(yù)測-論據(jù)結(jié)構(gòu)實現(xiàn)的模型-理論語義,也許預(yù)言主體有幾個自由變量。

這類方法看起來正在消失。現(xiàn)在所有一切都是端到端的,接受手工設(shè)計的邏輯語言的值,帶有這樣的顯式潛變量的模型非常罕見。話語傳入模型,模型產(chǎn)生行為,我們并不怎么操心中間進行的運算的結(jié)構(gòu)。從某種標準上來說,這是一件好事:在更形式化的方法中,機器學習和表示的緊密耦合意味著,數(shù)據(jù)中出現(xiàn)新的語義現(xiàn)象導致模型突然變得無用的風險始終存在。足夠一般的學習表示的機制(非邏輯)讓這一風險不那么可怕了。當然,在舊模型中毫不費力就能得到的一些特定種類的概括和歸納偏置,我們尚未完全搞清楚如何重建。不過,結(jié)構(gòu)化正則器(OS+17)和我們的NMN工作(AR+16)這樣的混合方法的成功,暗示我們將逐漸達到這一步。

但是端到端世界的態(tài)度看起來是,既然我們不再進行邏輯推理,那么我們完全沒有必要考慮含義。突然之間,所有人都喜歡稱引維特根斯坦,主張我們應(yīng)該以下游任務(wù)的成功來評估“語言理解”,而不是通過預(yù)測正確的邏輯形式(WLM16、GM16、LPB16)——這很棒!——但是這背后似乎有這么一種哲學:“含義即使用,所以如果我們能以很高的精確度預(yù)測使用,那么我們就已經(jīng)理解了我們需要理解的關(guān)于含義的一切”。特別是考慮到我們實際上并沒有解決“使用”,我認為機器學習在等式的含義這邊有很多需要學、需要說的。而且我從不認為這是維特根斯坦《哲學研究》中的主張——就算使用(而不是指代)是我們應(yīng)該嘗試解釋的主要內(nèi)容,《哲學研究》則對依據(jù)哪種語言使用是可能的判斷~~心智表示~~過程表示特別感興趣。

本文的主張是,p(世界狀態(tài)|話語)形式的信念狀態(tài)的明確表示,適合作為“非結(jié)構(gòu)”機器學習模型的含義表示。這類表示很自然地源于社區(qū)最近熱衷的決策任務(wù),但也和語言學的經(jīng)典表示理論很像。這一綜合暗示了同時訓練和解釋語言處理模型的道路。

信念狀態(tài)和內(nèi)涵

考慮這樣一個問題,在部分觀察的世界中,通過和人們交談降低不確定性,決定如何行動。你應(yīng)該如何選擇應(yīng)該采取的最佳行動?給定單一話語w,可能真實的世界狀態(tài)x,就某風險函數(shù)R而言,最小化貝葉斯風險的行動為:

任何希望在這個世界成功的聽話人需要至少成功地逼近這一優(yōu)化問題的解,在實踐中,聽話人大概需要表示分布p(x|w),至少隱式地表示。在POMDP中,我們稱p(x|w)為信念狀態(tài);對一給定w而言,這是一個映射可能世界x至變量可信度判斷的函數(shù)——給定我們觀察到某人說了w這一事實,x是真實世界的可能性有多大?

和蒙塔古語義學中的內(nèi)涵概念對比一下:“映射可能世界和時刻至真值的函數(shù)”(J11)。大多數(shù)(模型-理論)語義程序使用邏輯表達式(而不是表格)表示內(nèi)涵。但邏輯形式只不過是表達類型正確的函數(shù)的一種方式;在蒙塔古傳統(tǒng)下,“含義的明確表示”正是內(nèi)涵——類似p(x|w)的離散版。

信念狀態(tài)是包含概率的內(nèi)涵。含義的內(nèi)涵表示很有用,不僅是因為它們有助于解決語言學問題,還因為它們逼近一個量,我們知道,這個量有助于語言使用者利用從語言中獲取的信息進行有用之事。另一方面,POMDP告訴我們,我們需要在聽到話語后進行的計算,差不多是語言學家至始自終告訴我們需要計算的東西?;蛘撸瑤缀蹙褪钦Z言學習家已經(jīng)告訴我們的東西——比起回答p(x|w)請求的黑箱,如果是帶一點結(jié)構(gòu)的東西就更好了,也許是某種分解表示,讓我們可以通過檢查所有可信世界共有的一組屬性高效地找出MBR行動。也許是關(guān)于個體的斷言、他們的性質(zhì)、他們之間的關(guān)系……等的乘積。要是邏輯語義學不存在的話,我們將不得不發(fā)明它。

準確地說,作為“含義”的p(x|w)應(yīng)該理解為聽話人含義:已經(jīng)計入格萊斯說話人含義類型效應(yīng)(寓意)以及說話人也許不想讓聽話人進行的進一步推理(例如,w是謊言的概率)的精確信念狀態(tài)。我們這里不在乎p(x|w)來自何處,所以也許可以通過RSA之類的技術(shù)計算(使用不同的內(nèi)嵌句含義概念)(FG12)。

最后一項調(diào)整:現(xiàn)實世界聽話人并不從白板開始:所有話語都基于現(xiàn)存信念狀態(tài)p(x)的上下文進行解讀,與其將句子的含義直接視作p(x|w),不如將其視作一個更新函數(shù)p(x) ? p(x∣w)。就“Pat loves Lou”這樣的句子而言,我想這一更新基本上一直是連續(xù)的;即p(x) ? (1/Z)?p(x)?p(x∣w). 但要處理指示詞和Quine問題中bachelor的含義(譯者注:bachelor既可以指學士,也可以指單身漢),我們需要更新函數(shù)的一般版本。

實際影響

這些都很好,不過我們注意到明確指稱含義表示(邏輯、概率或其他形式)并沒有在實踐中表現(xiàn)良好的那些模型中得到應(yīng)用。所以這有什么可在意的?

語言理解系統(tǒng)要想工作良好,必定選擇了類似最小貝葉斯風險的行動。奧妙在于:深度網(wǎng)絡(luò)的后綴是一個通過固定回路轉(zhuǎn)換輸入表示至輸出行動的函數(shù);如果這個后綴可以為每個輸入表示選擇良好的行動,那么它實際上實現(xiàn)了類似MBR解碼算法的東西(盡管也許只是逼近,同時在表示的經(jīng)驗分布上特化);呈現(xiàn)給這一部分網(wǎng)絡(luò)的語言上下文表示必須足以解決優(yōu)化問題,所以會是類似p(x|w)表示的東西。

這不是一個很好的論據(jù):模型的“句子表示”和“優(yōu)化”部分之間可能實際上沒有明顯的界限。但在實踐中,我們確實看到了含義類的句子表示出現(xiàn)(特別是在句子表示獨立于聽話人具備的關(guān)于世界狀態(tài)的初始信息計算的模型中(DP+18))。當在較大規(guī)模網(wǎng)絡(luò)中使用專門化的優(yōu)化模塊時(TW+17、LFK18),我們可以很明確地看到兩者的差別。

在任何情形下,我們模型的某種中間表示解碼(或應(yīng)該能解碼)知識為世界狀態(tài)分布,并為我們提供了兩種工具:

可解釋性:通過估計p(x|rep(w))可以測試表示是否捕捉了正確的語義(或者識別表示捕捉了什么奇異的不規(guī)則性),其中rep(w)是模型學習到的話語w的表示。判斷這是否對應(yīng)于w的真實(即人類聽話人的)指稱。我們發(fā)表的一些論文(ADK17、AK17)在這一技術(shù)上取得了一些進展。我們組的其他一些學生使用這一技術(shù)分析遵循指令的模型的預(yù)訓練方案。不過,某種程度上,應(yīng)用這一技術(shù)學習自然語言自身的表示要比應(yīng)用于學習到的消息/抽象行動的空間更加自然。

輔助目標:指令遵循/QA問題的一般目標是p(行動|話語, 聽話人觀測)。不過,如果碰到了過擬合問題,在說話人觀測可用的情況下,可以直接加上一項p(說話人觀測, 聽話人觀測|話語)。對某些問題而言(例如GeoQuery類的語義解析),在“說話人觀測”和“行動”之間不存在有意義的差別;對另一些問題而言,這看起來像是完全不同的學習問題。在指代表達任務(wù)中,指稱輔助問題是“生成/獲取圖像對,在這一對對圖像之間,這將是不同的描述”;在指令遵循模型中,它是“生成目標狀態(tài)(但未必是能讓我到達那里的行動)”。

結(jié)語

在語言任務(wù)中思考POMDP風格的解答,我們得到了疑似模型-理論語義學中的含義的描述。這一類比提供了解釋學習到的模型的工具,并暗示了提升模型精確度的輔助目標。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 強化學習
    +關(guān)注

    關(guān)注

    4

    文章

    269

    瀏覽量

    11604
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    628

    瀏覽量

    14164

原文標題:AI研究應(yīng)該關(guān)注語含義的明確表示嗎?

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    如何優(yōu)化自然語言處理模型的性能

    優(yōu)化自然語言處理(NLP)模型的性能是個多方面的任務(wù),涉及數(shù)據(jù)預(yù)處理、特征工程、模型選擇、模型調(diào)參、模型集成與融合等多個環(huán)節(jié)。以下是一些
    的頭像 發(fā)表于 12-05 15:30 ?1705次閱讀

    如何使用自然語言處理分析文本數(shù)據(jù)

    使用自然語言處理(NLP)分析文本數(shù)據(jù)是個復雜但系統(tǒng)的過程,涉及多個步驟和技術(shù)。以下是個基本的流程,幫助你理解如何使用NLP來分析文本數(shù)
    的頭像 發(fā)表于 12-05 15:27 ?1583次閱讀

    自然語言處理與機器學習的關(guān)系 自然語言處理的基本概念及步驟

    Learning,簡稱ML)是人工智能的個核心領(lǐng)域,它使計算機能夠從數(shù)據(jù)中學習并做出預(yù)測或決策。自然語言處理與機器
    的頭像 發(fā)表于 12-05 15:21 ?1988次閱讀

    語音識別與自然語言處理的關(guān)系

    在人工智能的快速發(fā)展中,語音識別和自然語言處理(NLP)成為了兩個重要的技術(shù)支柱。語音識別技術(shù)使得機器能夠理解人類的語音,而自然語言處理則讓機器能夠理解、解釋和生成人類
    的頭像 發(fā)表于 11-26 09:21 ?1507次閱讀

    什么是LLM?LLM在自然語言處理中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,自然語言處理(NLP)領(lǐng)域迎來了革命性的進步。其中,大型語言模型(LLM)的出現(xiàn),標志著我們對語言理解能力的
    的頭像 發(fā)表于 11-19 15:32 ?3662次閱讀

    ASR與自然語言處理的結(jié)合

    。以下是對ASR與自然語言處理結(jié)合的分析: 、ASR與NLP的基本概念 ASR(自動語音識別) : 專注于將人類的語音轉(zhuǎn)換為文字。 涉及從聲音信號中提取特征,并將這些特征映射到文本。 NLP(
    的頭像 發(fā)表于 11-18 15:19 ?1026次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)在自然語言處理中的應(yīng)用

    自然語言處理是人工智能領(lǐng)域的個重要分支,它致力于使計算機能夠理解、解釋和生成人類語言。隨著深度學習技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)作為
    的頭像 發(fā)表于 11-15 14:58 ?807次閱讀

    使用LSTM神經(jīng)網(wǎng)絡(luò)處理自然語言處理任務(wù)

    自然語言處理(NLP)是人工智能領(lǐng)域的個重要分支,它旨在使計算機能夠理解、解釋和生成人類語言。隨著深度學習技術(shù)的發(fā)展,特別是循環(huán)神經(jīng)網(wǎng)絡(luò)(
    的頭像 發(fā)表于 11-13 09:56 ?1165次閱讀

    自然語言處理的未來發(fā)展趨勢

    隨著技術(shù)的進步,自然語言處理(NLP)已經(jīng)成為人工智能領(lǐng)域的個重要分支。NLP的目標是使計算機能夠理解、解釋和生成人類語言,這不僅涉及到語言
    的頭像 發(fā)表于 11-11 10:37 ?1727次閱讀

    自然語言處理與機器學習的區(qū)別

    在人工智能的快速發(fā)展中,自然語言處理(NLP)和機器學習(ML)成為了兩個核心的研究領(lǐng)域。它們都致力于解決復雜的問題,但側(cè)重點和應(yīng)用場景有所不同。 1. 自然語言
    的頭像 發(fā)表于 11-11 10:35 ?1556次閱讀

    自然語言處理的應(yīng)用實例

    在當今數(shù)字化時代,自然語言處理(NLP)技術(shù)已經(jīng)成為我們?nèi)粘I畹?b class='flag-5'>一部分。從智能手機的語音助手到在線客服機器人,NLP技術(shù)的應(yīng)用無處不在。 1. 語音識別與虛擬助手 隨著Siri、Google
    的頭像 發(fā)表于 11-11 10:31 ?1612次閱讀

    使用LLM進行自然語言處理的優(yōu)缺點

    語言任務(wù),如文本分類、情感分析、機器翻譯等。以下是使用LLM進行NLP的一些優(yōu)缺點: 優(yōu)點 強大的語言理解能力 : LLM通過訓練學習了大量的語言
    的頭像 發(fā)表于 11-08 09:27 ?2458次閱讀

    如何使用 PyTorch 進行強化學習

    強化學習(Reinforcement Learning, RL)是種機器學習方法,它通過與環(huán)境的交互來學習如何做出決策,以最大化累積獎勵。
    的頭像 發(fā)表于 11-05 17:34 ?1043次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學習

    一些局限性。例如,模型可能無法完全理解文本中的深層含義和語境信息;同時,由于訓練數(shù)據(jù)可能存在偏差和噪聲,生成的答案也可能存在不準確或誤導性的情況。 總結(jié)以下,大語言模型通過深度學習自然語言
    發(fā)表于 08-02 11:03

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)篇

    的章節(jié)包括統(tǒng)自然語言任務(wù)、大語言模型的訓練過程和局限性分析,閱讀還算順利。 至此,基礎(chǔ)篇只能算是瀏覽完成,因為部分原理方法并沒有吃透,但盡
    發(fā)表于 07-25 14:33