編者按:Microsoft Semantic Machines資深研究科學(xué)家、UC Berkeley計算機科學(xué)博士Jacob Andreas指出,合成語言數(shù)據(jù)集引起的爭議,部分源自不同研究社區(qū)間的溝通不暢,應(yīng)正視合成語言數(shù)據(jù)集的價值。
在AI生態(tài)系統(tǒng)中,虛假語言數(shù)據(jù)集能起到什么作用嗎?(我說的“虛假語言”指的是像bAbI、CLEVR、Karthik的論文(arXiv:1506.08941)、DeepMind論文(arXiv:1710.09867)中所用的語言數(shù)據(jù)集。)基于這些數(shù)據(jù)集上的結(jié)果,聲稱各種學(xué)習(xí)架構(gòu)可以“處理語言”引起了NLP社區(qū)的很多不滿。盡管很大程度上這是歷史悠久的夸大宣傳風(fēng)氣所造成的惡果,我漸漸相信部分原因是兩個不同群組使用“語言數(shù)據(jù)”指代完全不同之物導(dǎo)致的溝通不暢。
本文關(guān)注指令遵循(instruction following)這一問題,但我覺得問題回答、生成之類的許多其他接地任務(wù)同樣存在類似的現(xiàn)象。(明確不在討論范圍內(nèi)的是對虛假語言數(shù)據(jù)進行語言學(xué)分析的工作。這類工作根本和語言無關(guān),要不就是分析特定模型類別的形式化表達能力,要不就是垃圾。)長時間以來,一個AI研究者眼中的指令遵循問題是像這樣的:
語言 -> 抽象 -> 行為
也就是說,我們從人們生成的任意表達開始,將其映射到某種清晰的結(jié)構(gòu)化表示,接著基于該結(jié)構(gòu)做出該如何行動的決策。由于一下子處理整個工作流過于困難,大多數(shù)情況下社區(qū)從不同端開始著手。(并不是所有人都這么干!在最近的端到端瘋狂之前,Stefanie Tellex和Branavan就嘗試處理整個工作流。)
“語言研究者”進行的是這樣的工作:
語言 -> 抽象
在這幅圖景中,語言來自外部世界——你不能控制其分布。你需要設(shè)計抽象語言,讓它能夠處理外部世界扔過來的任意表達(如果無法處理,至少也要優(yōu)雅地失?。?。語言學(xué)家以邏輯的形式為我們提供了精良的抽象形式化,通過這種方式從抽象到行為不過是邏輯解釋。因此語言學(xué)家很容易就把抽象視為形式化語義,而把“抽象 -> 行為”視作其他人的問題。
數(shù)據(jù)收集自人類說話人,這些人不需要知道任何關(guān)于邏輯形式的東西。事實上,關(guān)于邏輯語言細(xì)節(jié)的決策通常是在收集初始注釋之后做出的?!罢Z言數(shù)據(jù)”和其他數(shù)據(jù)的區(qū)別恰恰是它們是由人類用戶生成的。(如果我們從虛假語法生成器生成數(shù)據(jù),然后將其映射到邏輯形式,那么一般來說我們并沒有學(xué)到我們之前寫下的語法之外的任何東西。)
“策略研究者”(大致可以理解為從事強化學(xué)習(xí)、規(guī)劃、經(jīng)典控制領(lǐng)域研究的人)做的工作是:
抽象 -> 行為
在這一圖景中,可接受的抽象的范圍取決于系統(tǒng)設(shè)計者——行為才牽涉真實世界的細(xì)節(jié)(物理等)。從“做10件特定事項中的一件”到“滿足STRIPS目標(biāo)”都可以看成是抽象語言。具體來說,一個不支持所有可能目標(biāo)的抽象語言的問題并不比無法一次性進行所有操作的遠(yuǎn)程控制器大多少。(某種意義上說,Jonathan Berant和Percy Liang通過改寫進行語義解析的工作(aclweb/P14-1133)實際上可以歸入這類,而不是語言 -> 抽象那類,雖然他們?nèi)匀恢鲝堊约旱墓ぷ魇恰罢鎸嵳Z言”評估標(biāo)準(zhǔn)。)我原先難以領(lǐng)會的是,即使我們完全可以控制輸入分布,這類問題中的一些也非常困難。強化學(xué)習(xí)是困難的。規(guī)劃是困難的。這些抽象語言的有趣的組合性還有大量空間可供研究——如果我有某種目標(biāo)的機構(gòu)化表示,然后在結(jié)構(gòu)的子集上訓(xùn)練,能否推廣至剩余結(jié)構(gòu)?我們還有很多事情做不到。
為了處理當(dāng)前方法能夠解決的問題,數(shù)據(jù)源自生成,而非收集。構(gòu)建抽象所依據(jù)的分布和相應(yīng)推導(dǎo)的行為是手工設(shè)計的。這里沒有語言數(shù)據(jù);這些工作中使用的數(shù)據(jù)和“語言數(shù)據(jù)”的區(qū)別在于,語言沒有精確的執(zhí)行語義,而STRIPS之類的東西卻有。
近年來,這兩個社區(qū)漸漸匯合,因為世界看起來是這樣的:
語言 -> 行為
所有時刻,所有事情,都是端到端的。抽象并沒有消失,但存在于某個無法解釋的表示空間,而不是之前手工設(shè)計的形式化系統(tǒng)。這是一個大事件!語言研究者再也不必局限在一個他們有足夠的聰明才智可以構(gòu)建足夠好的邏輯語言的世界之中。
而策略研究者(這正是麻煩開始之處)再也不用以任何特定形式化系統(tǒng)描述他們的任務(wù)了:他們只需要某種生成獎勵函數(shù)/目標(biāo)檢驗以及相應(yīng)的(可組合的?)描述前者的標(biāo)識符的方法。所以他們生成由單詞序列構(gòu)成的可解釋的字符串。沒有執(zhí)行語義了,使用英語單詞:自然語言。這就是困惑的根源。
我相信這對兩個社區(qū)中的人而言,這都是一個重要的教訓(xùn):
對作為研究人員的策略研究者而言,請務(wù)必一定明確標(biāo)明所用的輸入數(shù)據(jù)是合成數(shù)據(jù)。在這一點上,語言一詞已經(jīng)令人絕望地被濫用了,但二元語法自然語言(natural language)還沒有:除非涉及真人,否則避免使用自然一詞(本文第一段提到的一些論文都應(yīng)該感到羞愧)。
對作為評審人員的語言研究者而言,對合格的虛假語言數(shù)據(jù)集而言,提出“它是否解決了一個有趣的抽象 -> 行為問題?字符串是否以一種有趣的方式索引了目標(biāo)行為類別?”這樣的問題來給出回應(yīng)。對許多工作而言,這是一個比較合適的標(biāo)準(zhǔn)。
我認(rèn)為我們?nèi)耘f處在可以基于虛假語言研究出很多東西的階段,即使對那些只在意人類生成語言的分布的人,也是如此。
-
數(shù)據(jù)收集
+關(guān)注
關(guān)注
0文章
73瀏覽量
11457 -
生態(tài)系統(tǒng)
+關(guān)注
關(guān)注
0文章
707瀏覽量
21084
原文標(biāo)題:虛假語言:合成語言數(shù)據(jù)集的爭議和價值
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
成語大全 2008
基于波形音頻段處理的中文語音合成研究
適用于Java的嵌入式腳本語言是什么
HarmonyOS原子化服務(wù)案例分享-成語心情
PWM在合成語音輸出電路中的應(yīng)用
VHDL并行語句(生成語句)使用練習(xí)

基于TMS320C6678的合成語音檢測算法

基于移動傳感器網(wǎng)絡(luò)社區(qū)間能量均衡路由算法
結(jié)合粗糙集和距離動態(tài)模型的重疊社區(qū)發(fā)現(xiàn)方法
采用人工智能技術(shù)的高質(zhì)量合成語音開發(fā)和定制
PyTorch教程16.4之自然語言推理和數(shù)據(jù)集

評論