99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

合成語言數(shù)據(jù)集引起的爭議,部分源自不同研究社區(qū)間的溝通不暢

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-10-04 08:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按:Microsoft Semantic Machines資深研究科學(xué)家、UC Berkeley計算機科學(xué)博士Jacob Andreas指出,合成語言數(shù)據(jù)集引起的爭議,部分源自不同研究社區(qū)間的溝通不暢,應(yīng)正視合成語言數(shù)據(jù)集的價值。

AI生態(tài)系統(tǒng)中,虛假語言數(shù)據(jù)集能起到什么作用嗎?(我說的“虛假語言”指的是像bAbI、CLEVR、Karthik的論文(arXiv:1506.08941)、DeepMind論文(arXiv:1710.09867)中所用的語言數(shù)據(jù)集。)基于這些數(shù)據(jù)集上的結(jié)果,聲稱各種學(xué)習(xí)架構(gòu)可以“處理語言”引起了NLP社區(qū)的很多不滿。盡管很大程度上這是歷史悠久的夸大宣傳風(fēng)氣所造成的惡果,我漸漸相信部分原因是兩個不同群組使用“語言數(shù)據(jù)”指代完全不同之物導(dǎo)致的溝通不暢。

本文關(guān)注指令遵循(instruction following)這一問題,但我覺得問題回答、生成之類的許多其他接地任務(wù)同樣存在類似的現(xiàn)象。(明確不在討論范圍內(nèi)的是對虛假語言數(shù)據(jù)進行語言學(xué)分析的工作。這類工作根本和語言無關(guān),要不就是分析特定模型類別的形式化表達能力,要不就是垃圾。)長時間以來,一個AI研究者眼中的指令遵循問題是像這樣的:

語言 -> 抽象 -> 行為

也就是說,我們從人們生成的任意表達開始,將其映射到某種清晰的結(jié)構(gòu)化表示,接著基于該結(jié)構(gòu)做出該如何行動的決策。由于一下子處理整個工作流過于困難,大多數(shù)情況下社區(qū)從不同端開始著手。(并不是所有人都這么干!在最近的端到端瘋狂之前,Stefanie Tellex和Branavan就嘗試處理整個工作流。)

“語言研究者”進行的是這樣的工作:

語言 -> 抽象

在這幅圖景中,語言來自外部世界——你不能控制其分布。你需要設(shè)計抽象語言,讓它能夠處理外部世界扔過來的任意表達(如果無法處理,至少也要優(yōu)雅地失?。?。語言學(xué)家以邏輯的形式為我們提供了精良的抽象形式化,通過這種方式從抽象到行為不過是邏輯解釋。因此語言學(xué)家很容易就把抽象視為形式化語義,而把“抽象 -> 行為”視作其他人的問題。

數(shù)據(jù)收集自人類說話人,這些人不需要知道任何關(guān)于邏輯形式的東西。事實上,關(guān)于邏輯語言細(xì)節(jié)的決策通常是在收集初始注釋之后做出的?!罢Z言數(shù)據(jù)”和其他數(shù)據(jù)的區(qū)別恰恰是它們是由人類用戶生成的。(如果我們從虛假語法生成器生成數(shù)據(jù),然后將其映射到邏輯形式,那么一般來說我們并沒有學(xué)到我們之前寫下的語法之外的任何東西。)

“策略研究者”(大致可以理解為從事強化學(xué)習(xí)、規(guī)劃、經(jīng)典控制領(lǐng)域研究的人)做的工作是:

抽象 -> 行為

在這一圖景中,可接受的抽象的范圍取決于系統(tǒng)設(shè)計者——行為才牽涉真實世界的細(xì)節(jié)(物理等)。從“做10件特定事項中的一件”到“滿足STRIPS目標(biāo)”都可以看成是抽象語言。具體來說,一個不支持所有可能目標(biāo)的抽象語言的問題并不比無法一次性進行所有操作的遠(yuǎn)程控制器大多少。(某種意義上說,Jonathan Berant和Percy Liang通過改寫進行語義解析的工作(aclweb/P14-1133)實際上可以歸入這類,而不是語言 -> 抽象那類,雖然他們?nèi)匀恢鲝堊约旱墓ぷ魇恰罢鎸嵳Z言”評估標(biāo)準(zhǔn)。)我原先難以領(lǐng)會的是,即使我們完全可以控制輸入分布,這類問題中的一些也非常困難。強化學(xué)習(xí)是困難的。規(guī)劃是困難的。這些抽象語言的有趣的組合性還有大量空間可供研究——如果我有某種目標(biāo)的機構(gòu)化表示,然后在結(jié)構(gòu)的子集上訓(xùn)練,能否推廣至剩余結(jié)構(gòu)?我們還有很多事情做不到。

為了處理當(dāng)前方法能夠解決的問題,數(shù)據(jù)源自生成,而非收集。構(gòu)建抽象所依據(jù)的分布和相應(yīng)推導(dǎo)的行為是手工設(shè)計的。這里沒有語言數(shù)據(jù);這些工作中使用的數(shù)據(jù)和“語言數(shù)據(jù)”的區(qū)別在于,語言沒有精確的執(zhí)行語義,而STRIPS之類的東西卻有。

近年來,這兩個社區(qū)漸漸匯合,因為世界看起來是這樣的:

語言 -> 行為

所有時刻,所有事情,都是端到端的。抽象并沒有消失,但存在于某個無法解釋的表示空間,而不是之前手工設(shè)計的形式化系統(tǒng)。這是一個大事件!語言研究者再也不必局限在一個他們有足夠的聰明才智可以構(gòu)建足夠好的邏輯語言的世界之中。

而策略研究者(這正是麻煩開始之處)再也不用以任何特定形式化系統(tǒng)描述他們的任務(wù)了:他們只需要某種生成獎勵函數(shù)/目標(biāo)檢驗以及相應(yīng)的(可組合的?)描述前者的標(biāo)識符的方法。所以他們生成由單詞序列構(gòu)成的可解釋的字符串。沒有執(zhí)行語義了,使用英語單詞:自然語言。這就是困惑的根源。

我相信這對兩個社區(qū)中的人而言,這都是一個重要的教訓(xùn):

對作為研究人員的策略研究者而言,請務(wù)必一定明確標(biāo)明所用的輸入數(shù)據(jù)是合成數(shù)據(jù)。在這一點上,語言一詞已經(jīng)令人絕望地被濫用了,但二元語法自然語言(natural language)還沒有:除非涉及真人,否則避免使用自然一詞(本文第一段提到的一些論文都應(yīng)該感到羞愧)。

對作為評審人員的語言研究者而言,對合格的虛假語言數(shù)據(jù)集而言,提出“它是否解決了一個有趣的抽象 -> 行為問題?字符串是否以一種有趣的方式索引了目標(biāo)行為類別?”這樣的問題來給出回應(yīng)。對許多工作而言,這是一個比較合適的標(biāo)準(zhǔn)。

我認(rèn)為我們?nèi)耘f處在可以基于虛假語言研究出很多東西的階段,即使對那些只在意人類生成語言的分布的人,也是如此。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:虛假語言:合成語言數(shù)據(jù)集的爭議和價值

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    AI語音處理-文字合成語音功能

    這篇文章就介紹華為云提供的語音合成服務(wù)使用方法,利用提供的API接口完成語合成功能,將合成的語音下載下來。
    的頭像 發(fā)表于 07-08 09:50 ?2858次閱讀
    AI語音處理-文字<b class='flag-5'>合成語</b>音功能

    成語大全 2008

    至今已有14個軟件盜用《成語大全》的數(shù)據(jù)資料。4、最開放的軟件,允許用戶增、編輯,有設(shè)計能力的可反匯編重新打造個性化的詞典;而且程序文件完全免費。5、功能最齊全,查詢方式多達18種,還有學(xué)習(xí)與游戲功能。6
    發(fā)表于 10-15 13:12

    基于波形音頻段處理的中文語音合成研究

    高,語音單元之間的過渡還不夠自然。因此,如何提高合成語音的自然度,使合成的語音更加流暢是語音合成的關(guān)鍵。本文針對這個問題從語音單元之間平穩(wěn)過渡處理、分段處理和語氣處理三個方面進行了探討,并且將
    發(fā)表于 03-06 22:24

    適用于Java的嵌入式腳本語言是什么

    此文已由作者趙昕授權(quán)網(wǎng)易云社區(qū)發(fā)布。歡迎訪問網(wǎng)易云社區(qū),了解更多網(wǎng)易技術(shù)產(chǎn)品運營經(jīng)驗。fakescript輕量級嵌入式腳本語言 https://github.com/esrrhs
    發(fā)表于 12-23 08:17

    HarmonyOS原子化服務(wù)案例分享-成語心情

    一、案例說明成語,眾人皆說,成之于語;是漢語詞匯中定型的詞。成語多為四字,亦有三字,五字甚至七字以上。成語是中華傳統(tǒng)文化的一大特色,是中華文化中一顆璀璨的明珠。成語有很大一
    發(fā)表于 07-21 14:10

    PWM在合成語音輸出電路中的應(yīng)用

    基于采用權(quán)電流D/A方式實現(xiàn)合成語音輸出方式有集成電阻離散性大、開關(guān)的非線性,以及功耗高等缺點,提出了利用脈沖寬度調(diào)制(PWM)技術(shù)的方法將數(shù)字語音信號直接轉(zhuǎn)換為脈沖寬
    發(fā)表于 05-16 11:53 ?45次下載

    VHDL并行語句(生成語句)使用練習(xí)

    實驗七、VHDL并行語句(生成語句)使用練習(xí)一? 實驗?zāi)康?掌握VHDL語言的基本描述語句的使用方法。2掌握VHDL語言的生成語句的使用方法。二? 實
    發(fā)表于 03-13 19:25 ?2838次閱讀
    VHDL并行語句(生<b class='flag-5'>成語</b>句)使用練習(xí)

    電流互感器的飽和區(qū)間定位研究_許峰

    電流互感器的飽和區(qū)間定位研究_許峰
    發(fā)表于 12-31 14:45 ?0次下載

    基于TMS320C6678的合成語音檢測算法

    針對合成語音檢測系統(tǒng)在大規(guī)模電信網(wǎng)應(yīng)用中的實時性需求,在分析合成語音檢測原理和多核DSP任務(wù)并行的基礎(chǔ)上,提出了一種基于TMS320C6678的合成語音檢測算法并行實現(xiàn)方法,該方法實現(xiàn)了任務(wù)級并行
    發(fā)表于 11-14 14:47 ?15次下載
    基于TMS320C6678的<b class='flag-5'>合成語</b>音檢測算法

    基于移動傳感器網(wǎng)絡(luò)社區(qū)間能量均衡路由算法

    在資源受限的無線移動傳感器網(wǎng)絡(luò)( MWSN)中設(shè)計能效路由是一個挑戰(zhàn)性難題。針對移動傳感器網(wǎng)絡(luò)中社區(qū)間路由節(jié)點能量消耗過快的問題,提出了一種社區(qū)間能量均衡路由算法( ERAI)。設(shè)計了一個
    發(fā)表于 11-30 10:01 ?1次下載

    結(jié)合粗糙和距離動態(tài)模型的重疊社區(qū)發(fā)現(xiàn)方法

    的理論意義和實際價值。隨著復(fù)雜系統(tǒng)內(nèi)個體的不斷變化,多個社區(qū)間岀現(xiàn)了重疊節(jié)點,有效且準(zhǔn)確地挖掘社區(qū)中的重疊節(jié)點具有一定的挑戰(zhàn)性。為了有效發(fā)現(xiàn)社區(qū)中的重疊節(jié)點,提出了一種基于粗糙和距離
    發(fā)表于 05-08 15:33 ?0次下載

    采用人工智能技術(shù)的高質(zhì)量合成語音開發(fā)和定制

      當(dāng)涉及到高質(zhì)量的合成語音開發(fā)和定制時,深度學(xué)習(xí)被證明是一個強大的工具。一家總部位于多倫多的初創(chuàng)公司, NVIDIA Inception 成員類似人工智能正在利用一種新的生成語音工具增加賭注,該工具能夠創(chuàng)建高質(zhì)量的合成人工智能
    的頭像 發(fā)表于 04-08 09:28 ?1651次閱讀

    PyTorch教程16.4之自然語言推理和數(shù)據(jù)

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程16.4之自然語言推理和數(shù)據(jù).pdf》資料免費下載
    發(fā)表于 06-05 10:57 ?0次下載
    PyTorch教程16.4之自然<b class='flag-5'>語言</b>推理和<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>

    語音合成數(shù)據(jù)的重要性:打造自然流暢的語音合成體驗

    和應(yīng)用提供關(guān)鍵支持。 提供訓(xùn)練基礎(chǔ): 語音合成數(shù)據(jù)作為語音合成模型的訓(xùn)練基礎(chǔ),直接影響合成語音的質(zhì)量。豐富、準(zhǔn)確的語音合成數(shù)據(jù)可以幫助模型學(xué)習(xí)到更多的語音特征和模式,從而生成更自然、流
    的頭像 發(fā)表于 06-24 03:07 ?893次閱讀

    大模型數(shù)據(jù):力量的源泉,進步的階梯

    的舞臺 大模型數(shù)據(jù)如廣袤的舞臺,為AI技術(shù)的展現(xiàn)提供了廣闊的空間。這些數(shù)據(jù)規(guī)模龐大,包容萬象,它們是AI進步的基石。無論是自然語言處理、
    的頭像 發(fā)表于 12-07 17:18 ?936次閱讀