流言止于智者,聊天止于呵呵。
在 2013 年之前,“呵呵”還只是呵呵,然而風(fēng)云突變,這個(gè)一直被用作表達(dá)禮貌、微笑的詞匯,卻在 2013 年被網(wǎng)友評(píng)選為年度最傷人聊天詞匯。如果以前的“呵呵”是尷尬而不失禮貌的微笑,現(xiàn)在則是充滿嘲諷和攻擊性的一個(gè)詞。
時(shí)間來(lái)到 2018 年,互聯(lián)網(wǎng)上最讓討厭的已經(jīng)不再只有噴子,各種陰陽(yáng)怪氣的言論,比如“呵呵”,比如“你開(kāi)心就好”,簡(jiǎn)直讓人渾身難受,這種喜歡抬杠的人我們稱(chēng)之為“杠精”。
互聯(lián)網(wǎng)在進(jìn)化,互聯(lián)網(wǎng)的語(yǔ)言也在進(jìn)化,互聯(lián)網(wǎng)的監(jiān)管技術(shù)也在進(jìn)化。在這場(chǎng)很難設(shè)定邊界的對(duì)抗中,知乎已經(jīng)率先向杠精開(kāi)戰(zhàn)。
▌什么是陰陽(yáng)怪氣?
想要對(duì)抗陰陽(yáng)怪氣,首先就要給它下一個(gè)準(zhǔn)確的定義,然而這十分困難。
YC 聯(lián)合創(chuàng)始人保羅·格雷厄姆將人跟人之間的意見(jiàn)不統(tǒng)一、反對(duì)、沖突分成了七個(gè)層級(jí),叫 Disagreement Hierarchy(以下簡(jiǎn)稱(chēng) DH 值),如下圖所示:
陰陽(yáng)怪氣可用“杠精”這個(gè)詞來(lái)指代,通常以“不針對(duì)發(fā)言內(nèi)容,而是批評(píng)對(duì)方的語(yǔ)氣”以及“提出反對(duì)意見(jiàn),但不給或給出極少數(shù)論據(jù)支持”這兩類(lèi)常見(jiàn)言論為代表,此類(lèi)評(píng)論極大了傷害創(chuàng)作者和交流者的體驗(yàn),但難以解決。
——以上是知乎給出的定義。
當(dāng)然,也有一些具體的例子,比如:呵呵,你厲害,你咋不上天呢,自以為是的人等等。而根據(jù)知乎 6 月的最新統(tǒng)計(jì)數(shù)據(jù),被知友們踩過(guò)次數(shù)最多的 Top 10 評(píng)論有下面幾種:
那你可真是夠棒的!
你還是省省吧!
你開(kāi)心就好。
相信大部分讀者都對(duì)這些言論都非常熟悉,而且記憶猶深,畢竟被抬杠并不是一種好的體驗(yàn)。知乎給出的解決方案是:「陰陽(yáng)怪氣」等嚴(yán)重影響大家討論體驗(yàn)的評(píng)論,作者可以「一鍵折疊」,其他知友也可以點(diǎn)「踩」,當(dāng)被踩評(píng)論的分值達(dá)到一定閾值后,評(píng)論會(huì)被自動(dòng)折疊。
除了依靠用戶的自發(fā)行為之外,知乎也在嘗試?yán)?a target="_blank">算法來(lái)識(shí)別陰陽(yáng)怪氣的言論。
▌如何對(duì)抗陰陽(yáng)怪氣?
作為知乎的“當(dāng)家機(jī)器人”,瓦力算法除了作用于社區(qū)內(nèi)的不友善、答非所問(wèn)以及低質(zhì)提問(wèn)等內(nèi)容外,最近也正在優(yōu)化識(shí)別陰陽(yáng)怪氣類(lèi)內(nèi)容的模型。
根據(jù)知乎內(nèi)容質(zhì)量團(tuán)隊(duì)技術(shù)負(fù)責(zé)人劉兆來(lái)的說(shuō)法,“瓦力已經(jīng)產(chǎn)品化很久了,過(guò)去通過(guò)關(guān)鍵詞和不友善文本識(shí)別模型,可以處理辱罵類(lèi)的文本;目前,我們希望通過(guò)對(duì)陰陽(yáng)怪氣類(lèi)的杠精性質(zhì)評(píng)論進(jìn)行處理,提升用戶體驗(yàn)?!?/p>
劉兆來(lái)詳細(xì)介紹了“瓦力”最新的陰陽(yáng)怪氣技術(shù)方案:首先通過(guò)知乎社區(qū)里的舉報(bào)、反對(duì)等負(fù)向用戶行為收集訓(xùn)練數(shù)據(jù)。然后通過(guò)各種同義詞替換、規(guī)則模版方式對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行擴(kuò)展,以緩解訓(xùn)練數(shù)據(jù)不足的問(wèn)題。同時(shí),“瓦力”提取文本、句法、表情符等特征,并利用一個(gè)帶 attention 的 CNN 和 LSTM 的融合模型進(jìn)行分類(lèi),最終判斷出內(nèi)容是否為陰陽(yáng)怪氣。
具體來(lái)說(shuō),可以分為以下幾個(gè)步驟:
首先,進(jìn)行數(shù)據(jù)增強(qiáng),以提升模型的泛化能力;
數(shù)據(jù)增強(qiáng)是為了提升模型在大量數(shù)據(jù)上的泛化能力。在這方面,知乎進(jìn)行了兩種嘗試:提取陰陽(yáng)怪氣關(guān)鍵詞做替換,比如同音異字變換,洗地黨→洗滌黨,真的很惡心 → 震得很惡心;此外,知乎也利用提取出的陰陽(yáng)怪氣關(guān)鍵樣本,隨機(jī)構(gòu)造評(píng)論上文與評(píng)論。
其次,提取相關(guān)數(shù)據(jù)特征,利用卷積網(wǎng)絡(luò)以及人工特征等來(lái)獲得更多更詳細(xì)的特征;
特征構(gòu)建層方面,知乎從文本特征、數(shù)值特征、陰陽(yáng)怪氣詞以及表情詞著手。文本特征即文本加入陰陽(yáng)怪氣關(guān)鍵詞進(jìn)行分詞后,保留標(biāo)點(diǎn),表情等;數(shù)值特征即句子長(zhǎng)度,句號(hào)數(shù)量,感嘆號(hào)數(shù)據(jù)等;陰陽(yáng)怪氣詞即提取社區(qū)內(nèi)被踩過(guò)很多次的表示陰陽(yáng)怪氣關(guān)鍵詞;表情特征:劃分正負(fù)樣本表情。
最后,將提取出的特征輸入分類(lèi)器。
特征學(xué)習(xí)層方面,主要考慮了評(píng)論和上文的文本特征,包括字,詞,標(biāo)點(diǎn),表情符號(hào)等,并利用知乎全量數(shù)據(jù)訓(xùn)練 word2vec 模型。知乎將評(píng)論上文與評(píng)論經(jīng)過(guò) embedding 層后分成兩個(gè)金字塔型 CNN 網(wǎng)絡(luò),目的是訓(xùn)練各自獨(dú)立的參數(shù),知乎采取 CNN 網(wǎng)絡(luò)是因?yàn)?CNN 卷積可以捕獲字詞的位置關(guān)系也可以比較有效的提取特征。
除上述文本特征外,知乎也充分考慮了其它特征,比如評(píng)論長(zhǎng)度,評(píng)論中句號(hào),問(wèn)號(hào)等標(biāo)點(diǎn)的個(gè)數(shù),評(píng)論中是否包含陰陽(yáng)怪氣關(guān)鍵詞等;這些特征離散化后,與評(píng)論的卷積提取特征進(jìn)行拼接,最后與評(píng)論上文的卷積輸出進(jìn)行 dot-attention 目的是獲取評(píng)論上文與評(píng)論不同的權(quán)重。最后,知乎將特征數(shù)據(jù)全連接層以 softmax 方式進(jìn)行了分類(lèi)。
至于這個(gè)模型對(duì)陰陽(yáng)怪氣的效果如何,知乎運(yùn)營(yíng)總監(jiān)孫達(dá)云表示,其準(zhǔn)確率比大部分人工判斷還要準(zhǔn)。
▌難點(diǎn)在哪里?
然而,機(jī)器并不是總能解決所有問(wèn)題,很多時(shí)候人工智能會(huì)表現(xiàn)的像人工智障。這一點(diǎn),知乎自己也承認(rèn),特別是在理解人類(lèi)語(yǔ)言這一領(lǐng)域。
上圖是劉兆來(lái)列舉的一些算法漏識(shí)別和誤識(shí)別的情況:
通過(guò)分析這些 bad case,現(xiàn)代模型主要受限于訓(xùn)練數(shù)據(jù)。一方面是訓(xùn)練數(shù)據(jù)的覆蓋范圍不夠廣,所以一些不是很常見(jiàn)的詞語(yǔ),模型就會(huì)識(shí)別不出來(lái)。比如算法漏識(shí)別里的第二條,這些詞在訓(xùn)練里面比較少,甚至在模型里面沒(méi)有這些詞,所以模型會(huì)識(shí)別錯(cuò)誤。
第二個(gè)類(lèi)型的錯(cuò)誤,模型過(guò)渡彌合了一些數(shù)據(jù),比如前面兩條比較明顯。第一條就是因?yàn)槲覀兗尤肓艘恍?biāo)點(diǎn)符號(hào)數(shù)據(jù)特征,可能在訓(xùn)練數(shù)據(jù)里面有連續(xù)兩個(gè)問(wèn)號(hào)這種屬于陰陽(yáng)怪氣的概率比較高。第二個(gè),“哈哈哈”可能在陰陽(yáng)怪氣的樣本里面比較多,所以模型會(huì)把這兩個(gè)特征作為是不是陰陽(yáng)怪氣比較重要的根據(jù),就會(huì)導(dǎo)致誤判。
反諷本身是情感分析領(lǐng)域的一個(gè)傳統(tǒng)難題,在孫達(dá)云看來(lái),“解決陰陽(yáng)怪氣類(lèi)評(píng)論的難點(diǎn)核心主要在于網(wǎng)絡(luò)語(yǔ)言的復(fù)雜性,情感分析不同于普通文本分析,例如經(jīng)典的‘呵呵’,由于雙方不同關(guān)系、說(shuō)話的不同場(chǎng)景和時(shí)間都會(huì)帶來(lái)迥然不同的表意。即便是人工判定都存在標(biāo)準(zhǔn)化難度,算法模型的訓(xùn)練挑戰(zhàn)就更為艱辛?!?/p>
總的來(lái)說(shuō),這項(xiàng)艱巨的任務(wù)的難點(diǎn)主要在于以下幾點(diǎn):
需要基于上下文理解深層語(yǔ)義
需要了解某些背景知識(shí)
訓(xùn)練樣本難獲取
……
面對(duì)這些問(wèn)題,劉兆來(lái)介紹未來(lái)的工作重點(diǎn):
訓(xùn)練數(shù)據(jù)獲取。因?yàn)橛?xùn)練數(shù)據(jù)標(biāo)注特別困難,后邊會(huì)通過(guò)主動(dòng)學(xué)習(xí)(ActiveLearning)來(lái)減少樣本標(biāo)注的時(shí)間和工作量。
語(yǔ)義分析。首先會(huì)嘗試加入詞語(yǔ)的褒貶樣本,就是一些諧音語(yǔ)句;第二個(gè)就是在詞表征方面,會(huì)嘗試 ELMO 的算法,最近 ELMO 詞向量在多個(gè) NLP 任務(wù)能取得提升,ELMO 詞向量利用雙向 LSTM 訓(xùn)練獲得,可以捕獲上下文信息以及更深層的語(yǔ)義;還有就是嘗試比較復(fù)雜的模型。
背景知識(shí)。不同領(lǐng)域會(huì)有一些用詞的區(qū)別,未來(lái)會(huì)對(duì)于體育、明星等領(lǐng)域分別建立模型。
▌AI 的邊界?
人工智能是建立在人類(lèi)標(biāo)準(zhǔn)之上的,它代表的也是人類(lèi)的價(jià)值觀。然而,人們對(duì)“陰陽(yáng)怪氣”的定義仍然模糊,不同的人針對(duì)同一個(gè)評(píng)論也會(huì)有很大的分歧。知乎在做的,就是找到社區(qū)的最大公約數(shù)。
不同的人對(duì)于同一個(gè)內(nèi)容會(huì)有不同的判斷,這個(gè)沒(méi)有問(wèn)題,但是如果絕大多數(shù)人都認(rèn)為這條評(píng)論內(nèi)容是不禮貌的,它是冒犯性的,我們就需要對(duì)這條內(nèi)容進(jìn)行標(biāo)記、進(jìn)行干預(yù),我們通過(guò)算法訓(xùn)練已經(jīng)無(wú)限接近了最大公約數(shù)的概念。
人類(lèi)可以接受人類(lèi)犯錯(cuò),但是很難接受機(jī)器犯錯(cuò),特別是在機(jī)器做的還沒(méi)有人類(lèi)好的情況下。此外,用人工智能去管理人類(lèi),其實(shí)是很大冒險(xiǎn)。有知友表示,“把社區(qū)越多的控制權(quán)交給社區(qū),其實(shí)越會(huì)導(dǎo)致社區(qū)畸形,這是人性問(wèn)題,不能通過(guò)人工智能解決。”
戴維·溫伯格在《知識(shí)的邊界》一書(shū)里寫(xiě)道:知識(shí)的網(wǎng)絡(luò)化正在對(duì)知識(shí)的本質(zhì)以及長(zhǎng)形式思考在其中發(fā)揮的作用,帶來(lái)一些根本性的變化。如果書(shū)籍告訴我們,知識(shí)是從 A 到 Z 的漫長(zhǎng)旅程,那么網(wǎng)絡(luò)化的知識(shí)可能會(huì)告訴我們,世界并非是一個(gè)邏輯嚴(yán)密的論證,而更像是一個(gè)無(wú)定形的、相互交織的、不可掌控的大網(wǎng)。
人類(lèi)掌控不了的就寄希望于人工智能,于是我們努力去拓展 AI 的邊界。至于它最終會(huì)不會(huì)讓我們失望?這就需要留給時(shí)間去驗(yàn)證了。
-
互聯(lián)網(wǎng)
+關(guān)注
關(guān)注
55文章
11251瀏覽量
106466 -
人工智能
+關(guān)注
關(guān)注
1807文章
49029瀏覽量
249581
原文標(biāo)題:呵呵,你開(kāi)心就好!——AI向杠精宣戰(zhàn)
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論