2016年,AlphaGo 打敗了世界圍棋冠軍李世石,人工智能接受了人類的頂禮膜拜。在這之前,人工智能不是活在和人類談情說(shuō)愛(ài)的電影里,就是活在「人工智能就要統(tǒng)治地球了」這類空洞的標(biāo)題里。
這一年,凱文。凱利預(yù)測(cè)人工智能將成為日用品,聽(tīng)起來(lái)仿佛很科幻,實(shí)現(xiàn)得卻很快。2019年,在我們毫無(wú)意識(shí)的情況下,人工智能就已經(jīng)滲透到我們的日常生活了,今天,為你盤(pán)點(diǎn)人工智能在2019年的四大熱門(mén)應(yīng)用,看機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、語(yǔ)音交互、自然語(yǔ)言處理等技術(shù)是如何在生活中落地的。
語(yǔ)音合成——給我5秒,就能復(fù)制你的聲音
世界上最美妙的技術(shù),莫過(guò)于能實(shí)現(xiàn)一夜暴富的技術(shù)。
“我,秦始皇,打錢(qián)”和“我,美女,買(mǎi)茶嗎”的詐騙時(shí)代暫時(shí)結(jié)束了。2019年,電話詐騙卷土重來(lái),甚至實(shí)現(xiàn)了產(chǎn)業(yè)升級(jí),勢(shì)頭還更猛了。
是騙子們今年想賺錢(qián)的愿望特別強(qiáng)烈嗎?其實(shí)是第一批AI詐騙犯已經(jīng)上崗了。它們有著真實(shí)的電話號(hào)碼,感情充沛的語(yǔ)音,甚至還有像真人一樣的話術(shù)。
AI電話詐騙不是中國(guó)特色,美國(guó)人也不堪其擾。2019年還沒(méi)結(jié)束,美國(guó)人民就已經(jīng)接到了540億通AI騷擾電話,比2018年多了60億。這也意味著,我們以后要面對(duì)的已經(jīng)是一個(gè)被訓(xùn)練了千億次的詐騙精英了。
電話詐騙真正實(shí)現(xiàn)了多、快、好、賺,因?yàn)檎Z(yǔ)音合成已經(jīng)取代了人工。語(yǔ)音合成可以說(shuō)是同時(shí)運(yùn)用語(yǔ)言學(xué)和心理學(xué)的杰出之作,它的背后是文本轉(zhuǎn)語(yǔ)音(Text To Speech,簡(jiǎn)稱TTS)技術(shù)。這個(gè)技術(shù)我們都很熟悉了,不管是越來(lái)越俏皮的Siri,或是可以定制語(yǔ)言導(dǎo)航的百度地圖,都是依靠的TTS技術(shù)。
語(yǔ)音合成最簡(jiǎn)單粗暴的方法是拼接法,缺陷是拼接出來(lái)的語(yǔ)音聽(tīng)起來(lái)就不像正常人,比如我們最常聽(tīng)的“支付寶到賬X元”用的就是拼接法。
谷歌實(shí)驗(yàn)室旗下的Lyrebird公司在2017年合成了特朗普和奧巴馬的演講,連美國(guó)人民都聽(tīng)不出哪里不對(duì)。
Lyrebird靠的是神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)。神經(jīng)網(wǎng)絡(luò)把文本智能轉(zhuǎn)換為自然語(yǔ)言,轉(zhuǎn)換時(shí)間之短可以秒計(jì)算;同時(shí),智能語(yǔ)音控制器能做到讓人根本意識(shí)不到是機(jī)器在說(shuō)話。除了Lyrebird外,谷歌的 WaveNet,百度的 Deep Voice以及科大訊飛和騰訊等等都提供了開(kāi)源的語(yǔ)音合成應(yīng)用。
早期語(yǔ)音合成還需要大量的語(yǔ)料和訓(xùn)練,現(xiàn)在訓(xùn)練成本已經(jīng)大大降低了。在GitHub一個(gè)開(kāi)源項(xiàng)目里,你只需要一個(gè)人5秒的音源,就能克隆他的聲音,連語(yǔ)氣和情緒都能模仿。不過(guò)隨著【尖端技術(shù)大廠化】的行業(yè)發(fā)展趨勢(shì),語(yǔ)音合成技術(shù)濫用的情況,目前的整體環(huán)境也得到了更好的改善。
語(yǔ)音合成技術(shù)也有溫情的一面。對(duì)視障群體而言,想看書(shū)只能靠觸摸,真人有聲書(shū)的數(shù)量也有限?,F(xiàn)在,只需要二十分鐘,就能用TTS技術(shù)合成一本有聲書(shū),讓機(jī)器像人一樣讀書(shū)了。
語(yǔ)音交互——智能音箱終于能聽(tīng)懂人話了
智能音箱和iPad、特斯拉ModelS等一起,被《時(shí)代周刊》列為十年來(lái)最具影響力的科技產(chǎn)品。也許你會(huì)嗤之以鼻:不就是個(gè)能上網(wǎng)能聊天的音箱嗎?
回想起幾年前,是個(gè)廠家就要做音箱,是個(gè)音箱就自稱我AI了。第一波嘗鮮的消費(fèi)者們期待著前沿科技的饋贈(zèng),最終卻只收獲了一個(gè)“笑話大全語(yǔ)音版”,想讓它干點(diǎn)活,它耳背了,想和它聊個(gè)天,它就會(huì)打岔。對(duì)于這波只會(huì)講段子和學(xué)放屁的,大家的態(tài)度還是:你走吧,我媽媽不讓我和人工智障玩。
如何鑒別人工智能和人工智障?圖靈說(shuō):與它對(duì)話。
圖靈曾預(yù)測(cè),到2000年人和計(jì)算機(jī)之間就可以用自然語(yǔ)言溝通。所謂的自然語(yǔ)言就是“說(shuō)人話”。
為了和計(jì)算機(jī)對(duì)話,曾經(jīng)是人主動(dòng)學(xué)習(xí)計(jì)算機(jī)的二進(jìn)制語(yǔ)言,現(xiàn)在是人在讓計(jì)算機(jī)運(yùn)用人的語(yǔ)言,這背后的核心就是人機(jī)交互技術(shù)。
人機(jī)交互主要分三步:先聽(tīng),然后理解,最后給出反饋。
聽(tīng)清之后智能音箱還需要對(duì)轉(zhuǎn)換后的文字進(jìn)行處理,把自然語(yǔ)言轉(zhuǎn)換成機(jī)器語(yǔ)言,方便機(jī)器做閱讀理解明確意圖,這一步就要用到自然語(yǔ)言理解技術(shù)(Natural Language Understanding,簡(jiǎn)稱NLU)。鑒于中文的博大精神,自然語(yǔ)言理解的難度系數(shù)不是一般的高,比如那句經(jīng)典的校長(zhǎng)說(shuō):校服上除了?;談e別別的,讓你們別別別的別別別的你非得別別的」,你看笑了,機(jī)器卻聽(tīng)哭了。
最后機(jī)器還需要作出反饋來(lái)滿足用戶的需求,比如說(shuō)和你對(duì)話聊天、幫你開(kāi)關(guān)燈或搜索推薦內(nèi)容。同時(shí),機(jī)器還會(huì)把反饋結(jié)果說(shuō)出來(lái),這就用到了上文的TTS技術(shù)。
最近中國(guó)科學(xué)院物聯(lián)網(wǎng)研究發(fā)展中心給智能音箱打了一次分。用8240次對(duì)話,對(duì)百度、騰訊、天貓、小米四家的智能音箱進(jìn)行了測(cè)評(píng)。綜合三個(gè)維度,只有小度在家1S的得分達(dá)到了80(聽(tīng)清率98.5% * 聽(tīng)懂率92.89% * 滿足率86.9%),騰訊的得分為54,剩下兩家的得分都在50分以下。人工智能還是得靠技術(shù)說(shuō)話,依靠在語(yǔ)音領(lǐng)域多年的技術(shù)積累,百度提前贏下了這場(chǎng)比賽。
隨著國(guó)內(nèi)巨頭對(duì)智能音箱市場(chǎng)的進(jìn)一步投入,整個(gè)行業(yè)的產(chǎn)品價(jià)格持續(xù)走低,無(wú)屏音箱最低價(jià)幾乎全部被打到百元以下,四舍五入相當(dāng)于白送,讓許多人迅速過(guò)上了家里有「機(jī)器人」的生活。上春晚、搞綜藝、跨界營(yíng)銷,國(guó)內(nèi)第一的小度也嗖的一下子成為了「智能音箱領(lǐng)域的國(guó)民級(jí)品牌」。用著用著我們也發(fā)現(xiàn),智能音箱好像變得沒(méi)那么智障了,開(kāi)始聽(tīng)得懂人話了。
手勢(shì)識(shí)別,控制視頻播放
人臉識(shí)別,切換兒童模式
當(dāng)然,嚴(yán)格意義上的圖靈測(cè)試離我們還相當(dāng)遙遠(yuǎn),智能音箱還有著很大的優(yōu)化和升級(jí)潛能,這個(gè)潛能恰恰是和用戶量和你的使用次數(shù)正相關(guān)的。根據(jù)Canalys的統(tǒng)計(jì),截止今年Q3,小度有屏音箱的出貨量已經(jīng)是世界第一了,小度智能音箱的出貨量也達(dá)到了中國(guó)第一、世界第二,僅次于2014年就入場(chǎng)的亞馬遜。同時(shí),小度音箱搭載的語(yǔ)音操作系統(tǒng)小度助手每天也在接受著數(shù)億次的訓(xùn)練,甚至養(yǎng)成了一個(gè)“自學(xué)習(xí)AI系統(tǒng)”?,F(xiàn)在,你可能依然覺(jué)得智能音箱產(chǎn)品還有點(diǎn)笨,但可以預(yù)見(jiàn)的是,它會(huì)成長(zhǎng)得很快。
人臉識(shí)別——人臉識(shí)別成了逃犯克星
眾所周知,每個(gè)販賣機(jī)里面都有一個(gè)人。
比如下面這個(gè)刷臉支付遇上死機(jī),只好在販賣機(jī)里住了一天的人。
“一對(duì)一”認(rèn)證,一種是提取你的身份證,再和攝像頭前的你進(jìn)行對(duì)比;另一種則更簡(jiǎn)單,直接用攝像頭錄入你的人臉信息,比如FaceID。技術(shù)門(mén)檻相對(duì)較低,所以刷臉認(rèn)證的產(chǎn)品遍地瞎開(kāi)花,其中刷臉領(lǐng)廁紙應(yīng)該是最具“中國(guó)特色”的人工智能了。
要領(lǐng)取廁紙先刷臉,堅(jiān)決剝奪你的拉肚子自由
張學(xué)友:我都快忘記我警察的身份,真的以為自己是個(gè)歌星了。
見(jiàn)微知著,計(jì)算機(jī)視覺(jué)的發(fā)展也反應(yīng)在一家網(wǎng)站小小的進(jìn)度條上,這家網(wǎng)站就是全球最大的成人網(wǎng)站PornHub。
圖像處理——今天你想換哪張臉
今年的朋友圈短暫的被各種換臉小視頻攻占了一下。
在換臉軟件ZAO中,只要上傳一張照片,你就可以把自己的臉換到明星臉上。輕松實(shí)現(xiàn)和本命談戀愛(ài),和愛(ài)豆共飆戲的夢(mèng)想。
換臉技術(shù)看著厲害,其實(shí)你也可以,只需要了解一下deepfakes技術(shù)。
deepfakes是一個(gè)程序員在社區(qū)Reddit的用戶名,2017年,這名程序員在Reddit發(fā)布了一部不可描述的小電影,小電影里的女主角竟然是神奇女俠蓋爾·加朵。只用了一部電腦和開(kāi)源的AI工具,這名程序員就訓(xùn)練出了換臉算法,把明星的臉換到任意視頻中,視頻中換臉后的眼神和嘴型這些細(xì)節(jié)都已經(jīng)相當(dāng)真實(shí)。
這種訓(xùn)練源于生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,簡(jiǎn)稱GAN)。所謂對(duì)抗,就是兩個(gè)機(jī)器模型之間的博弈?;谝粋€(gè)原始視頻,一個(gè)模型負(fù)責(zé)生成相似的視頻,另一個(gè)模型則負(fù)責(zé)鑒別兩個(gè)視頻之間的差異,在海量的對(duì)抗訓(xùn)練之后,最終會(huì)生成幾乎找不到差異的偽造視頻。
在這名程序員制作了一波又一波明星臉色情影片后,他的賬號(hào)終于被封殺了。于是他一怒之下將換臉項(xiàng)目開(kāi)源了,“邪惡勢(shì)力”就此登場(chǎng)了。
讓這項(xiàng)技術(shù)走向不可控的一大原因是超低的工具門(mén)檻,今年大火的ZAO只不過(guò)是把換臉這一技術(shù)變得更容易操作而已。現(xiàn)在,即便你沒(méi)有任何編程基礎(chǔ),只要你有一臺(tái)電腦,安裝deepfakes開(kāi)源的工具包后,只需要半天的學(xué)習(xí),你也可以訓(xùn)練換臉術(shù)了。
有人將重大技術(shù)的變革比作一列火車,它臨近時(shí)你聽(tīng)到了轟隆隆的聲音,你期待著它的到來(lái),卻又覺(jué)得還很遠(yuǎn)。等它終于來(lái)了,卻又只是一閃而過(guò)就把你甩在身后。
人工智能就是這樣一列火車。2019年,我們習(xí)慣了刷臉,沉迷于換臉,和AI探討了一下人生,也順便被騙走了一些錢(qián)。在這個(gè)時(shí)候,對(duì)人工智能的歡呼和抵制都是無(wú)意義的,因?yàn)榛疖囈呀?jīng)開(kāi)過(guò)來(lái)了。
責(zé)任編輯:ct
評(píng)論