在多年前,當(dāng)多倫多大學(xué)的一個(gè)團(tuán)隊(duì)使用經(jīng)過(guò)訓(xùn)練而不是設(shè)計(jì)來(lái)識(shí)別圖像的卷積神經(jīng)網(wǎng)絡(luò)贏得 Imagenet 挑戰(zhàn)賽時(shí),在計(jì)算世界的一個(gè)有點(diǎn)不起眼的角落發(fā)生了重大震動(dòng)。該團(tuán)隊(duì)和其他團(tuán)隊(duì)不僅擊敗了最好的檢測(cè)算法,而且在許多圖像分類(lèi)任務(wù)中都超越了人類(lèi)?,F(xiàn)在,僅僅幾年后,深度神經(jīng)網(wǎng)絡(luò)似乎是不可避免的。
即使在2012年,機(jī)器學(xué)習(xí)也不是什么新鮮事物,事實(shí)上,到目前為止,幾乎所有的分類(lèi)軟件都進(jìn)行了一些訓(xùn)練。但它們?cè)谀撤N程度上都依賴(lài)于人工設(shè)計(jì)的特征提取算法。這個(gè)新解決方案(后來(lái)以首席研究員的名字命名為 AlexNet)的不同之處在于,它沒(méi)有這種人工設(shè)計(jì)的算法,并且完全通過(guò)監(jiān)督學(xué)習(xí)獲得了結(jié)果。
這一發(fā)現(xiàn)對(duì)整個(gè)計(jì)算領(lǐng)域的影響已經(jīng)在與圖像分類(lèi)相距甚遠(yuǎn)的領(lǐng)域產(chǎn)生了巨大的影響,隨著研究人員學(xué)習(xí)如何將深度學(xué)習(xí)技術(shù)應(yīng)用于更多領(lǐng)域,預(yù)計(jì)它帶來(lái)的變化在未來(lái)會(huì)更加深遠(yuǎn)。以及越來(lái)越多的領(lǐng)域中的更多問(wèn)題。對(duì)深度學(xué)習(xí)的熱情甚至導(dǎo)致一些評(píng)論員預(yù)測(cè)依賴(lài)于設(shè)計(jì)算法的經(jīng)典軟件創(chuàng)作的終結(jié),取而代之的是經(jīng)過(guò)大量數(shù)據(jù)訓(xùn)練的網(wǎng)絡(luò)。
軟件解決方案從數(shù)據(jù)暴露演變的愿景有一些引人注目的方面:通過(guò)實(shí)例進(jìn)行培訓(xùn)為軟件提供了真正的大規(guī)模制造技術(shù)的可能性。目前,軟件制造處于工業(yè)化前階段,每個(gè)應(yīng)用程序都是定制設(shè)計(jì)的,就像客車(chē)制造的汽車(chē)一樣。借助標(biāo)準(zhǔn)算法平臺(tái)(網(wǎng)絡(luò))和自動(dòng)化培訓(xùn)環(huán)境,深度學(xué)習(xí)可以為軟件做亨利福特為汽車(chē)制造所做的事情。
無(wú)論您是否同意這一愿景,深度學(xué)習(xí)的關(guān)鍵特征在于它取決于數(shù)據(jù)的可用性,因此,特定領(lǐng)域的專(zhuān)業(yè)知識(shí)變得不如相關(guān)數(shù)據(jù)的所有權(quán)重要。正如深度學(xué)習(xí)先驅(qū) Andrew Ng 所說(shuō):“獲勝的不是擁有最好算法的人,而是擁有最多數(shù)據(jù)的人?!?這是希望過(guò)渡到新范式的公司面臨的核心問(wèn)題:他們從哪里獲取數(shù)據(jù)?
行為數(shù)據(jù)的作用
對(duì)于依賴(lài)在線(xiàn)行為數(shù)據(jù)的公司來(lái)說(shuō),答案是顯而易見(jiàn)的,我們所有瀏覽習(xí)慣的記錄、跟蹤和轉(zhuǎn)售現(xiàn)在無(wú)處不在,以至于它們的開(kāi)銷(xiāo)都支配了我們的在線(xiàn)體驗(yàn)。對(duì)于與現(xiàn)實(shí)世界打交道更密切的公司來(lái)說(shuō),解決方案不太方便。Waymo 是自動(dòng)駕駛汽車(chē)領(lǐng)域最知名的品牌,它通過(guò)部署儀表汽車(chē)車(chē)隊(duì)來(lái)繪制位置圖并記錄現(xiàn)實(shí)世界的攝像頭、雷達(dá)和其他數(shù)據(jù),然后將這些數(shù)據(jù)輸入其感知軟件,從而解決了這個(gè)問(wèn)題。該領(lǐng)域的其他參與者也以較小的方式效仿,但即使是擁有數(shù)百萬(wàn)英里行駛里程和大量可用數(shù)據(jù)的 Waymo,也發(fā)現(xiàn)它不足以完成這項(xiàng)任務(wù)。
首先,并非所有數(shù)據(jù)都是平等的:為了有用,它必須經(jīng)過(guò)準(zhǔn)確和徹底的注釋?zhuān)词乖诮裉?,這仍然是一項(xiàng)昂貴且容易出錯(cuò)的業(yè)務(wù)。經(jīng)過(guò)幾年努力使流程自動(dòng)化,亞馬遜的 Mechanical Turk 仍然是注釋數(shù)據(jù)的首選方法。除了被注釋之外,為了有用,數(shù)據(jù)必須是相關(guān)的,當(dāng)相關(guān)性取決于任何給定事件的不常見(jiàn)、危險(xiǎn)或完全非法時(shí),這是一個(gè)主要問(wèn)題??煽?、相關(guān)的真實(shí)數(shù)據(jù)很難獲得,以至于 Waymo 已經(jīng)開(kāi)始在沙漠中建立自己的模擬城市,在那里它可以模擬在受控條件下所需的行為。
但是在好萊塢可以制作完全令人信服的 CGI 場(chǎng)景的世界中,必須有可能使用這種能力為現(xiàn)實(shí)世界場(chǎng)景創(chuàng)建訓(xùn)練數(shù)據(jù),當(dāng)然,確實(shí)如此。幾年來(lái),該行業(yè)一直在朝著這個(gè)方向發(fā)展,一個(gè)研究人員團(tuán)隊(duì)開(kāi)發(fā)了一種方法來(lái)注釋俠盜獵車(chē)手的序列。Udacity 有一個(gè)用于自動(dòng)駕駛汽車(chē)模擬器的開(kāi)源項(xiàng)目,作為其自動(dòng)駕駛汽車(chē)納米學(xué)位的一部分。
與 Udacity 示例一樣,大多數(shù)可用的模擬器旨在實(shí)現(xiàn)驗(yàn)證循環(huán)以測(cè)試經(jīng)過(guò)訓(xùn)練的感知堆棧,而不是生成主要用于訓(xùn)練本身的數(shù)據(jù)。那些確實(shí)存在的數(shù)據(jù)模擬器被汽車(chē)公司及其初創(chuàng)競(jìng)爭(zhēng)對(duì)手緊緊抓住,展示了他們產(chǎn)生的數(shù)據(jù)的基本價(jià)值。
那么,合成數(shù)據(jù)真的可以成功地用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)嗎?需要多少和什么樣的數(shù)據(jù)才能完成這項(xiàng)工作?
什么是 KITTI?
總部位于帕洛阿爾托的Highwai發(fā)布了其試點(diǎn)研究的結(jié)果,該研究使用 KITTI 數(shù)據(jù)集作為起點(diǎn),以檢查用于增強(qiáng) KITTI 提供的注釋圖像的完全合成數(shù)據(jù)集可能獲得的收益。
訓(xùn)練圖像是使用 Highwai 的真實(shí)世界模擬器制作的,其中包括從市區(qū)和住宅郊區(qū)場(chǎng)景拍攝的許多序列,這些場(chǎng)景中擠滿(mǎn)了各種車(chē)輛、行人和自行車(chē)。目的是對(duì)象檢測(cè)和分類(lèi),而不是跟蹤,因此將捕獲幀速率設(shè)置為較低,以便在保持?jǐn)?shù)據(jù)集大小適中的同時(shí)捕獲各種圖像。圖像是在一系列條件下拍攝的,包括相機(jī)高度和視野、由于一天中的時(shí)間和大氣影響(如霧和霾)引起的照明和陰影變化。雖然 Highwai 的工具支持 LIDAR,但在這種情況下只捕獲了可見(jiàn)光相機(jī)數(shù)據(jù)。注釋包括諸如“行人、
使用 Highwai 的數(shù)據(jù)增強(qiáng)工具包為訓(xùn)練準(zhǔn)備數(shù)據(jù),以添加相機(jī)傳感器噪聲、圖像壓縮噪聲、向圖像添加“干擾”對(duì)象并使訓(xùn)練對(duì)顏色不敏感。在此過(guò)程結(jié)束時(shí),合成數(shù)據(jù)集的總大小為 5,000 張圖像中的 54,443 個(gè)對(duì)象。(相比之下,原始 KITTI 數(shù)據(jù)集中有 37,164 個(gè)對(duì)象和 7,000 個(gè)圖像)。生成數(shù)據(jù)、擴(kuò)充數(shù)據(jù)并將其添加到訓(xùn)練數(shù)據(jù)集的總時(shí)間不到兩個(gè)小時(shí)。
使用的基礎(chǔ)網(wǎng)絡(luò)是一個(gè) Faster RCNN Inception Resnet,它被預(yù)訓(xùn)練為上下文中常見(jiàn)對(duì)象 (COCO) 數(shù)據(jù)集上的對(duì)象檢測(cè)器,并進(jìn)行了兩次補(bǔ)充重新訓(xùn)練;首先僅使用 KITTI 數(shù)據(jù)集生成基線(xiàn),然后結(jié)合 KITTI 和 Highwai 合成數(shù)據(jù)集。測(cè)試是在 KITTI 參考測(cè)試數(shù)據(jù)集上完成的,該數(shù)據(jù)集僅包含真實(shí)世界的圖像,并且在僅 KITTI 和 KITTI 加合成訓(xùn)練之間顯示出顯著的性能提升。添加合成數(shù)據(jù)后,識(shí)別率總體提高了 5.9%,對(duì)汽車(chē)和行人的檢測(cè)顯著提高——這一結(jié)果并不令人驚訝,因?yàn)?Highwai 合成數(shù)據(jù)集集中在這些對(duì)象類(lèi)型上。
需要多少訓(xùn)練數(shù)據(jù)的問(wèn)題沒(méi)有很好的答案,但 Highwai 指出高度針對(duì)性的數(shù)據(jù)管理對(duì)于將其保持在合理范圍內(nèi)至關(guān)重要。一個(gè)很好的例子是他們?yōu)橐粋€(gè)未公開(kāi)的對(duì)象檢測(cè)項(xiàng)目創(chuàng)建的數(shù)據(jù)集,其中實(shí)際用于訓(xùn)練的圖像和注釋數(shù)據(jù)總量約為 15GB。最初的大約 12,000 張圖像包含大約 120,000 個(gè)帶注釋的對(duì)象,是從 30,000 個(gè)圖像和 500,000 個(gè)帶注釋的對(duì)象的原始集合中自動(dòng)整理出來(lái)的。
像這樣的結(jié)果對(duì)于獨(dú)立軟件制造商以及系統(tǒng)集成商和 OEM 來(lái)說(shuō)都很重要。當(dāng)然,他們可以使用亞馬遜的服務(wù)來(lái)幫助訓(xùn)練網(wǎng)絡(luò),但如果價(jià)值在于數(shù)據(jù),那么商業(yè)可行性要求他們能夠在該領(lǐng)域創(chuàng)建 IP——他們必須能夠使用自己的領(lǐng)域?qū)I(yè)知識(shí)創(chuàng)建自己的訓(xùn)練數(shù)據(jù)來(lái)指定、優(yōu)化和管理數(shù)據(jù)集。這意味著旨在生產(chǎn)此類(lèi) IP 的工具行業(yè)的出現(xiàn)是重要的一步,將受到歡迎。我們可以期待看到使用合成訓(xùn)練數(shù)據(jù)的專(zhuān)業(yè)知識(shí)的快速發(fā)展,以及生產(chǎn)它的工具的同樣快速發(fā)展。
審核編輯:郭婷
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103583 -
模擬器
+關(guān)注
關(guān)注
2文章
894瀏覽量
44393 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8502瀏覽量
134593
發(fā)布評(píng)論請(qǐng)先 登錄

硬件工程師看了只會(huì)找個(gè)角落默默哭泣#硬件工程師 #MDD #MDD辰達(dá)半導(dǎo)體 #產(chǎn)品經(jīng)理 #軟件工程師
如何成為一名嵌入式軟件工程師?
嵌入式軟件工程師就業(yè)好不好?
BP神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的比較
BP神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點(diǎn)分析
BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系
如何訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)模型
人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法

RNN模型與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的區(qū)別
LSTM神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)準(zhǔn)備方法
關(guān)于卷積神經(jīng)網(wǎng)絡(luò),這些概念你厘清了么~
【飛凌嵌入式OK3576-C開(kāi)發(fā)板體驗(yàn)】RKNN神經(jīng)網(wǎng)絡(luò)算法開(kāi)發(fā)環(huán)境搭建

評(píng)論