一文讀懂華為人工智能的星辰大海。
2020 年 8 月 7 日,第五屆全球人工智能與機(jī)器人峰會(CCF-GAIR 2020)在深圳正式開幕。
CCF-GAIR 2020 峰會由中國計算機(jī)學(xué)會(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)聯(lián)合承辦,鵬城實驗室、深圳市人工智能與機(jī)器人研究院協(xié)辦。
作為中國最具影響力和前瞻性的前沿科技活動之一,CCF-GAIR 大會已經(jīng)度過了四次精彩而又輝煌的歷程。在大會第二天的「視覺智能?城市物聯(lián)」專場上,華為云人工智能領(lǐng)域首席科學(xué)家、IEEE Fellow 田奇教授登臺發(fā)表精彩演講,分享了華為在人工智能領(lǐng)域的理解與實踐。
田奇介紹了華為在人工智能領(lǐng)域的十大愿景,華為為了實現(xiàn)這個戰(zhàn)略目標(biāo),從中梳理出深耕基礎(chǔ)研究、打造全棧方案、投資開放生態(tài)和人才培養(yǎng)、解決方案增強(qiáng)、內(nèi)部效率提升五大方向,以此打造無所不及的 AI,構(gòu)建萬物互聯(lián)的智能世界。
華為計算機(jī)視覺基礎(chǔ)研究以數(shù)據(jù)高效和能耗高效為核心,覆蓋從 2D 視覺到 3D 視覺的技術(shù)和應(yīng)用,主要包含底層視覺、語義理解、三維視覺、數(shù)據(jù)生成、視覺計算、視覺多模態(tài)等方面。在此方向上,華為將基礎(chǔ)研究進(jìn)一步聚焦到數(shù)據(jù)、模型和知識三大挑戰(zhàn):
1、數(shù)據(jù)上,如何從海量的數(shù)據(jù)中挖掘有用的信息。田奇以生成數(shù)據(jù)訓(xùn)練和不同模態(tài)數(shù)據(jù)對齊這兩個應(yīng)用場景為例,介紹了華為如何使用知識蒸餾與自動數(shù)據(jù)擴(kuò)增結(jié)合的方法讓 AI 模型高效地挖掘數(shù)據(jù)中的有用信息。
2、模型上,怎樣設(shè)計高效的視覺模型。田奇認(rèn)為在深度學(xué)習(xí)年代,視覺模型主要包含神經(jīng)網(wǎng)絡(luò)模型設(shè)計和神經(jīng)網(wǎng)絡(luò)模型加速兩個場景。具體地,田奇介紹了華為如何通過局部連接思路解決網(wǎng)絡(luò)冗余問題、如何加入邊正則化思想來解決局部連接帶來的不穩(wěn)定性等等。
3、知識上,如何定義視覺預(yù)訓(xùn)練模型、如何通過虛擬環(huán)境學(xué)習(xí)知識、如何表達(dá)并存儲知識。為了實現(xiàn)華為打造通用視覺模型的目標(biāo),田奇認(rèn)為推理預(yù)測是從視覺感知到認(rèn)知的關(guān)鍵步驟。雖然預(yù)訓(xùn)練方法目前在視覺領(lǐng)域的應(yīng)用還不成熟,但是近期自監(jiān)督學(xué)習(xí)的成果為視覺通用模型的發(fā)展注入了新活力,這也將成為常識學(xué)習(xí)的必經(jīng)之路。
基于三大挑戰(zhàn),田奇提出華為視覺六大研究計劃:數(shù)據(jù)冰山計劃、數(shù)據(jù)魔方計劃、模型摸高計劃、模型瘦身計劃、萬物預(yù)視計劃、虛實合一計劃,來幫助每一位 AI 開發(fā)者。
以下是田奇博士的大會演講全文, AI 掘金志作了不改變原意的整理與編輯:
田奇:尊敬的各位嘉賓、各位老師、各位朋友,大家下午好!我是田奇,現(xiàn)任華為云人工智能領(lǐng)域首席科學(xué)家。非常感謝大會的邀請,很榮幸能在這里為大家介紹華為計算機(jī)視覺計劃。
首先,我會簡單介紹一下華為人工智能的研究背景和在計算機(jī)視覺領(lǐng)域的基礎(chǔ)研究。然后,我會從模型、數(shù)據(jù)和知識三個核心點出發(fā),來重點介紹華為視覺六大研究計劃。最后,我會介紹一下華為云人工智能在人才培養(yǎng)方面的理念。
近年來,AI 的發(fā)展如火如荼,正在改變各行各業(yè)。華為預(yù)計:到 2025 年左右,97%的大企業(yè)都會上云,其中 77%的企業(yè)云服務(wù)都會涉及到 AI。
因此,在云上,AI 是一個關(guān)鍵的競爭點。如果把大企業(yè)的智能化升級比作一個賽道,那么 AI、IoT、5G 就是提高發(fā)展速度和商業(yè)高度的重要引擎。
以前我們的董事長徐直軍闡述過華為在人工智能領(lǐng)域的十大愿景,這里我簡單介紹幾點。
過去,長達(dá)數(shù)年的分析時間,未來會是分鐘級的訓(xùn)練耗時;
過去,需要天量的資源消耗,未來將是高性能的計算;
過去,計算主要集中在云端,未來主要是云端+終端;
過去,是大量的人工標(biāo)注,未來將是自動標(biāo)注、半自動標(biāo)注的舞臺;
過去,專業(yè)人員才能用 AI,未來是面向普通人的一站式開發(fā)平臺。
基于這樣的愿景,華為的 AI 發(fā)展戰(zhàn)略就是打造無所不及的 AI,構(gòu)建萬物互聯(lián)的智能世界。
華為將從以下五個方向進(jìn)行研究或者投資。
第一:深耕基礎(chǔ)研究,在計算機(jī)視覺、自然語言處理、決策推理等領(lǐng)域,構(gòu)筑數(shù)據(jù)高效、能耗高效、安全可信、自動自治的機(jī)器學(xué)習(xí)的基礎(chǔ)能力。
第二:打造全棧方案,面向云、邊、端等全場景,全棧的解決方案,提供充裕的、經(jīng)濟(jì)的算力資源。
第三:投資開放生態(tài)和人才培養(yǎng),將面向全球,持續(xù)與學(xué)術(shù)界、產(chǎn)業(yè)界和行業(yè)伙伴進(jìn)行廣泛的合作。
第四:把 AI 的思維和技術(shù)引入現(xiàn)有的產(chǎn)品和服務(wù),實現(xiàn)更大的價值、更強(qiáng)的競爭力。
第五:提升內(nèi)部的運(yùn)營效率。
華為云 Cloud&AI 的定位就是圍繞鯤鵬、昇騰和華為云構(gòu)建生態(tài),打造黑土地,成為數(shù)字世界的底座。為了實現(xiàn)這個目標(biāo),華為云提出了一云兩翼雙引擎+開放的生態(tài)目標(biāo)。
就像這架飛機(jī)一樣,雙引擎是基于鯤鵬和昇騰構(gòu)建的基礎(chǔ)芯片架構(gòu);兩翼是計算以及數(shù)據(jù)存儲和機(jī)器視覺;一云是華為云,提供安全可靠的混合云,成為生態(tài)伙伴的黑土地,為世界提供普惠的算力。開放的生態(tài)是指硬件開放、軟件開源,使能我們的合作伙伴。
華為云主要面向八大行業(yè)使能 AI 技術(shù)。到 2019 年底,我們已經(jīng)提供了 60 種服務(wù)、170 多種功能,所涉及的行業(yè)包括:城市、互聯(lián)網(wǎng)、家庭、車聯(lián)網(wǎng)、物流、金融、園區(qū)、制造等等。
以上是對華為 AI 的簡單介紹,下面將介紹我們在計算機(jī)視覺領(lǐng)域的一些基礎(chǔ)研究。
眾所周知,人類對外部世界的感知 80%以上來自于視覺信號。近年來,隨著視覺終端設(shè)備的不斷普及,如何讓機(jī)器像人類一樣擁有感知視覺信號的能力是計算機(jī)視覺的終極目標(biāo)。
計算機(jī)視覺已在智能汽車、智能手機(jī)、無人機(jī)、智能眼鏡等諸多行業(yè)得到了廣泛應(yīng)用。
總的來說,視覺研究可以分以下幾個部分:
首先是基礎(chǔ)理論,例如統(tǒng)計學(xué)習(xí)、優(yōu)化方法、深度學(xué)習(xí)技術(shù)等;
接下來考慮底層視覺,如超分辨、圖象增強(qiáng)、去模糊、去噪聲、去反光等等;
再到中高層的語義理解,包括場景理解、物體分類與檢測、人臉、手勢、人體姿態(tài)的識別、分割和分組等等。
除了二維視覺以外,三維視覺的研究也有著極其重要的地位,包括三維重建、點云處理和分析、景深感知分析等等。
同時,在人工智能時代,數(shù)據(jù)生成的方法研究也是一項有價值的任務(wù)。在一些工業(yè)場景中,視覺計算借助海量算力來做一些神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索的研究,以及模型壓縮與量化。
最后是視覺與其他模態(tài)的結(jié)合,比如視覺與語言的結(jié)合,視覺與圖形學(xué)結(jié)合,這都是計算機(jī)視覺領(lǐng)域的一些基礎(chǔ)性的研究課題。
華為的基礎(chǔ)研究就是圍繞底層視覺、語義理解、三維視覺、數(shù)據(jù)生成、視覺計算、視覺+多模態(tài)等方面,構(gòu)建數(shù)據(jù)高效、能耗高效的機(jī)器學(xué)習(xí)能力。
華為對底層視覺的研究涉及諸多方面,這些技術(shù)有著廣泛應(yīng)用場景,比如,為了提升手機(jī)端的圖片質(zhì)量,我們對照片進(jìn)行超分辨和去噪處理,并提出了一系列有針對性的算法以面對從 Raw 域到 sRGB 域去噪,來提高照片的清晰度。
在語義理解方面,由于圖像視頻包括豐富的語義信息,如何有效理解并分析它們是一項富有挑戰(zhàn)性的課題。以下舉幾個例子來說明:
挑戰(zhàn)之一:同一內(nèi)容的視覺特征的差異性。比如說擁抱這個動作,雖然是內(nèi)容相同,但視覺表征可能非常不同,我們稱其為類內(nèi)差異性。
挑戰(zhàn)之二:不同內(nèi)容的視覺特征十分相似,我們稱其為類間相似性。比如上圖的兩個男子,從圖像上看,他們的視覺特征非常相似。但是放到場景中,一個是在排隊,一個是在對話,這直觀地解釋了不同類間具有很高的類間相似性。
挑戰(zhàn)之三:如何區(qū)分正常事件與異常事件。比如一群人在晨跑和一群人在斗毆,這往往會造成邊界模糊。
對于 3D 視覺而言,雖然三維數(shù)據(jù)比二維數(shù)據(jù)攜帶著更豐富的信息,但與之而來的是諸多挑戰(zhàn)。
比如在醫(yī)學(xué)領(lǐng)域,獲取具有精準(zhǔn)標(biāo)注的醫(yī)療數(shù)據(jù),往往需要專家的協(xié)助,這是困難并且昂貴的;同時,因為一些醫(yī)療影像通常是在一些很細(xì)微的地方有差異,所以區(qū)分正常樣本和異常樣本的難度非常大;此外,視頻數(shù)據(jù)也存在大量的冗余,如何去除冗余并提取有效信息也很具挑戰(zhàn)性。
最后,準(zhǔn)確檢測和追蹤物體也極具挑戰(zhàn)并值得進(jìn)一步探索。
數(shù)據(jù)生成同樣是一個熱門研究方向。我們認(rèn)為數(shù)據(jù)是視覺算法研究的保障和基石,在深度學(xué)習(xí)時代,大多數(shù)場景數(shù)據(jù)的收集越來越昂貴,所以數(shù)據(jù)生成具有直接的應(yīng)用價值。
比如在安防企業(yè)中基于姿態(tài)的行人數(shù)據(jù)生成;在無人駕駛中街景數(shù)據(jù)的生成以及人臉數(shù)據(jù)的生成等。但目前該領(lǐng)域仍存在一些挑戰(zhàn):
挑戰(zhàn)之一:通過人機(jī)交互對人臉特征的選擇與標(biāo)注需要大量的人力成本;
挑戰(zhàn)之二:如何生成高質(zhì)量的圖像以及視頻數(shù)據(jù)仍是巨大挑戰(zhàn);
挑戰(zhàn)之三:生成數(shù)據(jù)同質(zhì)化嚴(yán)重,數(shù)據(jù)多樣性有待提高;
挑戰(zhàn)之四:算法復(fù)雜度也制約著數(shù)據(jù)生成的性能,特別是視頻數(shù)據(jù)生成這類對算力有著較高要求的任務(wù)。
下一個基礎(chǔ)研究是視覺計算,我們認(rèn)為視覺計算是深度學(xué)習(xí)算法應(yīng)用落地的關(guān)鍵一環(huán)。
它主要集中在兩個方面:一個是模型的壓縮與加速,這對機(jī)器視覺在端側(cè)的部署具有重大的意義;另一個就是神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計。
但是視覺計算目前仍然面臨一些挑戰(zhàn)。第一,邊緣計算缺乏統(tǒng)一的平臺,用戶調(diào)用不便;第二,缺乏針對其它特定視覺任務(wù)的網(wǎng)絡(luò)壓縮與加速的算法;第三,網(wǎng)絡(luò)結(jié)構(gòu)搜索在性能和搜索的效率上都有待進(jìn)一步提高。
最后一個研究領(lǐng)域是視覺與多模態(tài)。真實世界的數(shù)據(jù)是多模態(tài)的,比如在自動駕駛中,除了攝像頭的輸入,還有激光雷達(dá)的點云數(shù)據(jù);在圖片、視頻的描述中,從圖片、視頻到文字的映射等。
它們存在的挑戰(zhàn),包括數(shù)據(jù)融合的問題、數(shù)據(jù)對齊的問題、數(shù)據(jù)異質(zhì)性的問題、主觀性和不確定性的問題、還有協(xié)作方面的問題,都有待研究。
以上是華為計算機(jī)視覺基礎(chǔ)研究的一些方向,下面介紹一下我們從這些基礎(chǔ)研究中,進(jìn)一步提出的華為視覺研究計劃。
我們認(rèn)為計算機(jī)視覺實際上面臨三大挑戰(zhàn):從數(shù)據(jù)到模型、到知識。 從數(shù)據(jù)來講,舉個例子,每分鐘上傳到 YouTube 的視頻數(shù)據(jù)已經(jīng)超過 500 小時,如何從這些海量的數(shù)據(jù)中挖掘有用的信息,這是第一個挑戰(zhàn)。
從模型來講,人類能夠識別的物體類別已經(jīng)超過 2 萬類,計算機(jī)如何借助于深度神經(jīng)網(wǎng)絡(luò)來構(gòu)建識別高效的視覺識別模型,這是第二個挑戰(zhàn)。
從知識來講,在計算機(jī)視覺里面如何表達(dá)并存儲知識,這是第三個挑戰(zhàn)。
因此我們提出的第一個研究方向:如何從海量的數(shù)據(jù)中挖掘有效的信息?有兩個主要應(yīng)用場景,一是如何利用生成數(shù)據(jù)訓(xùn)練模型;第二是如何對齊不同模態(tài)的數(shù)據(jù)。
深度學(xué)習(xí)主要是監(jiān)督學(xué)習(xí)的范式,需要大量人工標(biāo)注的數(shù)據(jù),而人工標(biāo)注的成本越來越高,比如無人駕駛,數(shù)據(jù)標(biāo)注成本可能成百上千萬,因此華為也花了很大的人力物力來研究數(shù)據(jù)生成技術(shù)。
我們把數(shù)據(jù)生成技術(shù)主要分為三類:第一類是數(shù)據(jù)擴(kuò)增;第二類是利用生成對抗網(wǎng)絡(luò) GAN 來合成更多的數(shù)據(jù);第三種方法是利用計算機(jī)圖形學(xué)技術(shù)來生成虛擬場景,從而生成我們所需要的虛擬數(shù)據(jù)。
在這三方面,華為在 ICLR20、CVPR2018 和 CVPR2019 都有一些相關(guān)論文發(fā)表,數(shù)據(jù)生成主要應(yīng)用的領(lǐng)域在智慧城市、智能駕駛方面。
在這里,介紹一個我們最新的工作。我們提出知識蒸餾與自動數(shù)據(jù)擴(kuò)增結(jié)合的方法,在不使用額外數(shù)據(jù)的情況下,可以達(dá)到業(yè)界領(lǐng)先精度:在 ImageNet-1000 Top-1 準(zhǔn)確率為 85.8%。之 前幾年都是谷歌最強(qiáng),它在 ImageNet-1000 上最高精度是 85.5%。
數(shù)據(jù)的第二方面是多模態(tài)學(xué)習(xí)。例如無人駕駛有圖像、GPS、激光雷達(dá)信息。相對于單模態(tài),多模態(tài)具有天然的互補(bǔ)性,因此是場景理解的主要手段。
當(dāng)然也面臨很多挑戰(zhàn),比如多模態(tài)的信息表示、融合、對齊、協(xié)同學(xué)習(xí)等等。我們認(rèn)為多模態(tài)學(xué)習(xí)是未來機(jī)器視覺的主流方式,在自動駕駛、智能多媒體方面有著廣泛應(yīng)用前景。
在多模態(tài)學(xué)習(xí)方面,介紹一個我們在 2019 年的 ACM 多媒體會議上獲得最佳論文提名的工作,該工作主要是面對電商(服裝)設(shè)計了一個人機(jī)對話系統(tǒng)。
具體而言,系統(tǒng)會依據(jù)用戶需求生成不同的模態(tài)響應(yīng),使用一個統(tǒng)一模型以編碼不同形式領(lǐng)域信息。最后在圖像選擇、文本響應(yīng)都取得了很好的結(jié)果,右邊的二維碼是相關(guān)論文的鏈接。
第二個研究方向是:怎樣設(shè)計高效的視覺識別模型?同樣有兩個應(yīng)用場景,第一個是在深度學(xué)習(xí)時代,如何設(shè)計神經(jīng)網(wǎng)絡(luò)模型。第二是如何加速神經(jīng)網(wǎng)絡(luò)的計算。
在神經(jīng)網(wǎng)絡(luò)設(shè)計方面有很多優(yōu)秀的模型誕生,從 2012 年的 AlexNet 到 VGGNet、GoogleNet、MobileNet,然而,手工網(wǎng)絡(luò)模型設(shè)計進(jìn)入瓶頸期。
2018 年以來,自動網(wǎng)絡(luò)架構(gòu)搜索進(jìn)入快速發(fā)展的階段,包括今年華為的 PC-DARTS 在業(yè)界都取得了很好的效果。但是自動網(wǎng)絡(luò)架構(gòu)搜索真能替代手工經(jīng)驗嗎?
主要面臨以下幾個挑戰(zhàn):第一是搜索空間需要人工經(jīng)驗定義;第二是待搜的算子也是人工設(shè)計的;第三是它相比手工設(shè)計的網(wǎng)絡(luò)可遷移性比較差,抗攻擊能力也比較差。
在這里介紹一下我們在 ICLR2020 提出的一個目前業(yè)界搜索速度最快的自動網(wǎng)絡(luò)架構(gòu)搜索技術(shù) PC-DARTS,它主要包含兩個思想:一是采用局部連接的思想,隨機(jī)地選擇 1/K 的通道進(jìn)行連接,可以解決冗余的問題;另一個是提出了邊正則化的思想以保證網(wǎng)絡(luò)穩(wěn)定。
模型的另外一個研究方向是模型加速以及小型化。
對于早期的 ResNet、DenseNet 到最新的 EfficientNet,由于云側(cè)大模型無法適配端側(cè)的有限算力,所以自 2016 年以來,業(yè)界提出了眾多模型小型化的解決方案。
然而這些方法在實際應(yīng)用中存在各種問題。比如,低比特量化精度受限;在實現(xiàn)的時候,如果用混合比特來表示響應(yīng)和權(quán)重,這種混合比特的網(wǎng)絡(luò)實現(xiàn)對硬件并不友好;此外,新型的算子也并沒有得到一些充分的驗證。
在 CVPR2020,我們作了一個口頭報告。該報告介紹了一個新型算子加速卷積網(wǎng)絡(luò),該算子的核心思想是在 CNN 中采用加法計算替代乘法運(yùn)算。
從原理上講,我們是用曼哈頓距離取代夾角距離。該方法用加法代替乘法運(yùn)算,同時用 8 比特的整數(shù)計算,對硬件實現(xiàn)更加友好,功耗更低。
在 ImageNet 數(shù)據(jù)集上的結(jié)果表明,加法網(wǎng)絡(luò)達(dá)到了基本媲美乘法網(wǎng)絡(luò)的效果。雖然精度大概損失 1%到 2%,但其在功耗上具有顯著優(yōu)勢。此外,二維碼展示了開源代碼以及論文鏈接。
第三個研究方向是通用智能,我們稱其為知識抽取??珊喴爬閮蓚€場景,第一個是如何定義通用的視覺模型,打造我們的視覺預(yù)訓(xùn)練模型;第二是如何通過虛擬環(huán)境來學(xué)習(xí)、表達(dá)和存儲知識。
我們的目標(biāo)是構(gòu)建一個通用視覺模型,類似于自然語言處理領(lǐng)域存在的預(yù)訓(xùn)練模型 BERT、GPT-3,可以為下游的任務(wù)提供高效的初始化,滿足系統(tǒng)所需要的泛化性和魯棒性。
就監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)而言,監(jiān)督學(xué)習(xí)需要海量的樣本,模型無法泛化到不同的任務(wù);而強(qiáng)化學(xué)習(xí)需要海量的試錯,同樣缺少可重復(fù)性、可復(fù)用性以及系統(tǒng)需要的魯棒性。
雖然強(qiáng)化學(xué)習(xí)在一些游戲中,例如圍棋、星際爭霸等取得很好的效果,但是在一些簡單的任務(wù)比如搭積木,效果就比較差。所以我們認(rèn)為要學(xué)會推理預(yù)測,才能實現(xiàn)從視覺感知到認(rèn)知。
從當(dāng)下研究主流來看,自監(jiān)督學(xué)習(xí)是成為常識學(xué)習(xí)的必經(jīng)之路,但是目前的自監(jiān)督學(xué)習(xí)缺乏有效的預(yù)訓(xùn)練任務(wù),其在視覺領(lǐng)域的應(yīng)用還不成熟。
上圖展示了我們在 CVPR2019 通過自監(jiān)督學(xué)習(xí)來學(xué)習(xí)完成拼圖游戲。具體而言,拼圖游戲把一個圖像分成 3×3 的 9 個小塊,再把它的位置隨機(jī)打亂,通過自監(jiān)督學(xué)習(xí)來恢復(fù)圖像原始的構(gòu)成。
該任務(wù)能改進(jìn)自監(jiān)督學(xué)習(xí)性能,使網(wǎng)絡(luò)能夠處理任意拼圖布局,從而更好地學(xué)習(xí)空間上下文提供的語義信息。我們把它在 ImageNet 上學(xué)習(xí)的結(jié)果遷移到別的地方,同樣也取得了很好的結(jié)果。左下角二維碼是我們的開源代碼鏈接。
最后一個研究方向是構(gòu)造虛擬場景來學(xué)習(xí)常識?因為深度學(xué)習(xí)需要大量的數(shù)據(jù)標(biāo)注,這存在諸多問題:首先是標(biāo)注成本特別高;其次是數(shù)據(jù)標(biāo)注存在一個致命的問題,即知識表達(dá)不準(zhǔn)確。
比如在無人駕駛場景中,我們有許多像素級分割的標(biāo)注,但是并不知道這樣的標(biāo)注對無人駕駛的識別任務(wù)是最有效的,這一點難以證明。
第三是基于數(shù)據(jù)標(biāo)注,必然導(dǎo)致常識的缺失,而人類對外部世界的認(rèn)識很多依賴于常識。
我們在 CVPR2019 上提出用計算機(jī)圖形學(xué)的技術(shù)生成虛擬場景,從虛擬場景中學(xué)習(xí)模型控制無感知的機(jī)械臂。
具體而言,我們只需要一個攝像頭和一臺計算機(jī)即可以控制沒有裝備其它感知設(shè)備的機(jī)械臂以完成復(fù)雜的搬運(yùn)動作。因為這是從虛擬的環(huán)境中搜集的數(shù)據(jù),因此標(biāo)注的代價幾乎為零。
此外,利用域遷移算法,所以幾乎沒有性能損失。如果融合強(qiáng)化學(xué)習(xí),還能實現(xiàn)其它的多種任務(wù),右邊二維碼是相關(guān)的代碼和論文。
基于以上對數(shù)據(jù)、模型和知識方面的總結(jié),我們提出了華為的視覺研究計劃,希望能夠助力每一位 AI 開發(fā)者。
我們的計劃包括六個子計劃,與數(shù)據(jù)相關(guān)的是數(shù)據(jù)冰山計劃、數(shù)據(jù)魔方計劃;與模型相關(guān)的是模型摸高計劃、模型瘦身計劃;與知識抽取相關(guān)的則是萬物預(yù)視計劃,也就是我們的通用預(yù)訓(xùn)練模型計劃,此外還有虛實合一計劃。
關(guān)于數(shù)據(jù)冰山計劃,我們希望用數(shù)據(jù)生成方法真正代替手工標(biāo)注。我們共有三個研究子課題,第一個子課題是希望數(shù)據(jù)的生成質(zhì)量更高。
第二個研究課題是數(shù)據(jù)生成的點石成金計劃,我們希望生成的數(shù)據(jù)能夠自動挑選高質(zhì)量的數(shù)據(jù),讓模型隨著生成數(shù)據(jù)的變多而真正的變好。
第三個課題是通用自動數(shù)據(jù)生成,我們希望根據(jù)不同的任務(wù)自動生成它所需的數(shù)據(jù),讓數(shù)據(jù)生成具備普惠的能力。
第二個數(shù)據(jù)計劃是魔方計劃,關(guān)注多模態(tài)數(shù)據(jù)量化、對齊、融合策略的研究,構(gòu)建下一代的智能視覺。
模型摸高計劃考慮云側(cè)大模型,刷新各類視覺任務(wù)性能上限。這包含了三個子課題:第一個是全空間網(wǎng)絡(luò)架構(gòu)搜索,希望不受算子、搜索網(wǎng)絡(luò)的限制,真正實現(xiàn)自主自治,真正自動搜索。
第二個是新型算子搜索,希望設(shè)計與芯片相關(guān)的算子,讓算子從復(fù)用到創(chuàng)造。
第三個是搜索模型的普適能力提升,之前提到搜索設(shè)計的模型與手工設(shè)計的模型相比普適性較差,我們希望將來的網(wǎng)絡(luò)搜索能夠真正的安全可用。
模型瘦身計劃則針對端側(cè)小模型,助力各種芯片完成復(fù)雜推理。其同樣包含三個子課題:第一個小課題是自動搜索小型化,將硬件的約束融入自動設(shè)計,比如說功耗、時延的約束等。
第二個小課題研究低比特網(wǎng)絡(luò)量化,尤其是一比特網(wǎng)絡(luò)量化,追求極致的性能。
第三是構(gòu)建新型的加法網(wǎng)絡(luò),探索高效計算的新途徑。
最后兩個計劃跟知識相關(guān),第一個是萬物預(yù)視計劃,主要目標(biāo)是定義預(yù)訓(xùn)練任務(wù)以構(gòu)建通用的視覺模型。
第二個是虛實合一計劃,其主要目標(biāo)是解決數(shù)據(jù)標(biāo)注瓶頸的問題,希望在虛擬的場景下不通過數(shù)據(jù)標(biāo)注,直接訓(xùn)練智能行為本身。
該領(lǐng)域早期的研究并不多,如何定義知識,如何構(gòu)筑虛擬世界,如何模擬用戶行為,如何在虛擬的場景中保證智能體的安全,比如說在虛擬的場景中做無人駕駛的訓(xùn)練,相信這是真正通向通用人工智能的一個有益的方向。
我們的視覺研究計劃歡迎全球的 AI 研究者加入我們,這是基于昇騰 AI 計算平臺,加速計算機(jī)視覺基礎(chǔ)研究。
最后介紹一下我們的研究進(jìn)展,以及華為云 AI 培養(yǎng)人才的理念。華為云 AI 希望打造一支世界一流的 AI 研究團(tuán)隊,主要從開放、創(chuàng)新、培養(yǎng)六個字踐行,我們需要打造的是一個具有華為特色的人工智能軍團(tuán)。
眾所周知,在計算機(jī)視覺領(lǐng)域有三大頂會:CVPR、ECCV 和 ICCV。CVPR 一年一次,ECCV 和 ICCV 每兩年一次。CVPR 在本領(lǐng)域的會議中排名第一,在所有的計算機(jī)和非計算機(jī)學(xué)科中排名第 10,具有廣泛的影響力。
我們希望在各種頂會中取得更好的成績,2019 年我們的視覺團(tuán)隊在國際頂會發(fā)表論文 60 多篇,今年的 CVPR 有 34 篇論文,基礎(chǔ)研究的論文發(fā)表已經(jīng)躋身國際國內(nèi)第一集團(tuán)。
我們大量的工作也是通過我們的實習(xí)生和高校老師聯(lián)合完成的,比如說 P-DARTS,去年這項工作已經(jīng)被納入微軟的開源平臺,作為標(biāo)準(zhǔn)算法進(jìn)行提供。
第二個是 CenterNet,也是單階段性能最強(qiáng)的目標(biāo)檢測算法之一,在 GitHub 開源收獲了很高的評價。還有一個是 AdderNet 提出了全新的神經(jīng)網(wǎng)絡(luò)計算架構(gòu),為下一代芯片架構(gòu)指出了新方向。
第二方面是開放,我們希望與頂級的高校老師合作,華為的視覺團(tuán)隊過去 1-2 年中有 100 多位 C9 高校和其它的高校的實習(xí)生,他們不僅做出了杰出的貢獻(xiàn),而且也形成了與高校之間有力的紐帶。
第三是從培養(yǎng)的角度出發(fā),視覺團(tuán)隊制作了計算機(jī)視覺精品課程,同時也撰寫了計算機(jī)視覺白皮書,希望下一步成為 AI 系列教材,最后對內(nèi)外部宣講。
最后把我們半年來的視覺領(lǐng)域的進(jìn)展與各位分享一下,我們的目標(biāo)是希望在各項視覺基礎(chǔ)任務(wù)中打造性能最強(qiáng)的計算模型,積極投入 D+M 生態(tài)建設(shè)。
在全監(jiān)督學(xué)習(xí)方面,把全空間、網(wǎng)絡(luò)架構(gòu)搜索和數(shù)據(jù)擴(kuò)增技術(shù)結(jié)合,在 ImageNet 達(dá)到 85.8%的精度,打破谷歌三年的壟斷。
另外,在自研的數(shù)據(jù)增強(qiáng)技術(shù)方面,在 MS-COCO 這樣一個業(yè)界具有挑戰(zhàn)的測試集,目前不管是單模型還是多模型,我們都達(dá)到業(yè)界第一,其中多模型達(dá)到 58.8%的檢測精度,也打破了微軟多年的壟斷。
在多模態(tài)學(xué)習(xí)方面,目前在自動駕駛數(shù)據(jù)集 Nuscenes Challenge 上取得業(yè)界第一的檢測精度,擊敗來自全球 92 支隊伍并大幅度領(lǐng)先第二名達(dá) 3.1%。
最后,在弱監(jiān)督方面,我們在 2020 年的圖象識別競賽 WebVision 達(dá)到業(yè)界第一的精度。在無監(jiān)督方面,我們在無標(biāo)簽 ImageNet-1000 數(shù)據(jù)集上達(dá)到了業(yè)界領(lǐng)先的 75.5%的精度,大大超過了 Facebook 保持的 71.1%的精度。
未來希望我們的無監(jiān)督學(xué)習(xí)能逼近甚至超越監(jiān)督學(xué)習(xí)的極限。
以上就是華為視覺計劃的一些介紹和進(jìn)展,謝謝大家。
? ? ? ? 責(zé)任編輯:tzh
評論