99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

有多快?華為云刷新深度學(xué)習(xí)加速紀(jì)錄

DPVg_AI_era ? 2018-12-02 11:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導(dǎo)讀】華為云ModelArts在國(guó)際權(quán)威的深度學(xué)習(xí)模型基準(zhǔn)測(cè)試平臺(tái)斯坦福DAWNBenchmark上取得了當(dāng)前圖像識(shí)別訓(xùn)練時(shí)間最佳成績(jī),ResNet-50在ImageNet數(shù)據(jù)集上收斂?jī)H用10分28秒,比第二名成績(jī)提升近44%。華為自研了分布式通用加速框架MoXing,在應(yīng)用層和TensorFlow、MXNet、PyTorch等框架之間實(shí)現(xiàn)再優(yōu)化。ModelArts公測(cè)地址:https://www.huaweicloud.com/product/modelarts.html

日前,斯坦福大學(xué)發(fā)布了DAWNBenchmark最新成績(jī),在圖像識(shí)別(ResNet50-on-ImageNet,93%以上精度)的總訓(xùn)練時(shí)間上,華為云ModelArts排名第一,僅需10分28秒,比第二名提升近44%。

有多快?華為云刷新深度學(xué)習(xí)加速紀(jì)錄

斯坦福大學(xué)DAWNBenchmark圖像識(shí)別訓(xùn)練時(shí)間最新成績(jī),華為云ModelArts以10分28秒排名第一,超越了fast.ai、谷歌等勁敵。來源:dawn.cs.stanford.edu/benchmark/

作為人工智能最重要的基礎(chǔ)技術(shù)之一,近年來深度學(xué)習(xí)逐步延伸到更多的應(yīng)用場(chǎng)景。除了精度,訓(xùn)練時(shí)間和成本也是構(gòu)建深度學(xué)習(xí)模型時(shí)需要考慮的核心要素。然而,當(dāng)前的深度學(xué)習(xí)基準(zhǔn)往往以衡量精度為主,斯坦福大學(xué)DAWNBench正是在此背景下提出。

斯坦福DAWNBench是衡量端到端深度學(xué)習(xí)模型訓(xùn)練和推理性能的國(guó)際權(quán)威基準(zhǔn)測(cè)試平臺(tái),提供了一套通用的深度學(xué)習(xí)評(píng)價(jià)指標(biāo),用于評(píng)估不同優(yōu)化策略、模型架構(gòu)、軟件框架、云和硬件上的訓(xùn)練時(shí)間、訓(xùn)練成本、推理延遲以及推理成本,吸引了谷歌、亞馬遜AWS、fast.ai等高水平隊(duì)伍參與,相應(yīng)的排名反映了當(dāng)前全球業(yè)界深度學(xué)習(xí)平臺(tái)技術(shù)的領(lǐng)先性。

正是在這樣高手云集的基準(zhǔn)測(cè)試中,華為云ModelArts第一次參加國(guó)際排名,便實(shí)現(xiàn)了更低成本、更快速度的體驗(yàn)。

華為云創(chuàng)造端到端全棧優(yōu)化新紀(jì)錄:128塊GPU,10分鐘訓(xùn)練完ImageNet

為了達(dá)到更高的精度,通常深度學(xué)習(xí)所需數(shù)據(jù)量和模型都很大,訓(xùn)練非常耗時(shí)。例如,在計(jì)算機(jī)視覺領(lǐng)域常用的經(jīng)典ImageNet數(shù)據(jù)集(1000個(gè)類別,共128萬張圖片)上,用1塊P100 GPU訓(xùn)練一個(gè)ResNet-50模型, 耗時(shí)需要將近1周。這嚴(yán)重阻礙了深度學(xué)習(xí)應(yīng)用的開發(fā)進(jìn)度。因此,深度學(xué)習(xí)訓(xùn)練加速一直是學(xué)術(shù)界和工業(yè)界所關(guān)注的重要問題,也是深度學(xué)習(xí)應(yīng)用的主要痛點(diǎn)。

曾任Kaggle總裁和首席科學(xué)家的澳大利亞數(shù)據(jù)科學(xué)家和企業(yè)家Jeremy Howard,與其他幾位教授共同組建了AI初創(chuàng)公司fast.ai,專注于深度學(xué)習(xí)加速。他們用128塊V100 GPU,在上述ImageNet數(shù)據(jù)集上訓(xùn)練ResNet-50模型,最短時(shí)間為18分鐘。

最近BigGAN、NASNet、BERT等模型的出現(xiàn),預(yù)示著訓(xùn)練更好精度的模型需要更強(qiáng)大的計(jì)算資源??梢灶A(yù)見,在未來隨著模型的增大、數(shù)據(jù)量的增加,深度學(xué)習(xí)訓(xùn)練加速將變得會(huì)更加重要。

只有擁有端到端全棧的優(yōu)化能力,才能使得深度學(xué)習(xí)的訓(xùn)練性能做到極致。

有多快?華為云刷新深度學(xué)習(xí)加速紀(jì)錄

華為云ModelArts功能視圖

華為云ModelArts是一站式的AI開發(fā)平臺(tái),已經(jīng)服務(wù)于華為公司內(nèi)部各大產(chǎn)品線的AI模型開發(fā),幾年下來已經(jīng)積累了跨場(chǎng)景、軟硬協(xié)同、端云一體等多方位的優(yōu)化經(jīng)驗(yàn)。

ModelArts提供了自動(dòng)學(xué)習(xí)、數(shù)據(jù)管理、開發(fā)管理、訓(xùn)練管理、模型管理、推理服務(wù)管理、市場(chǎng)等多個(gè)模塊化的服務(wù),使得不同層級(jí)的用戶都能夠很快地開發(fā)出自己的AI模型。

自研分布式通用加速框架MoXing,性能再加速

為什么ModelArts能在圖像識(shí)別的訓(xùn)練時(shí)間上取得如此優(yōu)異的成績(jī)?

答案是“MoXing”。

在模型訓(xùn)練部分,ModelArts通過硬件、軟件和算法協(xié)同優(yōu)化來實(shí)現(xiàn)訓(xùn)練加速。尤其在深度學(xué)習(xí)模型訓(xùn)練方面,華為將分布式加速層抽象出來,形成一套通用框架——MoXing(“模型”的拼音,意味著一切優(yōu)化都圍繞模型展開)。

有多快?華為云刷新深度學(xué)習(xí)加速紀(jì)錄

采用與fast.ai一樣的硬件、模型和訓(xùn)練數(shù)據(jù),ModelArts可將訓(xùn)練時(shí)長(zhǎng)可縮短到10分鐘,創(chuàng)造了新的紀(jì)錄,為用戶節(jié)省44%的時(shí)間

MoXing是華為云ModelArts團(tuán)隊(duì)自研的分布式訓(xùn)練加速框架,它構(gòu)建于開源的深度學(xué)習(xí)引擎TensorFlow、MXNet、PyTorch、Keras之上,使得這些計(jì)算引擎分布式性能更高,同時(shí)易用性更好。

有多快?華為云刷新深度學(xué)習(xí)加速紀(jì)錄

華為云MoXing架構(gòu)圖

MoXing內(nèi)置了多種模型參數(shù)切分和聚合策略、分布式SGD優(yōu)化算法、級(jí)聯(lián)式混合并行技術(shù)、超參數(shù)自動(dòng)調(diào)優(yōu)算法,并且在分布式訓(xùn)練數(shù)據(jù)切分策略、數(shù)據(jù)讀取和預(yù)處理、分布式通信等多個(gè)方面做了優(yōu)化,結(jié)合華為云Atlas高性能服務(wù)器,實(shí)現(xiàn)了硬件、軟件和算法協(xié)同優(yōu)化的分布式深度學(xué)習(xí)加速。

有了MoXing后,上層開發(fā)者可以聚焦業(yè)務(wù)模型,無需關(guān)注下層分布式相關(guān)的API,只用根據(jù)實(shí)際業(yè)務(wù)定義輸入數(shù)據(jù)、模型以及相應(yīng)的優(yōu)化器即可,訓(xùn)練腳本與運(yùn)行環(huán)境(單機(jī)或者分布式)無關(guān),上層業(yè)務(wù)代碼和分布式訓(xùn)練引擎可以做到完全解耦。

用數(shù)據(jù)說話:從吞吐量和收斂時(shí)間看加速性能

深度學(xué)習(xí)加速屬于一個(gè)從底層硬件到上層計(jì)算引擎、再到更上層的分布式訓(xùn)練框架及其優(yōu)化算法多方面協(xié)同優(yōu)化的結(jié)果,具備全棧優(yōu)化能力才能將用戶訓(xùn)練成本降到最低。

在模型訓(xùn)練這方面,華為云ModelArts內(nèi)置的MoXing框架使得深度學(xué)習(xí)模型訓(xùn)練速度有了很大的提升。

下圖是華為云團(tuán)隊(duì)測(cè)試的模型收斂曲線(128塊V100 GPU,完成ResNet50-on-ImageNet)。一般在ImageNet數(shù)據(jù)集上訓(xùn)練ResNet-50模型,當(dāng)Top-5精度≥93%或者Top-1 精度≥75%時(shí),即可認(rèn)為模型收斂。

有多快?華為云刷新深度學(xué)習(xí)加速紀(jì)錄

ResNet50-on-ImageNet訓(xùn)練收斂曲線(曲線上的精度為訓(xùn)練集上的精度):(a)所對(duì)應(yīng)的模型在驗(yàn)證集上Top-1 精度≥75%,訓(xùn)練耗時(shí)為10分06秒;(b) 所對(duì)應(yīng)的模型在驗(yàn)證集上Top-5精度≥93%,訓(xùn)練耗時(shí)為10分28秒。

Top-1和Top-5精度為訓(xùn)練集上的精度,為了達(dá)到極致的訓(xùn)練速度,訓(xùn)練過程中采用了額外進(jìn)程對(duì)模型進(jìn)行驗(yàn)證,最終驗(yàn)證精度如下表所示(包含與fast.ai的對(duì)比)。

有多快?華為云刷新深度學(xué)習(xí)加速紀(jì)錄

MoXing與fast.ai的訓(xùn)練結(jié)果對(duì)比

華為云團(tuán)隊(duì)介紹,衡量分布式深度學(xué)習(xí)框架加速性能時(shí),主要看吞吐量和收斂時(shí)間。在與吞吐量和收斂時(shí)間相關(guān)的幾個(gè)關(guān)鍵指標(biāo)上,團(tuán)隊(duì)都做了精心處理:

在數(shù)據(jù)讀取和預(yù)處理方面,MoXing通過利用多級(jí)并發(fā)輸入流水線使得數(shù)據(jù)IO不會(huì)成為瓶頸;

在模型計(jì)算方面,MoXing對(duì)上層模型提供半精度和單精度組成的混合精度計(jì)算,通過自適應(yīng)的尺度縮放減小由于精度計(jì)算帶來的損失;

在超參調(diào)優(yōu)方面,采用動(dòng)態(tài)超參策略(如momentum、batch size等)使得模型收斂所需epoch個(gè)數(shù)降到最低;

在底層優(yōu)化方面,MoXing與底層華為自研服務(wù)器和通信計(jì)算庫相結(jié)合,使得分布式加速進(jìn)一步提升

后續(xù),華為云ModelArts將進(jìn)一步整合軟硬一體化的優(yōu)勢(shì),提供從芯片(Ascend)、服務(wù)器(Atlas Server)、計(jì)算通信庫(CANN)到深度學(xué)習(xí)引擎(MindSpore)和分布式優(yōu)化框架(MoXing)全棧優(yōu)化的深度學(xué)習(xí)訓(xùn)練平臺(tái)。

ModelArts會(huì)逐步集成更多的數(shù)據(jù)標(biāo)注工具,擴(kuò)大應(yīng)用范圍,將繼續(xù)服務(wù)于智慧城市、智能制造、自動(dòng)駕駛及其它新興業(yè)務(wù)場(chǎng)景,在公有云上為用戶提供更普惠的AI服務(wù)。

目前華為云ModelArts已經(jīng)在公測(cè)中。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6231

    瀏覽量

    108202
  • 華為
    +關(guān)注

    關(guān)注

    216

    文章

    35216

    瀏覽量

    256005
  • 華為云
    +關(guān)注

    關(guān)注

    3

    文章

    2772

    瀏覽量

    18336

原文標(biāo)題:華為云刷新深度學(xué)習(xí)加速紀(jì)錄:128塊GPU,10分鐘訓(xùn)練完ImageNet

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

      華為深度學(xué)習(xí)服務(wù),讓企業(yè)智能從此不求人

      近日,華為發(fā)布了深度學(xué)習(xí)服務(wù),要讓企業(yè)智能從此不求人。那么企業(yè)深度
    發(fā)表于 08-02 20:44

    華為如何進(jìn)行全面轉(zhuǎn)型?

    華為接下來的動(dòng)作可能是這家公司在AI領(lǐng)域最大的投入:發(fā)布華為數(shù)據(jù)中心AI芯片,并跟國(guó)際巨頭達(dá)成合作;推出類似TensorFlow、Caffe、PaddlePaddle的深度
    發(fā)表于 09-11 11:51

    華為FPGA加速服務(wù)器如何加速讓硬件應(yīng)用高效上

    華為FPGA加速服務(wù)器讓“硬用”上成為新增長(zhǎng)點(diǎn)隨著通信和互聯(lián)網(wǎng)產(chǎn)業(yè)的快速發(fā)展,F(xiàn)PGA作為高性能計(jì)算加速器在大數(shù)據(jù)、
    發(fā)表于 10-22 07:12

    【福利活動(dòng)】深度體驗(yàn)OpenHarmony對(duì)接華為IoT

    本文主要介紹基于OpenHarmony 3.0來接入IoTDA,以BearPi-HM_Nano開發(fā)板為例,使用huaweicloud_iot_link SDK對(duì)接華為物聯(lián)網(wǎng)平臺(tái)的簡(jiǎn)單流程。文末為
    發(fā)表于 07-28 10:55

    首款基于FPGA的原創(chuàng)深度學(xué)習(xí)語音識(shí)別加速解決方案面世,深鑒引領(lǐng)FPGA加速市場(chǎng)

    高效語音識(shí)別引擎。該方案在亞馬遜AWS發(fā)布之后,迅速移植上線國(guó)內(nèi)公有市場(chǎng)。以語音識(shí)別為應(yīng)用載體,對(duì)AI類應(yīng)用推理計(jì)算進(jìn)行全面加速。成為目前國(guó)內(nèi)公有市場(chǎng)上,首款基于FPGA平臺(tái)的原創(chuàng)深度
    發(fā)表于 07-27 14:25 ?1984次閱讀

    華為刷新深度學(xué)習(xí)加速紀(jì)錄

    華為ModelArts在國(guó)際權(quán)威的深度學(xué)習(xí)模型基準(zhǔn)測(cè)試平臺(tái)斯坦福DAWNBenchmark上取得了當(dāng)前圖像識(shí)別訓(xùn)練時(shí)間最佳成績(jī),ResNet-50在ImageNet數(shù)據(jù)集上收斂?jī)H用1
    的頭像 發(fā)表于 12-03 10:29 ?3283次閱讀

    深度學(xué)習(xí)模型壓縮與加速綜述

    更好的性能,但是高額的存儲(chǔ)空間、計(jì)算資源消耗是使其難以有效的應(yīng)用在各硬件平臺(tái)上的重要原因。所以,卷積神經(jīng)網(wǎng)絡(luò)日益增長(zhǎng)的深度和尺寸為深度學(xué)習(xí)在移動(dòng)端的部署帶來了巨大的挑戰(zhàn),深度
    的頭像 發(fā)表于 06-08 17:26 ?5581次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>模型壓縮與<b class='flag-5'>加速</b>綜述

    微軟推出基于FPGA的深度學(xué)習(xí)加速平臺(tái)

    微軟團(tuán)隊(duì)推出了一個(gè)新的深度學(xué)習(xí)加速平臺(tái),其代號(hào)為腦波計(jì)劃(Project Brainwave),機(jī)器之心將簡(jiǎn)要介紹該計(jì)劃。
    發(fā)表于 09-03 14:36 ?2126次閱讀

    FPGA做深度學(xué)習(xí)加速的技能總結(jié)

    深度學(xué)習(xí)加速器已經(jīng)兩年了,從RTL設(shè)計(jì)到仿真驗(yàn)證,以及相應(yīng)的去了解了Linux驅(qū)動(dòng),深度學(xué)習(xí)壓縮方法等等。
    的頭像 發(fā)表于 03-08 16:29 ?9222次閱讀
    FPGA做<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>加速</b>的技能總結(jié)

    機(jī)器學(xué)習(xí)深度學(xué)習(xí)什么區(qū)別?

    深度學(xué)習(xí)算法現(xiàn)在是圖像處理軟件庫的組成部分。在他們的幫助下,可以學(xué)習(xí)和訓(xùn)練復(fù)雜的功能;但他們的應(yīng)用也不是萬能的。 “機(jī)器學(xué)習(xí)”和“深度
    的頭像 發(fā)表于 03-12 16:11 ?8600次閱讀
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>和<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>有</b>什么區(qū)別?

    基于AdderNet的深度學(xué)習(xí)推理加速

    電子發(fā)燒友網(wǎng)站提供《基于AdderNet的深度學(xué)習(xí)推理加速器.zip》資料免費(fèi)下載
    發(fā)表于 10-31 11:12 ?0次下載
    基于AdderNet的<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>推理<b class='flag-5'>加速</b>器

    基于深度學(xué)習(xí)的點(diǎn)分割的方法介紹

      摘 要:點(diǎn)分割是點(diǎn)數(shù)據(jù)理解中的一個(gè)關(guān)鍵技術(shù),但傳統(tǒng)算法無法進(jìn)行實(shí)時(shí)語義分割。近年來深度學(xué)習(xí)被應(yīng)用在點(diǎn)分割上并取得了重要進(jìn)展。綜述了
    發(fā)表于 07-20 15:23 ?3次下載

    深度學(xué)習(xí)算法簡(jiǎn)介 深度學(xué)習(xí)算法是什么 深度學(xué)習(xí)算法哪些

    深度學(xué)習(xí)算法簡(jiǎn)介 深度學(xué)習(xí)算法是什么?深度學(xué)習(xí)算法
    的頭像 發(fā)表于 08-17 16:02 ?9888次閱讀

    深度學(xué)習(xí)GPU加速效果如何

    圖形處理器(GPU)憑借其強(qiáng)大的并行計(jì)算能力,成為加速深度學(xué)習(xí)任務(wù)的理想選擇。
    的頭像 發(fā)表于 10-17 10:07 ?626次閱讀

    FPGA加速深度學(xué)習(xí)模型的案例

    FPGA(現(xiàn)場(chǎng)可編程門陣列)加速深度學(xué)習(xí)模型是當(dāng)前硬件加速領(lǐng)域的一個(gè)熱門研究方向。以下是一些FPGA加速
    的頭像 發(fā)表于 10-25 09:22 ?1248次閱讀