99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解析DeepSeek MoE并行計(jì)算優(yōu)化策略

奇異摩爾 ? 來源:奇異摩爾 ? 2025-02-07 09:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本期Kiwi Talks將從集群Scale Up互聯(lián)的需求出發(fā),解析DeepSeek在張量并行及MoE專家并行方面采用的優(yōu)化策略。DeepSeek大模型的工程優(yōu)化以及國(guó)產(chǎn)AI 產(chǎn)業(yè)鏈的開源與快速部署預(yù)示著國(guó)產(chǎn)AI網(wǎng)絡(luò)自主自控將大有可為。

DeepSeekMoE架構(gòu)融合了專家混合系統(tǒng)(MoE)、多頭注意力機(jī)制(Multi-Head Latent Attention, MLA)和RMSNorm三個(gè)核心組件。通過專家共享機(jī)制、動(dòng)態(tài)路由算法等緩存技術(shù),該模型在保持性能水平的同時(shí),實(shí)現(xiàn)了相較傳統(tǒng)MoE模型40%的計(jì)算開銷降低。該技術(shù)在模型規(guī)模與計(jì)算效率之間找到了新的平衡點(diǎn),其在降低計(jì)算成本的同時(shí)保持了領(lǐng)先的性能水平,為大規(guī)模AI系統(tǒng)的可持續(xù)發(fā)展提供了新的思路。

92903a80-e46a-11ef-9310-92fbcf53809c.png

(來源:DeepSeek-V3 Technical Report) Scale Up互聯(lián)源頭:張量并行與專家并行

Scale Up互聯(lián)需求源頭:張量并行與專家并行

在大規(guī)模 AI 訓(xùn)練中,GPU 通常使用各種并行技術(shù)協(xié)同工作。其中張量并行是指將大型張量分散到多個(gè) GPU 上進(jìn)行計(jì)算,這種技術(shù)對(duì)互聯(lián)帶寬和時(shí)延特別敏感。

92b7e67a-e46a-11ef-9310-92fbcf53809c.png

(來源:Semi analysis) 簡(jiǎn)單來說,張量是人工智能模型中用來表示輸入、權(quán)重和中間計(jì)算的基本數(shù)據(jù)結(jié)構(gòu)。在訓(xùn)練大型 AI 模型時(shí),這些張量可能會(huì)變得非常龐大,以至于無法放入單個(gè) GPU 的內(nèi)存中。為了解決這個(gè)問題,張量被拆分到多個(gè) GPU 上,每個(gè) GPU 處理一部分張量。這種劃分允許模型跨多個(gè) GPU 擴(kuò)展,從而能夠訓(xùn)練比原本更大的模型。然而,分割張量需要 GPU 之間頻繁通信以同步計(jì)算并共享結(jié)果。這時(shí)互聯(lián)速度就變得至關(guān)重要。

92d30446-e46a-11ef-9310-92fbcf53809c.png

(來源:Deepgram.com)

另一方面,MoE模型本身適合大規(guī)模、復(fù)雜任務(wù)、計(jì)算效率要求高且訓(xùn)練復(fù)雜程度高。DeepSeek MoE多模態(tài)模型涉及專家并行,它將復(fù)雜的模型分解為多個(gè)專家模型,并在這些專家模型之間進(jìn)行并行計(jì)算。在專家并行中,不同GPU負(fù)責(zé)不同的專家模型,同時(shí)Attention模塊在每個(gè)GPU上復(fù)制,由于每個(gè)專家模型需要單獨(dú)加載數(shù)據(jù),因此對(duì)每個(gè)token施加了額外的內(nèi)存帶寬需求。此外專家并行需要網(wǎng)絡(luò)支持高并發(fā)、有效的負(fù)載均衡機(jī)制以及故障容錯(cuò)性等一系列復(fù)雜需求。

因此在Scale-up網(wǎng)絡(luò)中,張量并行和專家并行的策略對(duì)于大模型訓(xùn)推的效率至關(guān)重要,也是AI網(wǎng)絡(luò)互聯(lián)網(wǎng)絡(luò)帶寬(TB級(jí))和極低時(shí)延需求的源頭。

H800 中 NVLink 帶寬的降低會(huì)減慢此階段 GPU 之間的通信速度,從而導(dǎo)致延遲增加并降低整體訓(xùn)練效率。在涉及具有數(shù)十億個(gè)參數(shù)的大型模型的場(chǎng)景中,這種瓶頸變得更加明顯,因?yàn)?GPU 之間需要頻繁通信來同步張量并行和專家并行。

在并行策略上,DeepSeek-V3使用64路的專家并行,16路的流水線并行,以及數(shù)據(jù)并行(ZeRO1)。其中,專家并行會(huì)引入all-to-all通信,由于每個(gè)token會(huì)激活8個(gè)專家,這導(dǎo)致跨節(jié)點(diǎn)的all-to-all通信開銷成為主要的系統(tǒng)瓶頸。

那么DeepSeek是如何通過算法工程優(yōu)化來解決這些瓶頸并提升大模型訓(xùn)推效率?

DeepSeek V3集群互聯(lián)框架概述

從DeepSeek公開的論文中數(shù)據(jù)來看: Scale Inside單個(gè)芯片使用英偉達(dá)H800,共計(jì)2048張計(jì)算卡。集群組網(wǎng)使用Infiniband網(wǎng)絡(luò),Scale Up每個(gè)節(jié)點(diǎn)內(nèi)通過NVLink互聯(lián)。GPU之間的帶寬是160GB,節(jié)點(diǎn)之間的帶寬是50GB。Scale Out網(wǎng)絡(luò)據(jù)推測(cè),每個(gè)節(jié)點(diǎn)包含8個(gè)400Gb/s的智能網(wǎng)卡(H100/H800 上后向網(wǎng)絡(luò)通常都會(huì)采用 400 Gb/s網(wǎng)卡)。

路由優(yōu)化策略降低TP開銷

在其公布的V3技術(shù)論文中所提及網(wǎng)絡(luò)集群中路由的優(yōu)化策略:跨節(jié)點(diǎn) GPU 與 IB 完全互連,節(jié)點(diǎn)內(nèi)通信通過 NVLink 處理。NVLink 提供 160 GB/s 帶寬,大約是 IB(50 GB/s)的 3.2倍。為了有效利用IB和NVlink的帶寬差異,DeepSeek限制每個(gè)token最多分派到4個(gè)GPU節(jié)點(diǎn),從而限制IB網(wǎng)絡(luò)的傳輸流量。當(dāng)網(wǎng)絡(luò)路由決策確定后,它將首先通過IB傳輸?shù)侥繕?biāo)節(jié)點(diǎn)上具有相同節(jié)點(diǎn)內(nèi)索引的GPU。一旦到達(dá)目標(biāo)節(jié)點(diǎn),努力確保它通過NVLink瞬時(shí)轉(zhuǎn)發(fā)到托管其目標(biāo)專家的特定GPU,而不被隨后到達(dá)的token阻塞。這樣,通過IB和NVLink的通信完全重疊,每個(gè)token可以高效地在每個(gè)節(jié)點(diǎn)上選擇平均3.2個(gè)專家,而不會(huì)產(chǎn)生來自NVLink的額外開銷。這意味著,盡管DeepSeek-V3在實(shí)際中只選擇8個(gè)路由專家,但它可以將其數(shù)量擴(kuò)大到最多13個(gè)專家(4個(gè)節(jié)點(diǎn)×每個(gè)節(jié)點(diǎn)3.2個(gè)專家),同時(shí)保持相同的通信成本。

92ed9022-e46a-11ef-9310-92fbcf53809c.png

(來源:公眾號(hào)AI閑談)

這樣做是因?yàn)楦咝阅?GPU 訓(xùn)練集群往往會(huì)采用軌道優(yōu)化,同號(hào) GPU 在一個(gè) Leaf Switch 下,如上圖所示,因此可以利用高速的 NVLink 來代替從 Leaf Switch 到 Spine Switch 的流量,從而降低 IB 通信時(shí)延,并且減少 Leaf Switch 和 Spine Switch 之間的流量??傮w而言,在這種通信策略下,僅20個(gè)SM就足以充分利用IB和NVLink的帶寬,這種路由的優(yōu)化策略達(dá)到了減少?gòu)埩坎⑿型ㄐ砰_銷的目的。

FP8與冗余專家技術(shù)減少M(fèi)oE內(nèi)存與通信開銷

92f9d792-e46a-11ef-9310-92fbcf53809c.png

(來源:DeepSeek-V3 Technical Report)

為了進(jìn)一步減少M(fèi)oE訓(xùn)練中的內(nèi)存和通信開銷,DeepSeek在FP8中緩存和分發(fā)激活值,同時(shí)以BF16存儲(chǔ)低精度優(yōu)化器狀態(tài)。在兩個(gè)與DeepSeek-V2-Lite和DeepSeek-V2相似規(guī)模的模型上驗(yàn)證了提出的FP8混合精度框架,訓(xùn)練了大約1萬億個(gè)Token。這一設(shè)計(jì)理論上使計(jì)算速度較原 BF16 方法提升一倍。此外,F(xiàn)P8 Wgrad GEMM 允許激活值以 FP8 存儲(chǔ),供 Backward 使用,從而顯著降低內(nèi)存消耗。

93088436-e46a-11ef-9310-92fbcf53809c.png

(來源:DeepSeek-V3 Technical Report)

為了在MoE部分的不同專家間實(shí)現(xiàn)負(fù)載均衡,需要確保每個(gè)GPU處理大概相同數(shù)量的Token。DeepSeek MoE引入了冗余專家部署策略,對(duì)高負(fù)載專家并行進(jìn)行復(fù)制并冗余部署。根據(jù)在線服務(wù)中的專家負(fù)載統(tǒng)計(jì)信息,在一定間隔內(nèi)定期確定冗余專家集,通過探索解碼階段的動(dòng)態(tài)冗余策略優(yōu)化各GPU負(fù)載,減少all-to-all通信開銷。在實(shí)際處理大規(guī)模文本生成任務(wù)時(shí),DeepSeek MoE可以通過動(dòng)態(tài)分配專家資源,實(shí)現(xiàn)高效的文本生成,而不需要像傳統(tǒng)模型那樣進(jìn)行大規(guī)模的全模型計(jì)算。

DeepSeek MLA KV Cache壓縮優(yōu)化

Multi-Head Latent Attention (MLA) 是 DeepSeek-V3 模型中用于高效推理的核心注意力機(jī)制。MLA 通過低秩聯(lián)合壓縮技術(shù),減少了推理時(shí)的鍵值(KV)緩存,從而在保持性能的同時(shí)顯著降低了內(nèi)存占用。這類創(chuàng)新技術(shù)一方面減少了KV緩存的需求,加快了數(shù)據(jù)訪問速度,從而全面提升了模型的推理速度。

KV緩存技術(shù)注解:

大語言模型通常是通常自回歸的方式產(chǎn)生輸出序列,后序生成的詞塊依賴與前序的所有詞塊,這些詞塊包括輸入的詞塊以及前面已經(jīng)生成的詞塊。因此隨著輸出序列的增長(zhǎng),推理過程的開銷顯著增大。為了解決上述問題,KV Cache的技術(shù)被提出,該技術(shù)通過存儲(chǔ)和復(fù)用前序Token產(chǎn)生的Key值和Value值,極大減少了計(jì)算上的冗余,用存儲(chǔ)開銷換取顯著的加速效果,但同時(shí)增加的存儲(chǔ)開銷和帶寬需求也對(duì)AI Data Center的設(shè)計(jì)提出了挑戰(zhàn)。

國(guó)產(chǎn)AI網(wǎng)絡(luò)自主自控未來可期

DeepSeek 模型的成功預(yù)示著AI大模型系統(tǒng)驗(yàn)證了新的Scaling Law,AI能力邊界將引來新一輪的擴(kuò)張。在全球地緣政治日趨復(fù)雜的背景下,構(gòu)建國(guó)產(chǎn)算力閉環(huán)系統(tǒng)已成為當(dāng)務(wù)之急。然而,算力芯片始終是大模型系統(tǒng)算力的堅(jiān)實(shí)基石。 DeepSeek憑借其開源和低成本的優(yōu)勢(shì),將顯著提升國(guó)產(chǎn)GPU在推理任務(wù)中的性價(jià)比和ROI。近期,眾多GPU廠商和云服務(wù)提供商紛紛宣布已完成與DeepSeek的適配部署,為國(guó)產(chǎn)AI產(chǎn)業(yè)的蓬勃發(fā)展注入了強(qiáng)勁動(dòng)力。

目前,Scale Up網(wǎng)絡(luò)受限于PCIe總線的速率,僅支持傳統(tǒng)的八卡GPU互聯(lián)。而基于私有協(xié)議的GPU超帶寬域,由于缺乏成熟的生態(tài)產(chǎn)業(yè)鏈支持,難以實(shí)現(xiàn)大規(guī)模集群的高性能互聯(lián)。DeepSeek模型的出現(xiàn),預(yù)示著國(guó)產(chǎn)芯片將在其引領(lǐng)的AI大模型新紀(jì)元中迎來廣泛機(jī)遇。

在這一背景下,作為助力國(guó)產(chǎn)GPU 實(shí)現(xiàn)自主自控的參與者,奇異摩爾自研的網(wǎng)絡(luò)加速芯粒GPU Link Chiplet——NDSA-G2G,以其極高的靈活性和可擴(kuò)展性為Scale-up互聯(lián)生態(tài)提供了強(qiáng)有力的支撐。NDSA -G2G以IO Chiplet芯粒形式集成在GPU加速卡內(nèi),并利用UCIe D2D接口與GPU互聯(lián),NDSA-G2G能夠?qū)崿F(xiàn)高性能的數(shù)據(jù)流,從而全面加速分布式計(jì)算網(wǎng)絡(luò),最終實(shí)現(xiàn)TB級(jí)別的GPU互聯(lián)。

奇異摩爾作為國(guó)產(chǎn)AI網(wǎng)絡(luò)生態(tài)鏈的一份子,將持續(xù)與大模型廠商、運(yùn)營(yíng)商/云廠商及國(guó)產(chǎn)GPU廠商共同探索AI系統(tǒng)的優(yōu)化潛力,持續(xù)推動(dòng)生態(tài)適配工作,為國(guó)產(chǎn)AI早日實(shí)現(xiàn)算力閉環(huán)、邁向自主自控新紀(jì)元貢獻(xiàn)堅(jiān)實(shí)力量。

關(guān)于我們

AI網(wǎng)絡(luò)全棧式互聯(lián)架構(gòu)產(chǎn)品及解決方案提供商

奇異摩爾,成立于2021年初,是一家行業(yè)領(lǐng)先的AI網(wǎng)絡(luò)全棧式互聯(lián)產(chǎn)品及解決方案提供商。公司依托于先進(jìn)的高性能RDMA 和Chiplet技術(shù),創(chuàng)新性地構(gòu)建了統(tǒng)一互聯(lián)架構(gòu)——Kiwi Fabric,專為超大規(guī)模AI計(jì)算平臺(tái)量身打造,以滿足其對(duì)高性能互聯(lián)的嚴(yán)苛需求。我們的產(chǎn)品線豐富而全面,涵蓋了面向不同層次互聯(lián)需求的關(guān)鍵產(chǎn)品,如面向北向Scale out網(wǎng)絡(luò)的AI原生智能網(wǎng)卡、面向南向Scale up網(wǎng)絡(luò)的GPU片間互聯(lián)芯粒、以及面向芯片內(nèi)算力擴(kuò)展的2.5D/3D IO Die和UCIe Die2Die IP等。這些產(chǎn)品共同構(gòu)成了全鏈路互聯(lián)解決方案,為AI計(jì)算提供了堅(jiān)實(shí)的支撐。

奇異摩爾的核心團(tuán)隊(duì)匯聚了來自全球半導(dǎo)體行業(yè)巨頭如NXP、Intel、Broadcom等公司的精英,他們憑借豐富的AI互聯(lián)產(chǎn)品研發(fā)和管理經(jīng)驗(yàn),致力于推動(dòng)技術(shù)創(chuàng)新和業(yè)務(wù)發(fā)展。團(tuán)隊(duì)擁有超過50個(gè)高性能網(wǎng)絡(luò)及Chiplet量產(chǎn)項(xiàng)目的經(jīng)驗(yàn),為公司的產(chǎn)品和服務(wù)提供了強(qiáng)有力的技術(shù)保障。我們的使命是支持一個(gè)更具創(chuàng)造力的芯世界,愿景是讓計(jì)算變得簡(jiǎn)單。奇異摩爾以創(chuàng)新為驅(qū)動(dòng)力,技術(shù)探索新場(chǎng)景,生態(tài)構(gòu)建新的半導(dǎo)體格局,為高性能AI計(jì)算奠定穩(wěn)固的基石。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 并行計(jì)算
    +關(guān)注

    關(guān)注

    0

    文章

    29

    瀏覽量

    9614
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3146

    瀏覽量

    4076
  • DeepSeek
    +關(guān)注

    關(guān)注

    1

    文章

    798

    瀏覽量

    1760

原文標(biāo)題:Kiwi Talks | 解析DeepSeek MoE并行計(jì)算優(yōu)化策略 國(guó)產(chǎn)AI網(wǎng)絡(luò)自主自控大有可為

文章出處:【微信號(hào):奇異摩爾,微信公眾號(hào):奇異摩爾】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    arm系統(tǒng)中并行計(jì)算優(yōu)化

    fpga的硬件換成我們自己的arm設(shè)備。不過經(jīng)過研究這種設(shè)想不可行。個(gè)人看法,也許不對(duì)哦。?。。?!arm是一款多核心,單進(jìn)程處理器,目前為止arm處理器都不支持多線程。所以多線程概念不能將并行計(jì)算優(yōu)化
    發(fā)表于 12-30 14:33

    什么是異構(gòu)并行計(jì)算

    先了解什么是異構(gòu)并行計(jì)算同構(gòu)計(jì)算是使用相同類型指令集和體系架構(gòu)的計(jì)算單元組成系統(tǒng)的計(jì)算方式。而異構(gòu)計(jì)算主要是指使用不同類型指令集和體系架構(gòu)的
    發(fā)表于 07-19 08:27

    可擴(kuò)展并行計(jì)算技術(shù)、結(jié)構(gòu)與編程

    可擴(kuò)展并行計(jì)算技術(shù)、結(jié)構(gòu)與編程
    發(fā)表于 03-25 16:43 ?61次下載

    區(qū)域分解對(duì)氣象模式并行計(jì)算速度的影響

    通過數(shù)值試驗(yàn)分析了區(qū)域分解策略對(duì)ARPS 氣象模式并行計(jì)算速度的影響,發(fā)現(xiàn)無論是否使用編譯優(yōu)化技術(shù),均以分解后數(shù)據(jù)區(qū)域近似為正方形時(shí)具有最大的加速比和并行效率。在
    發(fā)表于 04-16 11:30 ?6次下載

    THE MATHWORKS推出新版并行計(jì)算工具箱

    THE MATHWORKS推出新版并行計(jì)算工具箱 The MathWorks 近日宣布推出新版 Parallel Computing Toolbox(并行計(jì)算工具箱),該版本提供了改進(jìn)的分布式數(shù)組,可以讓 MATLAB 用戶直接訪
    發(fā)表于 11-25 09:17 ?1181次閱讀

    并行計(jì)算和嵌入式系統(tǒng)實(shí)踐教程

    Linux微機(jī)應(yīng)用十分普遍. 高性能并行計(jì)算機(jī)數(shù)量多. 并行計(jì)算,我國(guó)有自己的理論. 對(duì)并行計(jì)算的基本原理,算法,程序設(shè)計(jì)與實(shí)現(xiàn),優(yōu)化,成熟軟件應(yīng)用的推廣不夠. 制約
    發(fā)表于 05-09 15:54 ?48次下載

    并行計(jì)算和分布式計(jì)算的區(qū)別和聯(lián)系

    并行計(jì)算或稱平行計(jì)算是相對(duì)于串行計(jì)算來說的。所謂并行計(jì)算可分為時(shí)間上的并行和空間上的并行。 時(shí)間
    發(fā)表于 12-08 09:59 ?3.8w次閱讀

    基于Matlab和GPU的BESO方法的全流程并行計(jì)算策略

    針對(duì)傳統(tǒng)并行計(jì)算方法實(shí)現(xiàn)結(jié)構(gòu)拓?fù)?b class='flag-5'>優(yōu)化快速計(jì)算的硬件成本高、程序開發(fā)效率低的問題,提出了一種基于Matlab和圖形處理器(GPU)的雙向漸進(jìn)結(jié)構(gòu)優(yōu)化(BESO)方法的全流程
    發(fā)表于 12-21 15:04 ?2次下載
    基于Matlab和GPU的BESO方法的全流程<b class='flag-5'>并行計(jì)算</b><b class='flag-5'>策略</b>

    基于異構(gòu)并行計(jì)算的兩個(gè)子概念異構(gòu)和并行的簡(jiǎn)單分析

    異構(gòu)并行計(jì)算包含兩個(gè)子概念:異構(gòu)和并行。 1異構(gòu)是指異構(gòu)并行計(jì)算需要同時(shí)處理多個(gè)不同架構(gòu)的計(jì)算平臺(tái)的問題。 2并行是指異構(gòu)
    的頭像 發(fā)表于 01-25 16:37 ?6843次閱讀
    基于異構(gòu)<b class='flag-5'>并行計(jì)算</b>的兩個(gè)子概念異構(gòu)和<b class='flag-5'>并行</b>的簡(jiǎn)單分析

    基于云計(jì)算的電磁問題并行計(jì)算方法

    針對(duì)電工裝備性能分析與優(yōu)化所需的易用高性能計(jì)算問題,使用云計(jì)算技術(shù)搭建了彈性集群,實(shí)現(xiàn)了典型電磁問題在彈性集群中的并行計(jì)算。使用虛擬化技術(shù)將計(jì)算
    發(fā)表于 03-20 13:56 ?1次下載
    基于云<b class='flag-5'>計(jì)算</b>的電磁問題<b class='flag-5'>并行計(jì)算</b>方法

    C編程的并行計(jì)算詳細(xì)資料說明

    在過去的幾十年間,人們對(duì)并行計(jì)算產(chǎn)生了越來越多的興趣。并行計(jì)算的主要目標(biāo)是提高運(yùn)算速度。從純粹的計(jì)算視角來看,并行計(jì)算可以被定義為計(jì)算的一種
    發(fā)表于 08-02 17:34 ?2次下載
    C編程的<b class='flag-5'>并行計(jì)算</b>詳細(xì)資料說明

    CUDA的異構(gòu)并行計(jì)算詳細(xì)資料介紹

    從程序員的角度來說,一個(gè)很自然的疑問,就是如何將并發(fā)計(jì)算映射到計(jì)算機(jī)上。假設(shè)你有許多計(jì)算資源,并行計(jì)算可以被定義為同時(shí)使用許多計(jì)算資源(核心
    發(fā)表于 07-04 17:41 ?0次下載
    CUDA的異構(gòu)<b class='flag-5'>并行計(jì)算</b>詳細(xì)資料介紹

    并行計(jì)算的黃金時(shí)代到了?

    “未來幾十年將進(jìn)入并行計(jì)算黃金時(shí)代,并行計(jì)算軟件和算法的開發(fā)將從技術(shù)驅(qū)動(dòng)轉(zhuǎn)向應(yīng)用驅(qū)動(dòng),需要計(jì)算與應(yīng)用等不同領(lǐng)域的專家共同合作開發(fā)?!敝袊?guó)工程院院士李國(guó)杰日前表示。
    的頭像 發(fā)表于 04-03 17:18 ?2520次閱讀

    淺析云計(jì)算并行計(jì)算

    并行計(jì)算可以劃分成時(shí)間并行和空間并行。時(shí)間并行即流水線技術(shù),空間并行使用多個(gè)處理器執(zhí)行并發(fā)計(jì)算,
    的頭像 發(fā)表于 05-03 12:01 ?4991次閱讀
    淺析云<b class='flag-5'>計(jì)算</b>和<b class='flag-5'>并行計(jì)算</b>

    xgboost的并行計(jì)算原理

    在大數(shù)據(jù)時(shí)代,機(jī)器學(xué)習(xí)算法需要處理的數(shù)據(jù)量日益增長(zhǎng)。為了提高數(shù)據(jù)處理的效率,許多算法都開始支持并行計(jì)算。XGBoost作為一種高效的梯度提升樹算法,其并行計(jì)算能力是其受歡迎的原因
    的頭像 發(fā)表于 01-19 11:17 ?1006次閱讀