99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

MapReduce和Spark概要介紹

RG15206629988 ? 來源:行業(yè)學(xué)習(xí)與研究 ? 2023-03-20 09:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一、MapReduce

(1)MapReduce概要介紹

MapReduce是一種編程模型,可用于大規(guī)模數(shù)據(jù)集(數(shù)據(jù)量大于1TB的數(shù)據(jù)集)的并行運(yùn)算(根據(jù)百度百科:并行運(yùn)算是一種一次可執(zhí)行多個(gè)指令的算法,可提高計(jì)算速度)。MapReduce可使程序的并行運(yùn)算更加簡(jiǎn)單。

Map(映射)是于各個(gè)節(jié)點(diǎn)對(duì)本地?cái)?shù)據(jù)的預(yù)處理操作。 Reduce(歸約)是將Map預(yù)處理操作后的數(shù)據(jù)匯總。Reduce可使編程人員不必關(guān)心如何實(shí)現(xiàn)分布式并行程序,基于Reduce,編程人員可只關(guān)注業(yè)務(wù)數(shù)據(jù)處理。

(2)處理模型

MapReduce框架負(fù)責(zé)處理并行計(jì)算中的復(fù)雜問題,包括:分布式存儲(chǔ)、作業(yè)調(diào)度、負(fù)載均衡、容錯(cuò)處理、網(wǎng)絡(luò)通信等。

MapReduce的處理流程如圖一所示。

首先,數(shù)據(jù)在數(shù)據(jù)節(jié)點(diǎn)被劃分為數(shù)據(jù)塊(個(gè)人理解:數(shù)據(jù)塊即圖一中的split),MapReduce確定待處理的數(shù)據(jù)塊數(shù)量并確定每個(gè)記錄(個(gè)人理解:此處記錄可被理解關(guān)系數(shù)據(jù)庫的一行數(shù)據(jù))在數(shù)據(jù)塊中的位置;

然后,劃分后的數(shù)據(jù)塊作為Map的輸入;

再然后,Map的輸出數(shù)據(jù)需要經(jīng)過sort(個(gè)人理解:分類)、copy(個(gè)人理解:復(fù)制)、merge(個(gè)人理解:合并)操作成為Reduce的輸入,Reduce的輸入數(shù)據(jù)間沒有交集,系統(tǒng)中處于Reduce運(yùn)行的節(jié)點(diǎn)的數(shù)量等于merge操作后的數(shù)據(jù)數(shù)量;

最后,輸出Reduce運(yùn)行后的數(shù)據(jù)。

53e687fe-c521-11ed-bfe3-dac502259ad0.png

圖一,圖片來源:學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》

二、Spark

(1)Spark概要介紹

Spark是針對(duì)大規(guī)模數(shù)據(jù)處理的快速通用引擎,其功能是類似MapReduce的計(jì)算引擎。

(2)Spark的特點(diǎn)

1)計(jì)算速度快。Spark計(jì)算速度是Hadoop計(jì)算速度的一百倍。

2)可用性高。Spark可使用Java、Python、R、SQL等編程語言。

3)通用性。Spark由一系列解決處理復(fù)雜問題的組件構(gòu)成,可處理多種類型有關(guān)數(shù)據(jù)庫的復(fù)雜問題。

4)可運(yùn)行于多種環(huán)境中,運(yùn)行環(huán)境包括Hadoop等。

圖片來源:學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》

(3)Spark的體系架構(gòu)

1)Cluster Manager:Cluster Manager是主節(jié)點(diǎn),控制整個(gè)集群,監(jiān)控 Worker Node。

2)Worker Node:Worker Node是從節(jié)點(diǎn),負(fù)責(zé)控制計(jì)算節(jié)點(diǎn),啟動(dòng)Executor 或者Driver

3)Driver:運(yùn)行Application(個(gè)人理解:此處Application指某一應(yīng)用)的main()函數(shù)

4)Executor:為Application運(yùn)行Worker Node上的一個(gè)進(jìn)程。

549d286a-c521-11ed-bfe3-dac502259ad0.png

圖片來源:學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》

(4)RDD

RDD(Resilient Distributed Dataset)被稱為彈性分布式數(shù)據(jù)集,利用SparkContext實(shí)例(根據(jù)網(wǎng)絡(luò)資料理解:每個(gè)SparkContext實(shí)例是Spark的一個(gè)應(yīng)用)創(chuàng)建的對(duì)象均為RDD。RDD是不可變、可分區(qū)、其內(nèi)部元素可并行計(jì)算的集合,數(shù)據(jù)可在RDD中運(yùn)行RDD的自有函數(shù)。

RDD的函數(shù)被稱為RDD算子,RDD算子分為Transformation和Action兩種類型。Transformation具有類似于MapReduce的功能,Action的功能包括:觸發(fā)RDD計(jì)算、統(tǒng)計(jì)RDD元素個(gè)數(shù)等。

RDD的特點(diǎn)包括:自動(dòng)容錯(cuò)、位置感知性調(diào)度、可伸縮性(個(gè)人理解:數(shù)據(jù)量的多少對(duì)RDD的運(yùn)行影響較?。?、可在已有RDD的基礎(chǔ)上創(chuàng)建新的RDD、延遲執(zhí)行(延遲執(zhí)行即Transformation只有在Action被觸發(fā)后才執(zhí)行)。

另外,RDD允許用戶在執(zhí)行多個(gè)查詢時(shí)可將工作集緩存在內(nèi)存中,后續(xù)的查詢可重用工作集,可提升查詢速度。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • SQL
    SQL
    +關(guān)注

    關(guān)注

    1

    文章

    783

    瀏覽量

    44990
  • 編程語言
    +關(guān)注

    關(guān)注

    10

    文章

    1955

    瀏覽量

    36444
  • RDD
    RDD
    +關(guān)注

    關(guān)注

    0

    文章

    7

    瀏覽量

    8092
  • SPARK
    +關(guān)注

    關(guān)注

    1

    文章

    106

    瀏覽量

    20525
  • MapReduce
    +關(guān)注

    關(guān)注

    0

    文章

    45

    瀏覽量

    6554

原文標(biāo)題:大數(shù)據(jù)相關(guān)介紹(22)——MapReduce和Spark

文章出處:【微信號(hào):行業(yè)學(xué)習(xí)與研究,微信公眾號(hào):行業(yè)學(xué)習(xí)與研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    CMOS超大規(guī)模集成電路制造工藝流程的基礎(chǔ)知識(shí)

    本節(jié)將介紹 CMOS 超大規(guī)模集成電路制造工藝流程的基礎(chǔ)知識(shí),重點(diǎn)將放在工藝流程的概要和不同工藝步驟對(duì)器件及電路性能的影響上。
    的頭像 發(fā)表于 06-04 15:01 ?613次閱讀
    CMOS超大規(guī)模集成電路制造工藝流程的基礎(chǔ)知識(shí)

    NVIDIA發(fā)布AI優(yōu)先DGX個(gè)人計(jì)算系統(tǒng)

    NVIDIA 宣布,多家行業(yè)領(lǐng)先系統(tǒng)制造商將打造 NVIDIA DGX Spark。
    的頭像 發(fā)表于 05-22 09:39 ?259次閱讀

    NVIDIA加速的Apache Spark助力企業(yè)節(jié)省大量成本

    隨著 NVIDIA 推出 Aether 項(xiàng)目,通過采用 NVIDIA 加速的 Apache Spark 企業(yè)得以自動(dòng)加速其數(shù)據(jù)中心規(guī)模的分析工作負(fù)載,從而節(jié)省數(shù)百萬美元。
    的頭像 發(fā)表于 03-25 15:09 ?509次閱讀
    NVIDIA加速的Apache <b class='flag-5'>Spark</b>助力企業(yè)節(jié)省大量成本

    CAN通信協(xié)議——中文版

    資料介紹: 本資料是面向 CAN 總線初學(xué)者的 CAN 入門書。對(duì) CAN 是什么、CAN 的特征、標(biāo)準(zhǔn)規(guī)格下的位置分布等、 CAN 的概要及 CAN 的協(xié)議進(jìn)行了說明。 純分享貼,有需要可以直接下載附件獲取完整資料! (如果內(nèi)容有幫助可以關(guān)注、點(diǎn)贊、評(píng)論支持一下
    發(fā)表于 03-22 15:27

    NVIDIA GTC2025 亮點(diǎn) NVIDIA推出 DGX Spark個(gè)人AI計(jì)算機(jī)

    和聯(lián)想)提供。 NVIDIA 發(fā)布了由 NVIDIA Grace Blackwell 平臺(tái)驅(qū)動(dòng)的 DGX 個(gè)人 AI 超級(jí)計(jì)算機(jī)。 DGX Spark(前身為 Project DIGITS)支持 AI
    的頭像 發(fā)表于 03-20 18:59 ?858次閱讀
    NVIDIA GTC2025 亮點(diǎn)  NVIDIA推出 DGX <b class='flag-5'>Spark</b>個(gè)人AI計(jì)算機(jī)

    NVIDIA 宣布推出 DGX Spark 個(gè)人 AI 計(jì)算機(jī)

    的 DGX? 個(gè)人 AI 超級(jí)計(jì)算機(jī)。 ? DGX Spark(前身為 Project DIGITS)支持 AI 開發(fā)者、研究人員、數(shù)據(jù)科學(xué)家和學(xué)生,在臺(tái)式電腦上對(duì)大模型進(jìn)行原型設(shè)計(jì)、微調(diào)和推理。用
    發(fā)表于 03-19 09:59 ?314次閱讀
       NVIDIA 宣布推出 DGX <b class='flag-5'>Spark</b> 個(gè)人 AI 計(jì)算機(jī)

    元戎啟行最新戰(zhàn)略RoadAGI:所有移動(dòng)智能體都將被AI驅(qū)動(dòng)

    人工智能平臺(tái)——AI Spark(以下簡(jiǎn)稱"Spark平臺(tái)")。 ? *元戎啟行的RoadAGI戰(zhàn)略 ? RoadAGI是元戎啟行實(shí)現(xiàn)物理世界通用人工智能的關(guān)鍵一步,旨在讓包括智能駕駛汽車在內(nèi)的移動(dòng)智能體,都具有在道路上自主行駛、與物理世界深度交互的能力。其中,
    發(fā)表于 03-18 15:14 ?257次閱讀
    元戎啟行最新戰(zhàn)略RoadAGI:所有移動(dòng)智能體都將被AI驅(qū)動(dòng)

    SHA105概要數(shù)據(jù)手冊(cè)

    電子發(fā)燒友網(wǎng)站提供《SHA105概要數(shù)據(jù)手冊(cè).pdf》資料免費(fèi)下載
    發(fā)表于 01-21 14:33 ?0次下載
    SHA105<b class='flag-5'>概要</b>數(shù)據(jù)手冊(cè)

    SHA106概要數(shù)據(jù)手冊(cè)

    電子發(fā)燒友網(wǎng)站提供《SHA106概要數(shù)據(jù)手冊(cè).pdf》資料免費(fèi)下載
    發(fā)表于 01-21 14:31 ?0次下載
    SHA106<b class='flag-5'>概要</b>數(shù)據(jù)手冊(cè)

    ECC206概要數(shù)據(jù)手冊(cè)

    電子發(fā)燒友網(wǎng)站提供《ECC206概要數(shù)據(jù)手冊(cè).pdf》資料免費(fèi)下載
    發(fā)表于 01-21 14:05 ?0次下載
    ECC206<b class='flag-5'>概要</b>數(shù)據(jù)手冊(cè)

    IEEE2030.5概要

    IEEE 2030.5IEEE 2030.5(Smart Energy Profile 2.0,SEP2)是一種智慧能源管理通信協(xié)議,最早由ZigBee聯(lián)盟開發(fā)。2013年IEEE在SEP2基礎(chǔ)上開發(fā)了IEEE2030.5。IEEE2030.5是一個(gè)應(yīng)用層協(xié)議,支持TCP/IP。IEEE2030.5支持多種物理層接口如WIFI, HomePlug, ZigBee等。IEEE2030.5具有良好的互操作性。 IEEE 2030.5 CSIP加州 Rule 21 從Phase 2開始規(guī)定:電網(wǎng)運(yùn)營商和分布式能源之間互操作需要通信支持,以保障公用事業(yè)單位能夠遠(yuǎn)程管理和控制分布式能源。加州 Rule 21規(guī)定采用IEEE2030.5協(xié)議進(jìn)行通信。IEEE2030.5 CSIP為采用IEEE230.5的詳細(xì)實(shí)施指南。SunSpec Alliance負(fù)責(zé)CA Rule 21 Certification Program,即IEEE2030.5 CSIP實(shí)施指南的認(rèn)證。
    的頭像 發(fā)表于 11-21 14:44 ?1335次閱讀
    IEEE2030.5<b class='flag-5'>概要</b>

    數(shù)據(jù)采集模塊設(shè)計(jì)概要

    ADC(數(shù)模轉(zhuǎn)換器)是一種廣泛應(yīng)用于商業(yè)、工業(yè)、醫(yī)療、通訊等多種領(lǐng)域的混合集成電路芯片,在各種設(shè)備中充當(dāng)了模擬世界和數(shù)字世界之間必不可少的橋梁。ADC 確保了模擬信號(hào)能夠被各類感知、測(cè)量與控制系統(tǒng)有效地監(jiān)測(cè)、控制和處理。我們常通過各種傳感器來感知現(xiàn)實(shí)物理世界中各種的參數(shù),由前端傳感器將各種物理參數(shù)如流量、光強(qiáng)、姿態(tài)、加速度、距離、溫度、壓力等按照特定的函數(shù)關(guān)系轉(zhuǎn)換成電壓或者電流信號(hào),然后再由 ADC 器件將這些模擬量轉(zhuǎn)換成數(shù)字量。
    的頭像 發(fā)表于 10-31 16:52 ?1255次閱讀
    數(shù)據(jù)采集模塊設(shè)計(jì)<b class='flag-5'>概要</b>

    spark為什么比mapreduce快?

    spark為什么比mapreduce快? 首先澄清幾個(gè)誤區(qū): 1:兩者都是基于內(nèi)存計(jì)算的,任何計(jì)算框架都肯定是基于內(nèi)存的,所以網(wǎng)上說的spark是基于內(nèi)存計(jì)算所以快,顯然是錯(cuò)誤的 2;DAG計(jì)算模型
    的頭像 發(fā)表于 09-06 09:45 ?497次閱讀

    PGA309正常只校準(zhǔn)一個(gè)溫度點(diǎn)大概要多久時(shí)間呢?

    目前我采用的PGA309USB-EVM單個(gè)校準(zhǔn)壓力傳感器,我只校準(zhǔn)一個(gè)常溫25攝氏度的溫度,我發(fā)現(xiàn)校準(zhǔn)的時(shí)候全部過程都要跑一遍,這樣時(shí)間需要花費(fèi)幾分鐘(不需要等溫度達(dá)到25 的時(shí)間),請(qǐng)問正常只校準(zhǔn)一個(gè)溫度點(diǎn)大概要多久時(shí)間呢?盼回復(fù)。感謝!
    發(fā)表于 08-16 07:13

    廣汽能源與泰國Spark EV簽訂合作框架協(xié)議

    近日,廣汽能源科技(泰國)有限公司與Spark EV Co.Ltd.宣布達(dá)成重要合作,雙方共同簽署了一項(xiàng)合作框架協(xié)議,旨在泰國境內(nèi)全面布局并運(yùn)營超級(jí)充電場(chǎng)站,為新能源汽車的普及與發(fā)展注入強(qiáng)勁動(dòng)力。
    的頭像 發(fā)表于 07-19 17:08 ?1115次閱讀