99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

工業(yè)大數(shù)據(jù)處理領域的“網(wǎng)紅”——Apache Spark

格創(chuàng)東智 ? 2018-12-17 10:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

生活離不開水,同樣離不開數(shù)據(jù),我們被數(shù)據(jù)包圍,在數(shù)據(jù)中生活。當數(shù)據(jù)越來越多時,就成了大數(shù)據(jù)。


在“中國制造2025”的技術路線圖中,工業(yè)大數(shù)據(jù)是作為重要突破點來規(guī)劃的,而在未來的十年,以數(shù)據(jù)為核心構建的智能化體系會成為支撐智能制造和工業(yè)互聯(lián)網(wǎng)的核心動力。而想要理解大數(shù)據(jù),就需要理解大數(shù)據(jù)相關的查詢、處理、機器學習、圖計算和統(tǒng)計分析等。Apache Spark作為新一代輕量級大數(shù)據(jù)快速處理平臺,集成了大數(shù)據(jù)相關的各種能力,是理解大數(shù)據(jù)的首選。

簡單來講,Spark就是一個快速、通用的大規(guī)模數(shù)據(jù)處理引擎,各種不同的應用,如實時流處理、機器學習、交互式查詢等,都可以通過Spark 建立在不同的存儲和運行系統(tǒng)上。今天的格物匯,就帶大家來認識一下如日中天、高速發(fā)展的大數(shù)據(jù)處理明星——Spark。

1Spark發(fā)展歷程


  • 2009年,Spark誕生于伯克利大學AMPLab,最開初屬于伯克利大學的研究性項目,最開始Spark只是一個實驗性的項目,代碼量非常少,僅有3900行代碼左右,屬于輕量級的框架。

  • 2010年,伯克利大學正式開源了Spark項目

  • 2013年6月,Spark成為了Apache基金會下的項目,進入高速發(fā)展期,第三方開發(fā)者貢獻了大量的代碼,活躍度非常高。

  • 2014年2月,Spark以飛快的速度稱為了Apache的頂級項目。

  • 2014年5月底Spark1.0.0發(fā)布。

  • 2016年6月Spark2.0.0發(fā)布

  • 2018年11月 Spark2.4.0 發(fā)布


Spark作為Hadoop生態(tài)中重要的一員,其發(fā)展速度堪稱恐怖,從誕生到成為Apache頂級項目不到五年時間,不過在如今數(shù)據(jù)量飛速增長的環(huán)境與背景下,Spark作為高效的計算框架能收到如此大的關注也是有所依據(jù)的。

2Spark的特點


速度快

Spark通過使用先進的DAG調度器、查詢優(yōu)化器和物理執(zhí)行引擎,可以高性能地進行批量及流式處理。使用邏輯回歸算法進行迭代計算,Spark比Hadoop速度快100多倍。


簡單易用

Spark目前支持多種編程語言,比如Java、Scala、Python、R。熟悉其中任一門語言的都可以直接上手編寫Spark程序,非常方便。還支持超過80種高級算法,使用戶可以快速構建不同應用。并且Spark還支持交互式的Python和Scala的Shell,這意味著可以非常方便的在這些Shell中使用Spark集群來驗證解決問題的方法,而不是像以前一樣,需要打包、上傳集群、驗證等。這對于原型開發(fā)非常重要。


通用性高

Spark 目前主要由四大組件,如下:

  • Spark SQL:SQL on Hadoop,能夠提供交互式查詢和報表查詢,通過JDBC等接口調用;

  • Spark Streaming::流式計算引擎;

  • Spark MLlib:機器學習庫;

  • Spark GraphX:圖計算引擎。

擁有這四大組件,成功解決了大數(shù)據(jù)領域中,離線批處理、交互式查詢、實時流計算、機器學習與圖計算等最重要的任務和問題,這些不同類型的處理都可以在同一應用中無縫使用。Spark統(tǒng)一的解決方案非常具有吸引力,畢竟任何公司都想用統(tǒng)一的平臺處理問題,減少開發(fā)和維護的人力成本和部署平臺的物理成本。當然還有,作為統(tǒng)一的解決方案,Spark并沒有以犧牲性能為代價。相反,在性能方面Spark具有巨大優(yōu)勢。


可融合性

Spark可以運行在standalone、YARN、Mesos、Kubernetes及EC2多種調度平臺上。其中Standalone模式不依賴第三方的資源管理器和調度器,這樣降低了Spark的使用門檻,使得所有人可以非常容易地部署和使用Spark。

Spark可以處理所有Hadoop支持的數(shù)據(jù),包括HDFS、Apach HBase、Apach Kudu、Apach Cassanda等。這對于已部署Hadoop集群的用戶特別重要,因為不需要做任何數(shù)據(jù)遷移就可以使用Spark強大的處理能力。



3Spark相比MapReduce優(yōu)勢

Spark與MapReduce 同為計算框架,但作為后起之秀,Spark借鑒了MapReduce,并在其基礎上進行了改進,使得算法性能明顯優(yōu)于MapReduce,下面大致總結一下兩者差異:

1)Spark把運算的中間數(shù)據(jù)存放在內存,迭代計算效率更高;MapReduce的中間結果需要落地到磁盤,磁盤io操作多,影響性能。

2)Spark容錯性高,它通過Lineage機制實現(xiàn)RDD算子的高效容錯,某一部分丟失或者出錯,可以通過整個數(shù)據(jù)集的計算流程的血緣關系來實現(xiàn)重建;MapReduce的話容錯可能只能重新計算了,成本較高。

3)Spark更加通用,Spark提供了transformation和action這兩大類的多個功能算子,操作更為方便;MapReduce只提供了map和reduce兩種操作。

4)Spark框架和生態(tài)更為復雜,首先有RDD、血緣lineage、執(zhí)行時的有向無環(huán)圖DAG、stage劃分等等,很多時候spark作業(yè)都需要根據(jù)不同業(yè)務場景的需要進行調優(yōu)已達到性能要求;MapReduce框架及其生態(tài)相對較為簡單,對性能的要求也相對較弱,但是運行較為穩(wěn)定,適合長期后臺運行。

4Spark與工業(yè)互聯(lián)平臺


工業(yè)互聯(lián)網(wǎng)帶來了工業(yè)數(shù)據(jù)的快速發(fā)展,對于日益增加的海量數(shù)據(jù),傳統(tǒng)單機因本身的軟硬件限制無法應對海量數(shù)據(jù)的處理、分析以及深度挖掘,但作為分布式計算框架的Spark卻能輕松應付這些場景。在工業(yè)互聯(lián)網(wǎng)平臺上,Spark 既能快速實現(xiàn)工業(yè)現(xiàn)場海量流數(shù)據(jù)的處理轉換,又能輕松應對工業(yè)大數(shù)據(jù)平臺中海量數(shù)據(jù)的快速批處理分析,自身集成的機器學習框架能夠對海量工業(yè)數(shù)據(jù)進行深度挖掘分析,從而幫助管理者進行決策分析。


基于Spark框架自身的優(yōu)良設計理念以及社區(qū)的蓬勃發(fā)展狀態(tài),相信未來Spark會在工業(yè)互聯(lián)網(wǎng)平臺扮演越來越重要的角色。

本文作者:黃歡,格創(chuàng)東智大數(shù)據(jù)工程師 (轉載請注明來源及作者)



聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    京東工業(yè)大模型Joy industrial重磅發(fā)布

    京東工業(yè)多年深耕工業(yè)數(shù)智供應鏈領域形成的經(jīng)驗積累和數(shù)據(jù)沉淀,通過“工業(yè)大模型+供應鏈場景應用”雙引擎,構建從底層算力、算法、
    的頭像 發(fā)表于 05-28 17:12 ?461次閱讀

    NVIDIA加速的Apache Spark助力企業(yè)節(jié)省大量成本

    隨著 NVIDIA 推出 Aether 項目,通過采用 NVIDIA 加速的 Apache Spark 企業(yè)得以自動加速其數(shù)據(jù)中心規(guī)模的分析工作負載,從而節(jié)省數(shù)百萬美元。
    的頭像 發(fā)表于 03-25 15:09 ?538次閱讀
    NVIDIA加速的<b class='flag-5'>Apache</b> <b class='flag-5'>Spark</b>助力企業(yè)節(jié)省大量成本

    樹莓派5 + Hailo AI加速器:工業(yè)級數(shù)值數(shù)據(jù)處理實戰(zhàn),打通SQLite與機器學習全鏈路

    本文討論了在工業(yè)自動化背景下,開發(fā)者利用樹莓派5和HailoAI加速器進行工業(yè)級數(shù)值數(shù)據(jù)處理實戰(zhàn),打通SQLite與機器學習全鏈路時遇到的問題及解決方案。關鍵要點包括:1.開發(fā)者需求:構建能從
    的頭像 發(fā)表于 03-25 09:22 ?510次閱讀
    樹莓派5 + Hailo AI加速器:<b class='flag-5'>工業(yè)</b>級數(shù)值<b class='flag-5'>數(shù)據(jù)處理</b>實戰(zhàn),打通SQLite與機器學習全鏈路

    RAM容量不足導致的數(shù)據(jù)溢出如何預防和處理?

    在 STM32F411 中,RAM 容量是有限的,特別是在進行復雜的數(shù)據(jù)處理和存儲時,可能會遇到數(shù)據(jù)溢出問題。數(shù)據(jù)溢出是指程序運行時,數(shù)據(jù)超出了 RAM 的分配區(qū)域,導致程序崩潰或
    發(fā)表于 03-07 16:09

    Hadoop 生態(tài)系統(tǒng)在大數(shù)據(jù)處理中的應用與實踐

    隨著數(shù)據(jù)量的爆發(fā)式增長,大數(shù)據(jù)處理技術成為企業(yè)關注焦點,Hadoop 生態(tài)系統(tǒng)在其中扮演著核心角色。 Hadoop Distributed File System(HDFS)是其分布式文件存儲
    的頭像 發(fā)表于 01-21 17:48 ?416次閱讀

    康謀分享 | 如何應對ADAS/AD海量數(shù)據(jù)處理挑戰(zhàn)?

    如何有效處理ADAS/AD海量數(shù)據(jù)并從中獲得見解?IVEX數(shù)據(jù)處理流程可自動從原始傳感器數(shù)據(jù)等輸入中識別出值得關注的事件和場景,推動數(shù)據(jù)高效
    的頭像 發(fā)表于 12-25 10:05 ?3981次閱讀
    康謀分享 | 如何應對ADAS/AD海量<b class='flag-5'>數(shù)據(jù)處理</b>挑戰(zhàn)?

    緩存對大數(shù)據(jù)處理的影響分析

    緩存對大數(shù)據(jù)處理的影響顯著且重要,主要體現(xiàn)在以下幾個方面: 一、提高數(shù)據(jù)訪問速度 在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)存儲通常采用分布式存儲系統(tǒng),數(shù)據(jù)量龐大
    的頭像 發(fā)表于 12-18 09:45 ?772次閱讀

    cmp在數(shù)據(jù)處理中的應用 如何優(yōu)化cmp性能

    CMP在數(shù)據(jù)處理中的應用 CMP(并行處理)技術在數(shù)據(jù)處理領域扮演著越來越重要的角色。隨著數(shù)據(jù)量的爆炸性增長,傳統(tǒng)的串行
    的頭像 發(fā)表于 12-17 09:27 ?1157次閱讀

    上位機實時數(shù)據(jù)處理技術 上位機在智能制造中的應用

    。這種技術對于工業(yè)自動化、智能制造等領域至關重要。 在上位機實時數(shù)據(jù)處理中,關鍵技術包括數(shù)據(jù)采集、數(shù)據(jù)處理、
    的頭像 發(fā)表于 12-04 10:29 ?1447次閱讀

    eda中常用的數(shù)據(jù)處理方法

    探索性數(shù)據(jù)分析(EDA)是一種統(tǒng)計方法,用于使用統(tǒng)計圖表、圖形和計算來發(fā)現(xiàn)數(shù)據(jù)中的模式、趨勢和異常值。在進行EDA時,數(shù)據(jù)處理是至關重要的,因為它可以幫助我們更好地理解數(shù)據(jù)集,為進一步
    的頭像 發(fā)表于 11-13 10:57 ?898次閱讀

    海量數(shù)據(jù)處理需要多少RAM內存

    海量數(shù)據(jù)處理所需的RAM(隨機存取存儲器)內存量取決于多個因素,包括數(shù)據(jù)的具體規(guī)模、處理任務的復雜性、數(shù)據(jù)庫管理系統(tǒng)的效率以及所使用軟件的優(yōu)化程度等。以下是對所需內存量的分析: 一、內
    的頭像 發(fā)表于 11-11 09:56 ?1283次閱讀

    FPGA在數(shù)據(jù)處理中的應用實例

    FPGA(現(xiàn)場可編程門陣列)在數(shù)據(jù)處理領域有著廣泛的應用,其高度的靈活性和并行處理能力使其成為許多高性能數(shù)據(jù)處理系統(tǒng)的核心組件。以下是一些FPGA在
    的頭像 發(fā)表于 10-25 09:21 ?1371次閱讀

    實時數(shù)據(jù)處理的邊緣計算應用

    實時數(shù)據(jù)處理的邊緣計算應用廣泛,涵蓋了多個行業(yè)和領域。以下是一些典型的應用場景: 一、工業(yè)制造 在工業(yè)制造領域,邊緣計算技術被廣泛應用于生產(chǎn)
    的頭像 發(fā)表于 10-24 14:11 ?1115次閱讀

    基于Kepware的Hadoop大數(shù)據(jù)應用構建-提升數(shù)據(jù)價值利用效能

    處理大數(shù)據(jù)集。 Hadoop的生態(tài)系統(tǒng)非常豐富,包括許多相關工具和技術,如Hive、Pig、HBase等,這些工具可以方便地構建復雜的大數(shù)據(jù)應用。Hadoop廣泛應用于各種場景,包括數(shù)據(jù)處理
    的頭像 發(fā)表于 10-08 15:12 ?352次閱讀
    基于Kepware的Hadoop<b class='flag-5'>大數(shù)據(jù)</b>應用構建-提升<b class='flag-5'>數(shù)據(jù)</b>價值利用效能

    天拓四方:工業(yè)數(shù)據(jù)采集網(wǎng)關在智能邊緣計算與實時數(shù)據(jù)處理的應用

    工業(yè)互聯(lián)網(wǎng)的浪潮中,工業(yè)數(shù)據(jù)采集網(wǎng)關作為連接物理世界與數(shù)字世界的橋梁,正扮演著日益重要的角色。本文將深入探討工業(yè)數(shù)據(jù)采集網(wǎng)關在“智能邊緣計
    的頭像 發(fā)表于 08-09 17:43 ?650次閱讀
    天拓四方:<b class='flag-5'>工業(yè)</b><b class='flag-5'>數(shù)據(jù)</b>采集網(wǎng)關在智能邊緣計算與實時<b class='flag-5'>數(shù)據(jù)處理</b>的應用