99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大數(shù)據技術及應用介紹1

jf_78858299 ? 來源:CAICT大數(shù)據與數(shù)字經濟 ? 作者:王強、邱艷娟 ? 2023-03-29 14:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大數(shù)據技術體系發(fā)展至今,不斷充實完善,與互聯(lián)網、物聯(lián)網、人工智能等其他信息通信技術融合交匯,現(xiàn)已較為成熟。圍繞數(shù)據資源的全生命周期過程** ,大數(shù)據基礎技術包含大數(shù)據采集技術、大數(shù)據預處理技術、大數(shù)據存儲及計算技術、大數(shù)據分析技術等。

大數(shù)據采集

大數(shù)據采集是大數(shù)據生命周期的第一個環(huán)節(jié)。隨著各類技術和應用的發(fā)展,數(shù)據來源多種多樣,除了傳統(tǒng)的關系型數(shù)據庫外,還包括眾多非結構化數(shù)據庫,以及互聯(lián)網、物聯(lián)網等等。數(shù)據類型也是越發(fā)豐富,包括原有的結構化數(shù)據,更多的還是半結構化數(shù)據和非結構化數(shù)據。按照數(shù)據來源不同,大數(shù)據采集技術和方法也存在較大差異,下面我們按照數(shù)據庫數(shù)據采集、網絡數(shù)據采集、物聯(lián)網數(shù)據采集分類說明。

1.數(shù)據庫數(shù)據采集

數(shù)據庫數(shù)據采集因數(shù)據庫類型不同以及其中存儲數(shù)據類型是結構化還是非結構化而有所不同。

針對傳統(tǒng)的關系型數(shù)據庫,一般采用ETL(數(shù)據抽取、轉換和加載)工具、SQL編碼、ETL工具與SQL編碼結合三種方式。ETL工具經過多年的發(fā)展,已經形成了相對成熟的產品體系,尤其是針對傳統(tǒng)關系型數(shù)據庫,典型代表包括:Oracle的OWB、IBM的Datastage、Microsoft的DTS、Informatica等。借助ETL工具可以實現(xiàn)數(shù)據庫數(shù)據的快速采集及預處理,屏蔽復雜的編碼任務,可提高速度,降低難度,但是缺乏靈活性。通過SQL編碼方式實現(xiàn)數(shù)據庫數(shù)據采集,相對使用ETL工具更加靈活,可以提高數(shù)據采集及預處理的效率,但是編碼復雜,對技術要求比較高。ETL工具與SQL編碼相結合可以綜合前兩種方法的優(yōu)點,極大提高數(shù)據采集及預處理的速度和效率。

針對非結構化數(shù)據庫采集以及不同類型數(shù)據庫之間的數(shù)據傳遞,目前用的比較多的是一些開源項目提供的ETL工具, 典型代表包括:Sqoop、Kettle和Talend等,專為大數(shù)據而設計,可兼顧離線和實時數(shù)據采集,可以實現(xiàn)主流非結構化數(shù)據庫(如HDFS、HBase及其他主流NoSQL數(shù)據庫)與傳統(tǒng)關系型數(shù)據庫(如MySQL、Oracle、PostgreSQL等)之間的數(shù)據雙向傳遞。

相對來說,數(shù)據庫數(shù)據價值密度高,主要是通過日志文件、系統(tǒng)接口函數(shù)等方式采集,采集技術規(guī)范,可用工具較多,面向不同類型數(shù)據庫的統(tǒng)一采集技術將成為未來的重要發(fā)展趨勢。

2.網絡數(shù)據采集

網絡數(shù)據采集根據采集的數(shù)據類型又可以分為互聯(lián)網內容數(shù)據采集網絡日志采集兩類。

互聯(lián)網內容數(shù)據采集主要是利用網絡爬蟲技術和網站公開的應用編程接口(API,Application Programming Interface)等方式, 輔以分詞系統(tǒng)、任務與索引系統(tǒng)綜合運用實現(xiàn)從網站上獲取內容數(shù)據的過程。 這種方式可將互聯(lián)網上半結構化數(shù)據、非結構化數(shù)據從網頁中提取出來,并以結構化的方式將其存儲為統(tǒng)一的本地數(shù)據文件,支持圖片、音頻、視頻等文件或附件的采集以及自動關聯(lián)。網絡爬蟲是一種按照一定規(guī)則,自動抓取互聯(lián)網內容的程序或者腳本。網絡爬蟲技術最早主要運用在搜索引擎中,互聯(lián)網搜索引擎與網頁持有者之間通過Robots協(xié)議約定哪些信息可以被爬取,哪些信息不該被爬取。

網絡日志采集目前用的比較多的是開源日志采集系統(tǒng), 典型代表包括:Flume、Scribe、Logstash、Fluentd等。Flume是Cloudera貢獻給Apache的一個開源日志采集系統(tǒng)項目,具有高可用性、高可靠性和分布式的特點,可以實現(xiàn)海量日志的實時動態(tài)采集、聚合和傳輸。Scribe是Facebook的開源日志采集系統(tǒng)項目,具有可擴展性和高容錯的特點,可以實現(xiàn)日志的分布式采集和統(tǒng)一處理。Logstash部署使用相對簡單,更加注重日志數(shù)據的預處理,可以為后續(xù)日志解析做好鋪墊。Fluentd的部署與Flume比較相似,擴展性非常好,應用也相當廣泛。

3.物聯(lián)網數(shù)據采集

無論是消費物聯(lián)網、產業(yè)物聯(lián)網,還是智慧城市物聯(lián)網,可能涉及RFID電子標簽、定位裝置、紅外感應裝置、激光雷達以及多種傳感器等裝置, 可以說物聯(lián)網終端設備的作用就是采集物聯(lián)網數(shù)據,可能涉及對聲音、光照、熱度、電流、壓力、位置、生物特征等等各類數(shù)據的采集。 物聯(lián)網數(shù)據涉及范圍廣闊,數(shù)據相對分散,數(shù)據類型差異巨大,數(shù)據采集方法和采集手段也存在較大差異。

大數(shù)據預處理

大數(shù)據分析與挖掘需要的數(shù)據往往是通過多個渠道采集的多種類型的數(shù)據,通過上述大數(shù)據采集技術采集到的數(shù)據往往存在數(shù)據冗余、數(shù)據缺值、數(shù)據沖突等數(shù)據質量問題,需要通過大數(shù)據預處理技術提高數(shù)據質量,使數(shù)據更符合分析挖掘需要,以保證大數(shù)據分析的正確性和有效性,獲得高質量的分析挖掘結果。 大數(shù)據預處理技術可以對采集到的原始數(shù)據進行清洗、填補、平滑、合并、規(guī)格化以及一致性檢查等操作,將雜亂無章的原始數(shù)據轉化為相對單一且便于處理的結構類型,為后期的大數(shù)據分析挖掘奠定基礎。 大數(shù)據預處理主要包括:數(shù)據清理、數(shù)據集成、數(shù)據轉換以及數(shù)據規(guī)約四大部分。

1.數(shù)據清理

數(shù)據清理主要是通過檢測數(shù)據中存在冗余、錯誤、不一致等問題,利用各種清洗技術去噪聲數(shù)據,形成一致性數(shù)據集合,包括清除重復數(shù)據、填充缺失數(shù)據、消除噪聲數(shù)據等。 清除重復數(shù)據一般采用相似度計算等統(tǒng)計分析方法。針對缺失數(shù)據處理有兩種方式,一種是忽略不完整數(shù)據即清除缺失數(shù)據,另外一種是通過統(tǒng)計學方法、分類或聚類方法填充缺失數(shù)據確保數(shù)據可用性。在實際應用中,數(shù)據采集過程中還會因為多種原因產生大量的噪聲數(shù)據(在合理的數(shù)據域之外),如果不加處理,會造成后續(xù)分析挖掘結果不準確、不可靠。常用的消除噪聲數(shù)據的方法包括分箱、聚類、回歸等統(tǒng)計學和數(shù)學方法。

主要的數(shù)據清洗工具包括前述Sqoop、Kettle和Talend等開源ETL工具,以及Apache Camel、Apache Kafka、Apatar、Heka和Scriptella等開源ETL工具。此外Potter’s Wheel也應用較多,此款數(shù)據清理工具交互性強,還集成了偏差檢測和數(shù)據變換功能。

2.數(shù)據集成

數(shù)據集成是指將來源于多個數(shù)據源的異構數(shù)據合并存放到一個一致的數(shù)據庫中。 這一過程主要涉及模式匹配、數(shù)據冗余、數(shù)據值沖突的檢測與處理,主要工具仍是上述提到的開源ETL工具。模式匹配主要用于發(fā)現(xiàn)并映射兩個或多個異構數(shù)據源之間的屬性對應關系,樸素貝葉斯、stacking等機器學習算法在模式匹配中應用較為廣泛。數(shù)據冗余可能來源于數(shù)據屬性命名的不一致,可以利用皮爾遜積矩相關系數(shù)(Pearson product-moment correlation coefficient)來衡量數(shù)據屬性命名的一致性,絕對值越大表明兩者之間相關性越強。數(shù)據值沖突主要表現(xiàn)為來源不同的同一實體具有不同的數(shù)據值,針對數(shù)據值沖突問題有時需要輔以人工確定規(guī)則加以處理。

3.數(shù)據變換

數(shù)據變換就是處理采集上來的數(shù)據中存在的不一致的過程,包括數(shù)據名稱、顆粒度、規(guī)則、數(shù)據格式、計量單位等的變換,也包括對新增數(shù)據字段進行組合、分割等變換。 數(shù)據變換實際上也包含了數(shù)據清晰的相關工作,需要根據業(yè)務規(guī)則對不一致數(shù)據進行清洗,以保證后續(xù)分析結果的準確性。數(shù)據變換的主要目的在于將數(shù)據轉換后適合分析挖掘的形式,選用何種數(shù)據變換方法取決于大數(shù)據分析和挖掘算法。常用變換方法包括: 函數(shù)變換,使用數(shù)學函數(shù)對每個屬性值進行映射;對數(shù)據進行規(guī)范化,按比例縮放數(shù)據的屬性值,盡量落入較小的特定區(qū)間。規(guī)范化既有助于各類分類、聚類算法的實施,又避免了對度量單位的過度依賴,同時可規(guī)避權重不平衡問題。

4.數(shù)據規(guī)約

數(shù)據歸約是指在盡可能保持數(shù)據原貌的前提下,尋找最有用特征以縮減數(shù)據規(guī)模,最大限度精簡數(shù)據,涉及的技術和方法主要包括高維數(shù)據降維處理方法(維歸約)、實例規(guī)約、離散化技術,以及不平衡學習等機器學習算法。 數(shù)據規(guī)約技術可以用來得到數(shù)據集的規(guī)約表示,使得數(shù)據集變小,但同時仍然近于保持原數(shù)據的完整性,可以在保證分析挖掘準確性的前提下提高分析挖掘的效率。目前基于海量數(shù)據的數(shù)據歸約技術已經成為大數(shù)據預處理的重要問題之一。

大數(shù)據存儲計算

大數(shù)據存儲與計算技術是整個大數(shù)據系統(tǒng)的基礎。當前的大數(shù)據系統(tǒng)架構主要有兩種: 一種是MPP數(shù)據庫架構,另一種是Hadoop體系的分層架構。 這兩種架構各有優(yōu)勢和相應的適用場景。另外,隨著光纖網絡通信技術的發(fā)展,大數(shù)據系統(tǒng)架構正在向存儲與計算分離的架構和云化架構方發(fā)展。

1.MPP

MPP(Massively Parallel Processing,大規(guī)模并行處理)架構。 MPP架構是將多個處理節(jié)點通過網絡連接起來,每個節(jié)點是一臺獨立的機器,節(jié)點內的處理單元獨占自己的資源, 包括內存、硬盤、IO等,也就是每個節(jié)點內的CPU不能訪問另一個節(jié)點的內存,MPP架構服務器需要通過軟件實現(xiàn)復雜的調度機制以及并行處理過程。重點面向行業(yè)大數(shù)據,采用Shared Nothing架構,通過列存儲、粗粒度索引等多項大數(shù)據處理技術,再結合MPP架構高效的分布式計算模式,完成對分析類應用的支撐,運行環(huán)境多為低成本PC Server,具有高性能和高擴展性的特點,在企業(yè)分析類應用領域獲得極其廣泛的應用。

這類MPP產品可以有效支撐PB級別的結構化數(shù)據分析,這是傳統(tǒng)數(shù)據庫技術無法勝任的。對于企業(yè)新一代的數(shù)據倉庫和結構化數(shù)據分析,目前最佳選擇是MPP數(shù)據庫。

2.Hadoop

Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎架構。 用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力進行高速運算和存儲。具有可靠、高效、可伸縮的特點。Hadoop的核心是HDFS和MapReduce。

HDFS(Hadoop分布式文件系統(tǒng)),是Hadoop體系中數(shù)據存儲管理的基礎。 它是一個高度容錯的系統(tǒng),能檢測和應對硬件故障,用于在低成本的通用硬件上運行。HDFS簡化了文件的一致性模型,通過流式數(shù)據訪問,提供高吞吐量應用程序數(shù)據訪問功能,適合帶有大型數(shù)據集的應用程序。它提供了一次寫入多次讀取的機制,數(shù)據以塊的形式,同時分布在集群不同物理機器上。

MapReduce(分布式計算框架)是一種分布式計算模型,用以進行大數(shù)據量的計算。 它屏蔽了分布式計算框架細節(jié),將計算抽象成map和reduce兩部分,其中Map對數(shù)據集上的獨立元素進行指定的操作,生成鍵-值對形式中間結果。Reduce則對中間結果中相同“鍵”的所有“值”進行規(guī)約,以得到最終結果。MapReduce非常適合在大量計算機組成的分布式并行環(huán)境里進行數(shù)據處理。

圍繞Hadoop衍生出相關的大數(shù)據技術,應對傳統(tǒng)關系型數(shù)據庫較難處理的數(shù)據和場景,例如針對非結構化數(shù)據的存儲和計算等,充分利用Hadoop開源的優(yōu)勢,伴隨相關技術的不斷進步,其應用場景也將逐步擴大,目前最為典型的應用場景就是通過擴展和封裝Hadoop來實現(xiàn)對互聯(lián)網大數(shù)據存儲、分析的支撐。這里面有幾十種NoSQL技術,也在進一步的細分。對于非結構、半結構化數(shù)據處理、復雜的ETL流程、復雜的數(shù)據挖掘和計算模型,Hadoop平臺更擅長。 目前來說主流的選擇就是分布式架構,而在分布式架構系統(tǒng)當中,Hadoop可以說是經過考驗的比較成熟且穩(wěn)定的大數(shù)據平臺系統(tǒng), 因此很多企業(yè)大數(shù)據平臺,都是基于Hadoop來搭建的。

大數(shù)據分析挖掘

大數(shù)據分析需要從紛繁復雜的數(shù)據中發(fā)現(xiàn)規(guī)律提取新的知識,是大數(shù)據價值挖掘的關鍵。數(shù)據分析主要有兩條技術路線:一是憑借先驗知識人工建立數(shù)學模型來分析數(shù)據;二是通過建立人工智能系統(tǒng),使用大量樣本數(shù)據進行訓練,讓機器代替人工獲得從數(shù)據中提取知識的能力。** 傳統(tǒng)數(shù)據挖掘對象多是結構化、單一對象的小數(shù)據集,挖掘更側重根據先驗知識預先人工建立模型,然后依據既定模型進行分析。對于非結構化、多源異構的大數(shù)據集的分析,往往缺乏先驗知識,很難建立顯式的數(shù)學模型,這就需要發(fā)展更加智能的數(shù)據挖掘技術。

1.傳統(tǒng)分析

數(shù)據挖掘的主要過程是從數(shù)據庫中提取數(shù)據,然后通過ETL組織成適合分析挖掘算法的寬表,然后使用數(shù)據挖掘軟件進行挖掘。 傳統(tǒng)的數(shù)據挖掘軟件一般只支持單機小規(guī)模數(shù)據處理。由于這種限制,傳統(tǒng)的數(shù)據分析挖掘通常采用抽樣方法來減少數(shù)據分析的規(guī)模。

數(shù)據挖掘的計算復雜性和靈活性遠遠超過前兩類要求。首先,由于數(shù)據挖掘問題的開放性,數(shù)據挖掘將涉及大量衍生變量計算,導致數(shù)據預處理計算的復雜性;其次,許多數(shù)據挖掘算法本身更復雜,計算量非常大,特別是大量的機器學習算法,是迭代計算,需要通過多次迭代,如K-means聚類算法、Pagerank算法等。在機器學習中,可細分為歸納學習方法(決策樹、規(guī)則歸納)等。基于例子學習、遺傳算法等。統(tǒng)計方法可細分為回歸分析(多回歸、自回歸)等。判斷分析(貝葉斯判斷、費歇爾判斷、非參數(shù)判斷)等。聚類分析(系統(tǒng)聚類、動態(tài)聚類)等。探索性分析(主要分析、相關分析)等。

2.智能分析

與以前的眾多數(shù)據分析技術相比,人工智能技術立足于神經網絡,同時發(fā)展出多層神經網絡,從而可以進行深度機器學習。 與以往傳統(tǒng)的算法相比,這一算法并無多余的假設前提(比如線性建模需要假設數(shù)據之間的線性關系),而是完全利用輸入的數(shù)據自行模擬和構建相應的模型結構。 這一算法特點決定了它更為靈活的且可以根據不同的訓練數(shù)據而擁有自優(yōu)化的能力。

大數(shù)據技術將與人工智能技術更緊密地結合,讓計算系統(tǒng)具備對數(shù)據的理解、推理、發(fā)現(xiàn)和決策能力,從而能從數(shù)據中獲取更準確、更深層次的知識,挖掘數(shù)據背后的價值。 隨著人工智能的發(fā)展,在海量數(shù)據中挖掘有用信息并形成知識將成為可能,機器系統(tǒng)將逐步獲得認知能力,這推動了認知計算的發(fā)展。認知計算是人工智能不斷發(fā)展的產物,包括自然語言處理、語音識別、計算機視覺、機器學習、深度學習、機器人技術等。只要人們認識到大數(shù)據和分析學之間的緊密聯(lián)系,就會發(fā)現(xiàn)認知計算和分析學一樣,都是大數(shù)據分析不可或缺的,認知計算的重要性將越來越受到人們的認可。

本文部分原載于《中國金融科技運行報告》

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 互聯(lián)網

    關注

    55

    文章

    11242

    瀏覽量

    106137
  • 物聯(lián)網

    關注

    2930

    文章

    46128

    瀏覽量

    390754
  • 人工智能
    +關注

    關注

    1805

    文章

    48932

    瀏覽量

    248252
  • 大數(shù)據技術

    關注

    0

    文章

    37

    瀏覽量

    5307
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    大數(shù)據技術經驗交流 場景化數(shù)據算法

    可視化數(shù)據指導,讓每一個人看懂大數(shù)據;多場景數(shù)據算法,讓所有數(shù)據都有跡可循;大數(shù)據技術經驗交流群
    發(fā)表于 06-01 17:12

    常用大數(shù)據處理技術歸類

    我們就來看看大數(shù)據。1.HBase是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),利用HBase技術可在廉價PC Server上搭建起大規(guī)模結構化數(shù)據集群。像Facebook,
    發(fā)表于 02-28 17:02

    常見大數(shù)據應用有哪些?

    大數(shù)據技術為決策提供依據,在***、企業(yè)、科研項目等決策中扮演著重要的角色,在社會治理和企業(yè)管理中起到了不容忽視的作用,很多國家,如中國、美國以及歐盟等都已將大數(shù)據列入國家發(fā)展戰(zhàn)略,微軟、谷歌、百度
    發(fā)表于 03-13 16:50

    大數(shù)據運用的技術

    處理、集群、實時性計算等,匯集了當前IT領域熱門流行的IT技術。想要學好大數(shù)據需掌握以下技術1. Java編程技術Java編程
    發(fā)表于 04-08 16:50

    大數(shù)據開發(fā)核心技術詳解

    數(shù)據的核心是云技術和BI。關于大數(shù)據和云計算的關系人們通常會有誤解,而且也會把它們混起來說,分別做一句話直白解釋就是:云計算就是硬件資源的虛擬化;大數(shù)據就是海量
    發(fā)表于 07-26 16:26

    DKHadoop大數(shù)據平臺架構詳解

    不同,但在平臺架構上相似,這里就以我比較熟悉的dkhadoop來介紹1、大快Dkhadoop,可以說是集成了整個HADOOP生態(tài)系統(tǒng)的全部組件,并對其進行了深度優(yōu)化,重新編譯為一個完整的更高性能的大數(shù)據
    發(fā)表于 10-17 15:12

    大數(shù)據技術專家的學習歷程分享

    從小白到大數(shù)據技術專家的學習歷程,你準備好了嗎
    發(fā)表于 04-22 14:37

    怎么才能編程大數(shù)據技術專家

    從小白到大數(shù)據技術專家的學習歷程
    發(fā)表于 04-24 09:06

    大數(shù)據的定義及其應用

    目錄1、大數(shù)據概述1.1. 概述1.2. 大數(shù)據定義1.3. 大數(shù)據技術發(fā)展2、大數(shù)據應用2.1
    發(fā)表于 07-12 06:12

    什么是大數(shù)據大數(shù)據的特點有哪些

    大數(shù)據(big data)目錄1什么是大數(shù)據2大數(shù)據的定義3大數(shù)據的特點[1]4
    發(fā)表于 07-12 06:52

    大數(shù)據技術與應用是學什么的?

    大數(shù)據技術與應用是學什么的?大數(shù)據是指無法在一定時間內用常規(guī)軟件工具對其內容進行抓取、管理和處理的數(shù)據集合。大數(shù)據
    發(fā)表于 07-27 07:47

    大數(shù)據技術原理與應用

    本文介紹了關于大數(shù)據的相關概念、大數(shù)據的結構、大數(shù)據的特點以及大數(shù)據技術的十大原理及詳細的說明了
    發(fā)表于 12-19 14:29 ?11.2w次閱讀
    <b class='flag-5'>大數(shù)據</b><b class='flag-5'>技術</b>原理與應用

    大數(shù)據是什么_大數(shù)據技術和應用的現(xiàn)狀與前景

    本文首先介紹大數(shù)據大數(shù)據技術與應用的概念然后說明了大數(shù)據的優(yōu)勢和部分應用前景最后分析了大數(shù)據
    發(fā)表于 07-30 15:04 ?2.5w次閱讀

    大數(shù)據技術及應用介紹2

    大數(shù)據技術內涵持續(xù)進行延伸,經過十三五的發(fā)展,已從面向海量數(shù)據的存儲、處理、分析等基礎技術,延展到面向海量數(shù)據的管理治理、流通交易等新興關鍵
    的頭像 發(fā)表于 03-29 14:17 ?1177次閱讀

    大數(shù)據技術是干嘛的 大數(shù)據核心技術有哪些

    大數(shù)據技術是指用來處理和存儲海量、多類型、高速的數(shù)據的一系列技術和工具?,F(xiàn)如今,大數(shù)據已經滲透到各個行業(yè)和領域,對企業(yè)決策和業(yè)務發(fā)展起到了重
    的頭像 發(fā)表于 01-31 11:07 ?5184次閱讀