蜜臀AV.com+国产,无码国产va在线观看DVD,久草视频新免费在线播放

大數(shù)據技術體系發(fā)展至今，不斷充實完善，與互聯(lián)網、物聯(lián)網、人工智能等其他信息通信技術融合交匯，現(xiàn)已較為成熟。圍繞數(shù)據資源的全生命周期過程** ，大數(shù)據基礎技術包含大數(shù)據采集技術、大數(shù)據預處理技術、大數(shù)據存儲及計算技術、大數(shù)據分析技術等。

大數(shù)據采集

大數(shù)據采集是大數(shù)據生命周期的第一個環(huán)節(jié)。隨著各類技術和應用的發(fā)展，數(shù)據來源多種多樣，除了傳統(tǒng)的關系型數(shù)據庫外，還包括眾多非結構化數(shù)據庫，以及互聯(lián)網、物聯(lián)網等等。數(shù)據類型也是越發(fā)豐富，包括原有的結構化數(shù)據，更多的還是半結構化數(shù)據和非結構化數(shù)據。按照數(shù)據來源不同，大數(shù)據采集技術和方法也存在較大差異，下面我們按照數(shù)據庫數(shù)據采集、網絡數(shù)據采集、物聯(lián)網數(shù)據采集分類說明。

1.數(shù)據庫數(shù)據采集

數(shù)據庫數(shù)據采集因數(shù)據庫類型不同以及其中存儲數(shù)據類型是結構化還是非結構化而有所不同。

針對傳統(tǒng)的關系型數(shù)據庫，一般采用ETL（數(shù)據抽取、轉換和加載）工具、SQL編碼、ETL工具與SQL編碼結合三種方式。ETL工具經過多年的發(fā)展，已經形成了相對成熟的產品體系，尤其是針對傳統(tǒng)關系型數(shù)據庫，典型代表包括：Oracle的OWB、IBM的Datastage、Microsoft的DTS、Informatica等。借助ETL工具可以實現(xiàn)數(shù)據庫數(shù)據的快速采集及預處理，屏蔽復雜的編碼任務，可提高速度，降低難度，但是缺乏靈活性。通過SQL編碼方式實現(xiàn)數(shù)據庫數(shù)據采集，相對使用ETL工具更加靈活，可以提高數(shù)據采集及預處理的效率，但是編碼復雜，對技術要求比較高。ETL工具與SQL編碼相結合可以綜合前兩種方法的優(yōu)點，極大提高數(shù)據采集及預處理的速度和效率。

針對非結構化數(shù)據庫采集以及不同類型數(shù)據庫之間的數(shù)據傳遞，目前用的比較多的是一些開源項目提供的ETL工具， 典型代表包括：Sqoop、Kettle和Talend等，專為大數(shù)據而設計，可兼顧離線和實時數(shù)據采集，可以實現(xiàn)主流非結構化數(shù)據庫（如HDFS、HBase及其他主流NoSQL數(shù)據庫）與傳統(tǒng)關系型數(shù)據庫（如MySQL、Oracle、PostgreSQL等）之間的數(shù)據雙向傳遞。

相對來說，數(shù)據庫數(shù)據價值密度高，主要是通過日志文件、系統(tǒng)接口函數(shù)等方式采集，采集技術規(guī)范，可用工具較多，面向不同類型數(shù)據庫的統(tǒng)一采集技術將成為未來的重要發(fā)展趨勢。

2.網絡數(shù)據采集

網絡數(shù)據采集根據采集的數(shù)據類型又可以分為互聯(lián)網內容數(shù)據采集和網絡日志采集兩類。

互聯(lián)網內容數(shù)據采集主要是利用網絡爬蟲技術和網站公開的應用編程接口（API，Application Programming Interface）等方式， 輔以分詞系統(tǒng)、任務與索引系統(tǒng)綜合運用實現(xiàn)從網站上獲取內容數(shù)據的過程。 這種方式可將互聯(lián)網上半結構化數(shù)據、非結構化數(shù)據從網頁中提取出來，并以結構化的方式將其存儲為統(tǒng)一的本地數(shù)據文件，支持圖片、音頻、視頻等文件或附件的采集以及自動關聯(lián)。網絡爬蟲是一種按照一定規(guī)則，自動抓取互聯(lián)網內容的程序或者腳本。網絡爬蟲技術最早主要運用在搜索引擎中，互聯(lián)網搜索引擎與網頁持有者之間通過Robots協(xié)議約定哪些信息可以被爬取，哪些信息不該被爬取。

網絡日志采集目前用的比較多的是開源日志采集系統(tǒng)， 典型代表包括：Flume、Scribe、Logstash、Fluentd等。Flume是Cloudera貢獻給Apache的一個開源日志采集系統(tǒng)項目，具有高可用性、高可靠性和分布式的特點，可以實現(xiàn)海量日志的實時動態(tài)采集、聚合和傳輸。Scribe是Facebook的開源日志采集系統(tǒng)項目，具有可擴展性和高容錯的特點，可以實現(xiàn)日志的分布式采集和統(tǒng)一處理。Logstash部署使用相對簡單，更加注重日志數(shù)據的預處理，可以為后續(xù)日志解析做好鋪墊。Fluentd的部署與Flume比較相似，擴展性非常好，應用也相當廣泛。

3.物聯(lián)網數(shù)據采集

無論是消費物聯(lián)網、產業(yè)物聯(lián)網，還是智慧城市物聯(lián)網，可能涉及RFID電子標簽、定位裝置、紅外感應裝置、激光雷達以及多種傳感器等裝置，可以說物聯(lián)網終端設備的作用就是采集物聯(lián)網數(shù)據，可能涉及對聲音、光照、熱度、電流、壓力、位置、生物特征等等各類數(shù)據的采集。物聯(lián)網數(shù)據涉及范圍廣闊，數(shù)據相對分散，數(shù)據類型差異巨大，數(shù)據采集方法和采集手段也存在較大差異。

大數(shù)據預處理

大數(shù)據分析與挖掘需要的數(shù)據往往是通過多個渠道采集的多種類型的數(shù)據，通過上述大數(shù)據采集技術采集到的數(shù)據往往存在數(shù)據冗余、數(shù)據缺值、數(shù)據沖突等數(shù)據質量問題，需要通過大數(shù)據預處理技術提高數(shù)據質量，使數(shù)據更符合分析挖掘需要，以保證大數(shù)據分析的正確性和有效性，獲得高質量的分析挖掘結果。大數(shù)據預處理技術可以對采集到的原始數(shù)據進行清洗、填補、平滑、合并、規(guī)格化以及一致性檢查等操作，將雜亂無章的原始數(shù)據轉化為相對單一且便于處理的結構類型，為后期的大數(shù)據分析挖掘奠定基礎。大數(shù)據預處理主要包括：數(shù)據清理、數(shù)據集成、數(shù)據轉換以及數(shù)據規(guī)約四大部分。

1.數(shù)據清理

數(shù)據清理主要是通過檢測數(shù)據中存在冗余、錯誤、不一致等問題，利用各種清洗技術去噪聲數(shù)據，形成一致性數(shù)據集合，包括清除重復數(shù)據、填充缺失數(shù)據、消除噪聲數(shù)據等。清除重復數(shù)據一般采用相似度計算等統(tǒng)計分析方法。針對缺失數(shù)據處理有兩種方式，一種是忽略不完整數(shù)據即清除缺失數(shù)據，另外一種是通過統(tǒng)計學方法、分類或聚類方法填充缺失數(shù)據確保數(shù)據可用性。在實際應用中，數(shù)據采集過程中還會因為多種原因產生大量的噪聲數(shù)據（在合理的數(shù)據域之外），如果不加處理，會造成后續(xù)分析挖掘結果不準確、不可靠。常用的消除噪聲數(shù)據的方法包括分箱、聚類、回歸等統(tǒng)計學和數(shù)學方法。

主要的數(shù)據清洗工具包括前述Sqoop、Kettle和Talend等開源ETL工具，以及Apache Camel、Apache Kafka、Apatar、Heka和Scriptella等開源ETL工具。此外Potter’s Wheel也應用較多，此款數(shù)據清理工具交互性強，還集成了偏差檢測和數(shù)據變換功能。

2.數(shù)據集成

數(shù)據集成是指將來源于多個數(shù)據源的異構數(shù)據合并存放到一個一致的數(shù)據庫中。 這一過程主要涉及模式匹配、數(shù)據冗余、數(shù)據值沖突的檢測與處理，主要工具仍是上述提到的開源ETL工具。模式匹配主要用于發(fā)現(xiàn)并映射兩個或多個異構數(shù)據源之間的屬性對應關系，樸素貝葉斯、stacking等機器學習算法在模式匹配中應用較為廣泛。數(shù)據冗余可能來源于數(shù)據屬性命名的不一致，可以利用皮爾遜積矩相關系數(shù)（Pearson product-moment correlation coefficient）來衡量數(shù)據屬性命名的一致性，絕對值越大表明兩者之間相關性越強。數(shù)據值沖突主要表現(xiàn)為來源不同的同一實體具有不同的數(shù)據值，針對數(shù)據值沖突問題有時需要輔以人工確定規(guī)則加以處理。

3.數(shù)據變換

數(shù)據變換就是處理采集上來的數(shù)據中存在的不一致的過程，包括數(shù)據名稱、顆粒度、規(guī)則、數(shù)據格式、計量單位等的變換，也包括對新增數(shù)據字段進行組合、分割等變換。數(shù)據變換實際上也包含了數(shù)據清晰的相關工作，需要根據業(yè)務規(guī)則對不一致數(shù)據進行清洗，以保證后續(xù)分析結果的準確性。數(shù)據變換的主要目的在于將數(shù)據轉換后適合分析挖掘的形式，選用何種數(shù)據變換方法取決于大數(shù)據分析和挖掘算法。常用變換方法包括: 函數(shù)變換，使用數(shù)學函數(shù)對每個屬性值進行映射；對數(shù)據進行規(guī)范化，按比例縮放數(shù)據的屬性值，盡量落入較小的特定區(qū)間。規(guī)范化既有助于各類分類、聚類算法的實施，又避免了對度量單位的過度依賴，同時可規(guī)避權重不平衡問題。

4.數(shù)據規(guī)約

數(shù)據歸約是指在盡可能保持數(shù)據原貌的前提下，尋找最有用特征以縮減數(shù)據規(guī)模，最大限度精簡數(shù)據，涉及的技術和方法主要包括高維數(shù)據降維處理方法（維歸約）、實例規(guī)約、離散化技術，以及不平衡學習等機器學習算法。數(shù)據規(guī)約技術可以用來得到數(shù)據集的規(guī)約表示，使得數(shù)據集變小，但同時仍然近于保持原數(shù)據的完整性，可以在保證分析挖掘準確性的前提下提高分析挖掘的效率。目前基于海量數(shù)據的數(shù)據歸約技術已經成為大數(shù)據預處理的重要問題之一。

大數(shù)據存儲計算

大數(shù)據存儲與計算技術是整個大數(shù)據系統(tǒng)的基礎。當前的大數(shù)據系統(tǒng)架構主要有兩種： 一種是MPP數(shù)據庫架構，另一種是Hadoop體系的分層架構。 這兩種架構各有優(yōu)勢和相應的適用場景。另外，隨著光纖網絡通信技術的發(fā)展，大數(shù)據系統(tǒng)架構正在向存儲與計算分離的架構和云化架構方發(fā)展。

1.MPP

MPP（Massively Parallel Processing，大規(guī)模并行處理）架構。 MPP架構是將多個處理節(jié)點通過網絡連接起來，每個節(jié)點是一臺獨立的機器，節(jié)點內的處理單元獨占自己的資源， 包括內存、硬盤、IO等，也就是每個節(jié)點內的CPU不能訪問另一個節(jié)點的內存，MPP架構服務器需要通過軟件實現(xiàn)復雜的調度機制以及并行處理過程。重點面向行業(yè)大數(shù)據，采用Shared Nothing架構，通過列存儲、粗粒度索引等多項大數(shù)據處理技術，再結合MPP架構高效的分布式計算模式，完成對分析類應用的支撐，運行環(huán)境多為低成本PC Server，具有高性能和高擴展性的特點，在企業(yè)分析類應用領域獲得極其廣泛的應用。

這類MPP產品可以有效支撐PB級別的結構化數(shù)據分析，這是傳統(tǒng)數(shù)據庫技術無法勝任的。對于企業(yè)新一代的數(shù)據倉庫和結構化數(shù)據分析，目前最佳選擇是MPP數(shù)據庫。

2.Hadoop

Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎架構。 用戶可以在不了解分布式底層細節(jié)的情況下，開發(fā)分布式程序。充分利用集群的威力進行高速運算和存儲。具有可靠、高效、可伸縮的特點。Hadoop的核心是HDFS和MapReduce。

HDFS（Hadoop分布式文件系統(tǒng)），是Hadoop體系中數(shù)據存儲管理的基礎。 它是一個高度容錯的系統(tǒng)，能檢測和應對硬件故障，用于在低成本的通用硬件上運行。HDFS簡化了文件的一致性模型，通過流式數(shù)據訪問，提供高吞吐量應用程序數(shù)據訪問功能，適合帶有大型數(shù)據集的應用程序。它提供了一次寫入多次讀取的機制，數(shù)據以塊的形式，同時分布在集群不同物理機器上。

MapReduce（分布式計算框架）是一種分布式計算模型，用以進行大數(shù)據量的計算。 它屏蔽了分布式計算框架細節(jié)，將計算抽象成map和reduce兩部分，其中Map對數(shù)據集上的獨立元素進行指定的操作，生成鍵-值對形式中間結果。Reduce則對中間結果中相同“鍵”的所有“值”進行規(guī)約，以得到最終結果。MapReduce非常適合在大量計算機組成的分布式并行環(huán)境里進行數(shù)據處理。

圍繞Hadoop衍生出相關的大數(shù)據技術，應對傳統(tǒng)關系型數(shù)據庫較難處理的數(shù)據和場景，例如針對非結構化數(shù)據的存儲和計算等，充分利用Hadoop開源的優(yōu)勢，伴隨相關技術的不斷進步，其應用場景也將逐步擴大，目前最為典型的應用場景就是通過擴展和封裝Hadoop來實現(xiàn)對互聯(lián)網大數(shù)據存儲、分析的支撐。這里面有幾十種NoSQL技術，也在進一步的細分。對于非結構、半結構化數(shù)據處理、復雜的ETL流程、復雜的數(shù)據挖掘和計算模型，Hadoop平臺更擅長。目前來說主流的選擇就是分布式架構，而在分布式架構系統(tǒng)當中，Hadoop可以說是經過考驗的比較成熟且穩(wěn)定的大數(shù)據平臺系統(tǒng)，因此很多企業(yè)大數(shù)據平臺，都是基于Hadoop來搭建的。

大數(shù)據分析挖掘

大數(shù)據分析需要從紛繁復雜的數(shù)據中發(fā)現(xiàn)規(guī)律提取新的知識，是大數(shù)據價值挖掘的關鍵。數(shù)據分析主要有兩條技術路線：一是憑借先驗知識人工建立數(shù)學模型來分析數(shù)據；二是通過建立人工智能系統(tǒng)，使用大量樣本數(shù)據進行訓練，讓機器代替人工獲得從數(shù)據中提取知識的能力。** 傳統(tǒng)數(shù)據挖掘對象多是結構化、單一對象的小數(shù)據集，挖掘更側重根據先驗知識預先人工建立模型，然后依據既定模型進行分析。對于非結構化、多源異構的大數(shù)據集的分析，往往缺乏先驗知識，很難建立顯式的數(shù)學模型，這就需要發(fā)展更加智能的數(shù)據挖掘技術。

1.傳統(tǒng)分析

數(shù)據挖掘的主要過程是從數(shù)據庫中提取數(shù)據，然后通過ETL組織成適合分析挖掘算法的寬表，然后使用數(shù)據挖掘軟件進行挖掘。 傳統(tǒng)的數(shù)據挖掘軟件一般只支持單機小規(guī)模數(shù)據處理。由于這種限制，傳統(tǒng)的數(shù)據分析挖掘通常采用抽樣方法來減少數(shù)據分析的規(guī)模。

數(shù)據挖掘的計算復雜性和靈活性遠遠超過前兩類要求。首先，由于數(shù)據挖掘問題的開放性，數(shù)據挖掘將涉及大量衍生變量計算，導致數(shù)據預處理計算的復雜性；其次，許多數(shù)據挖掘算法本身更復雜，計算量非常大，特別是大量的機器學習算法，是迭代計算，需要通過多次迭代，如K-means聚類算法、Pagerank算法等。在機器學習中，可細分為歸納學習方法（決策樹、規(guī)則歸納）等。基于例子學習、遺傳算法等。統(tǒng)計方法可細分為回歸分析（多回歸、自回歸）等。判斷分析（貝葉斯判斷、費歇爾判斷、非參數(shù)判斷）等。聚類分析（系統(tǒng)聚類、動態(tài)聚類）等。探索性分析（主要分析、相關分析）等。

2.智能分析

與以前的眾多數(shù)據分析技術相比，人工智能技術立足于神經網絡，同時發(fā)展出多層神經網絡，從而可以進行深度機器學習。與以往傳統(tǒng)的算法相比，這一算法并無多余的假設前提（比如線性建模需要假設數(shù)據之間的線性關系），而是完全利用輸入的數(shù)據自行模擬和構建相應的模型結構。這一算法特點決定了它更為靈活的且可以根據不同的訓練數(shù)據而擁有自優(yōu)化的能力。

大數(shù)據技術將與人工智能技術更緊密地結合，讓計算系統(tǒng)具備對數(shù)據的理解、推理、發(fā)現(xiàn)和決策能力，從而能從數(shù)據中獲取更準確、更深層次的知識，挖掘數(shù)據背后的價值。隨著人工智能的發(fā)展，在海量數(shù)據中挖掘有用信息并形成知識將成為可能，機器系統(tǒng)將逐步獲得認知能力，這推動了認知計算的發(fā)展。認知計算是人工智能不斷發(fā)展的產物，包括自然語言處理、語音識別、計算機視覺、機器學習、深度學習、機器人技術等。只要人們認識到大數(shù)據和分析學之間的緊密聯(lián)系，就會發(fā)現(xiàn)認知計算和分析學一樣，都是大數(shù)據分析不可或缺的，認知計算的重要性將越來越受到人們的認可。

本文部分原載于《中國金融科技運行報告》

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

互聯(lián)網

互聯(lián)網

+關注

關注
55

文章
11242

瀏覽量
106137
物聯(lián)網

物聯(lián)網

+關注

關注
2930

文章
46128

瀏覽量
390754
人工智能

人工智能

+關注

關注
1805

文章
48932

瀏覽量
248252
大數(shù)據技術

大數(shù)據技術

+關注

關注
0

文章
37

瀏覽量
5307

99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

搜索歷史

大數(shù)據技術及應用介紹1

評論