99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)湖是什么

汽車電子技術(shù) ? 來源:碼農(nóng)與軟件時代 ? 作者:碼農(nóng)與軟件時代 ? 2023-02-15 10:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1.為什么出現(xiàn)數(shù)據(jù)湖?

支撐業(yè)務(wù)的IT軟件系統(tǒng)最簡單的數(shù)據(jù)鏈路是:操作業(yè)務(wù)APP的界面或者調(diào)用其API接口,將交易數(shù)據(jù)記錄到關(guān)系型數(shù)據(jù)庫中。

說其簡單,是因為這樣的系統(tǒng)能夠支撐業(yè)務(wù)交易。業(yè)務(wù)APP上的每筆交易數(shù)據(jù)都會記錄在數(shù)據(jù)庫中。

這對業(yè)務(wù)交易員來說,已經(jīng)足夠了。但對業(yè)務(wù)管理者來說,期望看到的是“自己關(guān)心的、宏觀的、能夠反應(yīng)歷史變化的數(shù)據(jù)”,并且最好是可視化的界面,一目了然。

于是,“數(shù)據(jù)倉庫”出現(xiàn)了,它就是一個面向主題的、集成的、反映歷史變化的數(shù)據(jù)集合。

那么,數(shù)據(jù)是如何從業(yè)務(wù)數(shù)據(jù)庫到達(dá)數(shù)據(jù)倉庫的呢?

首先,要理解的是業(yè)務(wù)數(shù)據(jù)庫和數(shù)據(jù)倉庫的Schema(表結(jié)構(gòu))大部分情況下是不同的,前者用來記錄實時交易信息,后者用來記錄歷史匯總信息。

其次,表結(jié)構(gòu)的不同,就需要進(jìn)行數(shù)據(jù)處理的三板斧--“抽取、轉(zhuǎn)換和加載”,即Extract-Transform-Load,簡稱ETL。具體來說就是抽取管理者關(guān)心的(面向主題)、轉(zhuǎn)換數(shù)據(jù)、加載到數(shù)據(jù)倉庫中。

最后,根據(jù)業(yè)務(wù)規(guī)則,提取數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行可視化提取與展示(報表)。

數(shù)據(jù)倉庫的使用思路是:業(yè)務(wù)管理者知道“自己關(guān)心哪些數(shù)據(jù)”,在創(chuàng)建數(shù)據(jù)倉庫時,便可以將這些數(shù)據(jù)提取并記錄下來。這樣,數(shù)據(jù)倉庫記錄的是經(jīng)過加工過的數(shù)據(jù),而非原始數(shù)據(jù)

注意到數(shù)據(jù)倉庫的數(shù)據(jù)是結(jié)構(gòu)化的。對于半結(jié)構(gòu)化(CSVXMLJSON)和非結(jié)構(gòu)化(e-mail文檔)的數(shù)據(jù)來說,也蘊含著有價值的信息,同樣需要分析,或者現(xiàn)在不知道怎么分析,也可以先存儲起來。

那么就需要有一種方法:不但可以存儲原始數(shù)據(jù),也可以存儲結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu) 化的數(shù)據(jù),并且還能支撐數(shù)據(jù)的分析。

時勢的呼喚下,“數(shù)據(jù)湖(Data Lake)”便產(chǎn)生了。

2.數(shù)據(jù)湖是什么?

數(shù)據(jù)湖是一個以原始格式存儲數(shù)據(jù)的存儲庫或系統(tǒng)。

“數(shù)據(jù)”可以是各種格式的,結(jié)構(gòu)化、半結(jié)構(gòu)化的、非結(jié)構(gòu)化的。并且數(shù)據(jù)是未經(jīng)加工的,像大自然的水,流入到“湖”中。也就是數(shù)據(jù)的存儲,無需像數(shù)據(jù)倉庫那樣事先設(shè)計Schema,也無需事先有明確的分析需求(有了想法,再延遲分析,稱為讀時模式Schema-On-Read)。

3.數(shù)據(jù)湖如何實現(xiàn)?

數(shù)據(jù)湖是一種方法論,探討如何以原始形態(tài)存儲各種格式的數(shù)據(jù),并能支持后續(xù)的分析。

數(shù)據(jù)湖的開源實現(xiàn)有:Hadoop、Delta、Apache Iceberg 和 Apache Hudi。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)庫
    +關(guān)注

    關(guān)注

    7

    文章

    3925

    瀏覽量

    66172
  • 數(shù)據(jù)鏈路
    +關(guān)注

    關(guān)注

    0

    文章

    28

    瀏覽量

    9088
  • 軟件系統(tǒng)
    +關(guān)注

    關(guān)注

    0

    文章

    66

    瀏覽量

    9662
  • API接口
    +關(guān)注

    關(guān)注

    1

    文章

    85

    瀏覽量

    10874
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    數(shù)據(jù)是什么

    點擊“藍(lán)字”關(guān)注我們來源 |談數(shù)據(jù)作者丨石秀峰一、認(rèn)識數(shù)據(jù)1、初識數(shù)據(jù)Data lake,筆者第一次接觸這個概念,是在2014年IBM組
    發(fā)表于 07-12 08:14

    數(shù)據(jù)的定義是什么?如何去構(gòu)建數(shù)據(jù)

    數(shù)據(jù)的定義是什么?數(shù)據(jù)數(shù)據(jù)倉庫的區(qū)別在哪?如何去構(gòu)建數(shù)據(jù)
    發(fā)表于 07-12 07:04

    數(shù)據(jù)可以用來解決大數(shù)據(jù)的挑戰(zhàn)嗎

    數(shù)據(jù)是機器學(xué)習(xí)和人工智能的強大基礎(chǔ)),因為它們在大型,多樣化的數(shù)據(jù)集上蓬勃發(fā)展。
    發(fā)表于 02-25 09:01 ?826次閱讀
    <b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>可以用來解決大<b class='flag-5'>數(shù)據(jù)</b>的挑戰(zhàn)嗎

    數(shù)據(jù)是什么,它的快速搭建方法介紹

    數(shù)據(jù)概念最早是在2011年提出,到現(xiàn)在也就9年左右的時間,算是一個較新的概念。雖然各方理解上有些差異,也存在一些爭議,但概念不重要,關(guān)鍵是否能真正幫助企業(yè)解決在業(yè)務(wù)快速發(fā)展過程中不斷遭遇的新問題。
    的頭像 發(fā)表于 04-03 20:38 ?4461次閱讀

    AWS數(shù)據(jù)怎么脫穎而出的

    在AWS 數(shù)據(jù)平臺中有很多非常出色的組件,可以幫助用戶解決數(shù)據(jù)中典型的挑戰(zhàn)。比如,Amazon EMR大數(shù)據(jù)處理組件,可以在AWS上輕松
    的頭像 發(fā)表于 04-12 19:34 ?2170次閱讀

    結(jié)合阿里云上的EMR JindoFS優(yōu)化和實踐,數(shù)據(jù)怎么玩“加速”?

    那么為什么需要加速呢?這和數(shù)據(jù)架構(gòu)分層,以及相關(guān)技術(shù)演進(jìn)具有很大關(guān)系。接下來,我們從三個方面的介紹來尋找答案。分別是:基礎(chǔ)版,要適配;標(biāo)配版,做緩存;高配版,深度定制。JindoFS同時涵蓋這三個層次,實現(xiàn)
    的頭像 發(fā)表于 09-16 11:56 ?2567次閱讀
    結(jié)合阿里云上的EMR JindoFS優(yōu)化和實踐,<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>怎么玩“加速”?

    阿里云為什么要重構(gòu)數(shù)據(jù)解決方案 主推下一代技術(shù)

    數(shù)據(jù)并不是一個新概念,大概在十多年前,從有Hadoop開始,就有很多人提出這樣的設(shè)想。面對海量數(shù)據(jù)增長,要想挖掘數(shù)據(jù)價值,首先得有一個能夠存儲各類
    的頭像 發(fā)表于 11-11 14:38 ?1289次閱讀

    阿里云宣布推出業(yè)內(nèi)首個云原生企業(yè)級數(shù)據(jù)解決方案

    據(jù)悉,阿里云云原生企業(yè)級數(shù)據(jù)解決方案采用了存儲計算分離架構(gòu),基于阿里云對象存儲OSS構(gòu)建,并與阿里云數(shù)據(jù)分析Data Lake Analytics(DLA)、
    的頭像 發(fā)表于 12-21 14:07 ?2886次閱讀

    數(shù)據(jù)倉庫、數(shù)據(jù)以及中心化數(shù)據(jù)所有權(quán)的問題

    數(shù)據(jù)和分析領(lǐng)域中,數(shù)據(jù)網(wǎng)格(Data Mesh)范式是取代數(shù)據(jù)、成為主要架構(gòu)模式的強勢候選者。
    的頭像 發(fā)表于 10-18 16:23 ?2263次閱讀
    <b class='flag-5'>數(shù)據(jù)</b>倉庫、<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>以及中心化<b class='flag-5'>數(shù)據(jù)</b>所有權(quán)的問題

    易華錄提出面向數(shù)據(jù)數(shù)據(jù)安全治理框架

    在“十四五”規(guī)劃明確提出加快構(gòu)建全國一體化大數(shù)據(jù)中心體系的背景下,易華錄數(shù)據(jù)以低能耗、跨領(lǐng)域、跨系統(tǒng)的特性提供了全新的技術(shù)架構(gòu)。此外,《數(shù)據(jù)安全法》等法律法規(guī)的相繼出臺,對
    的頭像 發(fā)表于 04-22 08:23 ?2608次閱讀

    數(shù)據(jù)生態(tài)與數(shù)據(jù)智能峰會來襲 24日易華錄有約

    ·數(shù)據(jù)生態(tài)與數(shù)據(jù)智能峰會來襲 6月24日易華錄有約 ? · ? · · ? · · ? · · ? · · ? ? ? ?
    的頭像 發(fā)表于 06-23 17:51 ?1648次閱讀

    如何將SAP歸檔數(shù)據(jù)合并到數(shù)據(jù)

    存儲在傳統(tǒng) SAP 歸檔解決方案中的數(shù)據(jù)無法幫助企業(yè)做出更好的商業(yè)決策 SAP系統(tǒng)已經(jīng)存在了幾十年,與大多數(shù)本地(Hadoop)或基于云的(Google, Azure, AWS)數(shù)據(jù)不同。這就
    的頭像 發(fā)表于 02-14 09:50 ?1148次閱讀

    Azure Data Lake數(shù)據(jù)指南

    Azure Data Lake Storage Gen2 (ADLS Gen2) 是用于大數(shù)據(jù)分析的高度可擴展且經(jīng)濟高效的數(shù)據(jù)解決方案。隨著我們繼續(xù)與客戶合作,利用 ADLS Gen2 從他們
    的頭像 發(fā)表于 05-22 18:01 ?899次閱讀
    Azure Data Lake<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>指南

    數(shù)據(jù)真的能取代數(shù)據(jù)倉庫嗎?【SNP SAP數(shù)據(jù)轉(zhuǎn)型 】

    數(shù)據(jù)數(shù)據(jù)倉庫的存在并不沖突,也并不是取代的關(guān)系,而是相互的融合關(guān)系。 數(shù)據(jù)是近兩年中比較新的技術(shù)在大
    的頭像 發(fā)表于 07-03 15:48 ?768次閱讀
    <b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>真的能取代<b class='flag-5'>數(shù)據(jù)</b>倉庫嗎?【SNP SAP<b class='flag-5'>數(shù)據(jù)</b>轉(zhuǎn)型 】

    什么是數(shù)據(jù)?數(shù)據(jù)數(shù)據(jù)倉庫有什么區(qū)別?

    從本質(zhì)上說,數(shù)據(jù)就是一個信息資源庫。人們常常將數(shù)據(jù)數(shù)據(jù)倉庫混為一談,但兩者在架構(gòu)和滿足的業(yè)務(wù)需求上都不一樣。尤其是,隨著社交媒體
    的頭像 發(fā)表于 05-20 12:38 ?973次閱讀
    什么是<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>?<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>和<b class='flag-5'>數(shù)據(jù)</b>倉庫有什么區(qū)別?