99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習如何幫助解決大數(shù)據(jù)轉換及管理問題?

電子設計 ? 來源:電子設計 ? 作者:電子設計 ? 2020-12-24 23:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

盡管大數(shù)據(jù)分析技術取得了驚人的進步,但我們在很大程度上仍需要手動來完成重要任務,例如數(shù)據(jù)轉換和數(shù)據(jù)管理。隨著數(shù)據(jù)量的增長,手動完成任務與自動化產(chǎn)生的生產(chǎn)力差距越來越大,這使得以人工智能機器學習為基礎的自動化趨勢越來越有市場。機器學習可以幫助縮小這一差距嗎?

坦率地說,數(shù)據(jù)轉換和數(shù)據(jù)管理問題頗具挑戰(zhàn)性。各行各業(yè)的公司都渴望將機器學習與他們的數(shù)據(jù)庫結合使用,以獲得競爭優(yōu)勢。但是,數(shù)據(jù)不干凈、數(shù)據(jù)未集成、不可比較和不匹配的數(shù)據(jù)問題層出不窮,使公司的大數(shù)據(jù)計劃陷入困境。

許多從事機器學習的數(shù)據(jù)科學家花費了90%的時間來查找、集成、修復和清理其輸入數(shù)據(jù)。 人們似乎沒有意識到數(shù)據(jù)科學家不再是數(shù)據(jù)科學家,而是成為了數(shù)據(jù)集成商。

不過也有一個好消息,機器學習本身可以幫助機器學習。這個想法是利用算法的預測能力來模擬人類數(shù)據(jù)處理。這不是100%完美的解決方案,但它可以幫助緩解工作強度,讓數(shù)據(jù)科學家轉向真正的創(chuàng)新工作。

您可以在任何你能買到的地方購買ML,通過使用ML來來幫助您完成ETL的轉換部分。

轉換和管理數(shù)據(jù)

雖然它們在某些方面是相似的,但是數(shù)據(jù)管理和數(shù)據(jù)轉換之間有重要的區(qū)別。數(shù)據(jù)轉換是數(shù)據(jù)集成過程中的第一步,其目標是將異類數(shù)據(jù)轉換為通用的全局模式,組織可以提前制定該模式。自動腳本通常用于將美元轉換成歐元,或將英鎊轉換成公斤。

轉換階段之后,分析人員開始管理和分析數(shù)據(jù)。第一步通常涉及運行“match/merge”函數(shù)來創(chuàng)建與相同實體對應的記錄集群,例如將不同但拼寫相似的名稱分組在一起。像“編輯距離”這樣的概念可以用來確定兩個不同實體之間的距離。

然后使用更多的規(guī)則來比較各種實體,以確定給定記錄的最佳值。公司可以聲明最后一項是最好的,或者使用一組值中的公共值,這樣就可以產(chǎn)生最佳數(shù)據(jù)。

幾十年來,這種通用的兩步過程已在許多數(shù)據(jù)倉庫中使用,并且在現(xiàn)代的數(shù)據(jù)湖中繼續(xù)使用。但是,ETL和數(shù)據(jù)管理在很大程度上未能跟上今天的數(shù)據(jù)量以及企業(yè)面臨的挑戰(zhàn)規(guī)模。

例如,這需要預先定義一個全局模式,這阻礙了許多ETL的進行,這些工作試圖集成更多的數(shù)據(jù)源。在有些時候,程序員無法跟上必須設置的數(shù)據(jù)轉換規(guī)則的數(shù)量。

如果您有10個數(shù)據(jù)源,您還可以這樣做,但是,如果您有10,000個,那就不太可能了。

顯然,這需要一種不同的方法。

在小型企業(yè)中,您可能可以提前創(chuàng)建全局數(shù)據(jù)模式,然后在整個組織中強制使用它,從而省去了昂貴的ETL和數(shù)據(jù)管理項目的成本,一起放在數(shù)據(jù)倉庫中。但是,在大型組織中,這種自上而下的方法不可避免地會失敗。

即使大型企業(yè)中的業(yè)務部門彼此非常相似,它們記錄數(shù)據(jù)的方式也會有微小的差異。這些微小差異需要加以考慮,然后才能對其進行有意義的分析,這只是企業(yè)數(shù)據(jù)性質的反映。

因此業(yè)務靈活性需要一定程度的獨立性,這意味著每個業(yè)務部門都建立自己的數(shù)據(jù)中心。

例如,以豐田汽車歐洲公司(Toyota Motor Europe)為例,該公司在每個業(yè)務國家都有獨立的客戶支持組織。該公司希望為250個數(shù)據(jù)庫中的所有實體創(chuàng)建一個主記錄,其中包含40種不同語言的3000萬條記錄。

豐田汽車歐洲公司面臨的問題是,ETL和數(shù)據(jù)管理項目的規(guī)模是巨大的,如果按照傳統(tǒng)方式進行,將消耗大量的資源。該公司決定使用Tamr來幫助解決機器學習的挑戰(zhàn),而不是數(shù)據(jù)轉換和使用數(shù)據(jù)管理過程。

ETL最大的問題是已經(jīng)預先定義了全局模式,如何大規(guī)模地做到這一點是個問題。需要使用機器學習進行自下向上的匹配、自下而上地構造目標模式,從規(guī)模上看,這是唯一可行的方式。

這并不意味著機器學習提供了非常簡單的方法來解決這些棘手的數(shù)據(jù)集成問題。它仍然需要大量的數(shù)據(jù)和處理能力,您通常需要一個最優(yōu)秀的員工來幫助指導軟件獲得正確的數(shù)據(jù)分析結果與決策見解。

這樣來看的話,成本并不便宜,但這不是最重要的。但還有一個問題是,不同的供應商之間該如何選擇。不同國家或地區(qū)的供應商提供的解決方案不同,而且出于一些宏觀因素,會出現(xiàn)不同的選擇。

出于安全考慮,這些數(shù)據(jù)問題不能完全外包給其他公司,所以不要指望完全用機器學習來處理數(shù)據(jù),人在其中的作用還是非常重要的。人與機器學習合作才能夠使您的數(shù)據(jù)集成和管理效率最大化。

審核編輯 黃昊宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    智慧環(huán)保大數(shù)據(jù)管理平臺有什么功能

    在環(huán)境污染問題日益嚴峻的當下,智慧環(huán)保大數(shù)據(jù)管理平臺成為環(huán)境治理的重要利器。它圍繞污水處理、垃圾處理、氣體監(jiān)測三大核心場景,深度融合大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能等技術,構建起全方位、智能化的環(huán)境管理
    的頭像 發(fā)表于 06-06 15:17 ?201次閱讀
    智慧環(huán)保<b class='flag-5'>大數(shù)據(jù)管理</b>平臺有什么功能

    機器學習模型市場前景如何

    當今,隨著算法的不斷優(yōu)化、數(shù)據(jù)量的爆炸式增長以及計算能力的飛速提升,機器學習模型的市場前景愈發(fā)廣闊。下面,AI部落小編將探討機器學習模型市場
    的頭像 發(fā)表于 02-13 09:39 ?363次閱讀

    埃斯頓機器人數(shù)據(jù)中臺可以實現(xiàn)什么功能

    。 2. 數(shù)據(jù)存儲與管理 高效存儲解決方案 :提供分布式存儲系統(tǒng),支持大規(guī)模數(shù)據(jù)的存儲和管理。 數(shù)據(jù)備份與恢復 :具備
    的頭像 發(fā)表于 02-05 16:47 ?356次閱讀

    傳統(tǒng)機器學習方法和應用指導

    用于開發(fā)生物學數(shù)據(jù)機器學習方法。盡管深度學習(一般指神經(jīng)網(wǎng)絡算法)是一個強大的工具,目前也非常流行,但它的應用領域仍然有限。與深度學習相比
    的頭像 發(fā)表于 12-30 09:16 ?1191次閱讀
    傳統(tǒng)<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法和應用指導

    什么是機器學習?通過機器學習方法能解決哪些問題?

    計算機系統(tǒng)自身的性能”。事實上,由于“經(jīng)驗”在計算機系統(tǒng)中主要以數(shù)據(jù)的形式存在,因此機器學習需要設法對數(shù)據(jù)進行分析學習,這就使得它逐漸成為智
    的頭像 發(fā)表于 11-16 01:07 ?965次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學習</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法能解決哪些問題?

    NPU與機器學習算法的關系

    在人工智能領域,機器學習算法是實現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學習
    的頭像 發(fā)表于 11-15 09:19 ?1223次閱讀

    eda在機器學習中的應用

    機器學習項目中,數(shù)據(jù)預處理和理解是成功構建模型的關鍵。探索性數(shù)據(jù)分析(EDA)是這一過程中不可或缺的一部分。 1. 數(shù)據(jù)清洗
    的頭像 發(fā)表于 11-13 10:42 ?902次閱讀

    人工智能、機器學習和深度學習存在什么區(qū)別

    人工智能指的是在某種程度上顯示出類似人類智能的設備。AI有很多技術,但其中一個很大的子集是機器學習——讓算法從數(shù)據(jù)學習。
    發(fā)表于 10-24 17:22 ?2978次閱讀
    人工智能、<b class='flag-5'>機器</b><b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b>存在什么區(qū)別

    智慧城市與大數(shù)據(jù)的關系

    智慧城市與大數(shù)據(jù)之間存在著密切的關系,這種關系體現(xiàn)在大數(shù)據(jù)對智慧城市建設的支撐和推動作用,以及智慧城市產(chǎn)生的大量數(shù)據(jù)大數(shù)據(jù)技術的應用需求。 大數(shù)據(jù)
    的頭像 發(fā)表于 10-24 15:27 ?1331次閱讀

    基于Kepware的Hadoop大數(shù)據(jù)應用構建-提升數(shù)據(jù)價值利用效能

    處理超大數(shù)據(jù)集。 Hadoop的生態(tài)系統(tǒng)非常豐富,包括許多相關工具和技術,如Hive、Pig、HBase等,這些工具可以方便地構建復雜的大數(shù)據(jù)應用。Hadoop廣泛應用于各種場景,包括數(shù)據(jù)處理和分析、
    的頭像 發(fā)表于 10-08 15:12 ?354次閱讀
    基于Kepware的Hadoop<b class='flag-5'>大數(shù)據(jù)</b>應用構建-提升<b class='flag-5'>數(shù)據(jù)</b>價值利用效能

    基于大數(shù)據(jù)與深度學習的穿戴式運動心率算法

    性能的關鍵手段。然而,在復雜多變的運動環(huán)境中,準確測量心率數(shù)據(jù)對于傳統(tǒng)算法而言具有較大的技術瓶頂。本文將探討如何運用大數(shù)據(jù)和深度學習技術來開發(fā)創(chuàng)新的穿戴式運動心率算
    的頭像 發(fā)表于 09-10 08:03 ?645次閱讀
    基于<b class='flag-5'>大數(shù)據(jù)</b>與深度<b class='flag-5'>學習</b>的穿戴式運動心率算法

    設備管理大數(shù)據(jù)賦能開啟智能新篇章

    傳統(tǒng)設備管理存在人工錄入易出錯、流程復雜、效率低等問題,且缺乏對設備的全面管理和預防性維護。大數(shù)據(jù)應用面臨數(shù)據(jù)安全問題,企業(yè)必須采取多方面措施保障數(shù)
    的頭像 發(fā)表于 09-04 11:00 ?77次閱讀
    設備<b class='flag-5'>管理</b>:<b class='flag-5'>大數(shù)據(jù)</b>賦能開啟智能新篇章

    【「時間序列與機器學習」閱讀體驗】時間序列的信息提取

    個重要環(huán)節(jié),目標是從給定的時間序列數(shù)據(jù)中提取出有用的信息和特征,以支持后續(xù)的分析和預測任務。 特征工程(Feature Engineering)是將數(shù)據(jù)轉換為更好地表示潛在問題的特征,從而提高
    發(fā)表于 08-17 21:12

    【《時間序列與機器學習》閱讀體驗】+ 時間序列的信息提取

    本人有些機器學習的基礎,理解起來一點也不輕松,加油。 作者首先說明了時間序列的信息提取是時間序列分析的一個重要環(huán)節(jié),目標是從給定的時間序列數(shù)據(jù)中提取出有用的信息和特征,以支持后續(xù)的分析和預測任務,可以
    發(fā)表于 08-14 18:00

    【《時間序列與機器學習》閱讀體驗】+ 了解時間序列

    收到《時間序列與機器學習》一書,彩色印刷,公式代碼清晰,非常精美。感謝作者,感謝電子發(fā)燒友提供了一個讓我學習時間序列及應用的機會! 前言第一段描述了編寫背景: 由此可知,這是一本關于時間序列進行
    發(fā)表于 08-11 17:55