99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

開源工具就是你數(shù)據(jù)科學(xué)入門時(shí)所需的全部內(nèi)容

電子工程師 ? 來源:未知 ? 作者:李倩 ? 2018-11-12 14:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

不需要昂貴的工具即可領(lǐng)略數(shù)據(jù)科學(xué)的力量,從這些開源工具起步即可。

無論你是一個(gè)具有數(shù)學(xué)或計(jì)算機(jī)科學(xué)背景的資深數(shù)據(jù)科學(xué)愛好者,還是一個(gè)其它領(lǐng)域的專家,數(shù)據(jù)科學(xué)提供的可能性都在你力所能及的范圍內(nèi),而且你不需要昂貴的,高度專業(yè)化的企業(yè)級(jí)軟件。本文中討論的開源工具就是你入門時(shí)所需的全部內(nèi)容。

Python,其機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)庫(pandas、Keras、TensorFlow、scikit-learn、SciPy、NumPy等),以及大量可視化庫(Matplotlib、pyplot、Plotly等)對(duì)于初學(xué)者和專家來說都是優(yōu)秀的自由及開源軟件工具。它們易于學(xué)習(xí),很受歡迎且受到社區(qū)支持,并擁有為數(shù)據(jù)科學(xué)而開發(fā)的最新技術(shù)和算法。它們是你在開始學(xué)習(xí)時(shí)可以獲得的最佳工具集之一。

許多 Python 庫都是建立在彼此之上的(稱為依賴項(xiàng)),其基礎(chǔ)是NumPy庫。NumPy 專門為數(shù)據(jù)科學(xué)設(shè)計(jì),經(jīng)常被用于在其 ndarray 數(shù)據(jù)類型中存儲(chǔ)數(shù)據(jù)集的相關(guān)部分。ndarray 是一種方便的數(shù)據(jù)類型,用于將關(guān)系表中的記錄存儲(chǔ)為cvs文件或其它任何格式,反之亦然。將 scikit 函數(shù)應(yīng)用于多維數(shù)組時(shí),它特別方便。SQL 非常適合查詢數(shù)據(jù)庫,但是對(duì)于執(zhí)行復(fù)雜和資源密集型的數(shù)據(jù)科學(xué)操作,在 ndarray 中存儲(chǔ)數(shù)據(jù)可以提高效率和速度(但請確保在處理大量數(shù)據(jù)集時(shí)有足夠的 RAM)。當(dāng)你使用 pandas 進(jìn)行知識(shí)提取和分析時(shí),pandas 中的 DataFrame 數(shù)據(jù)類型和 NumPy 中的 ndarray 之間的無縫轉(zhuǎn)換分別為提取和計(jì)算密集型操作創(chuàng)建了一個(gè)強(qiáng)大的組合。

作為快速演示,讓我們啟動(dòng) Python shell 并在 pandas DataFrame 變量中加載來自巴爾的摩的犯罪統(tǒng)計(jì)數(shù)據(jù)的開放數(shù)據(jù)集,并查看加載的一部分 DataFrame:

>>> import pandas aspd

>>> crime_stats =pd.read_csv('BPD_Arrests.csv')

>>> crime_stats.head()

我們現(xiàn)在可以在這個(gè) pandas DataFrame 上執(zhí)行大多數(shù)查詢,就像我們可以在數(shù)據(jù)庫中使用 SQL 一樣。例如,要獲取Description屬性的所有唯一值,SQL 查詢是:

$ SELECT unique(“Description”) from crime_stats;

利用 pandas DataFrame 編寫相同的查詢?nèi)缦滤荆?/p>

它返回的是一個(gè) NumPy 數(shù)組(ndarray 類型):

>>>type(crime_stats['Description'].unique())

接下來讓我們將這些數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò),看看它能多準(zhǔn)確地預(yù)測使用的武器類型,給出的數(shù)據(jù)包括犯罪事件,犯罪類型以及發(fā)生的地點(diǎn):

現(xiàn)在學(xué)習(xí)模型準(zhǔn)備就緒,我們可以執(zhí)行一些測試來確定其質(zhì)量和可靠性。對(duì)于初學(xué)者,讓我們輸入一個(gè)訓(xùn)練集數(shù)據(jù)(用于訓(xùn)練模型的原始數(shù)據(jù)集的一部分,不包括在創(chuàng)建模型中):

>>>predict_weapon.predict(training_set_weapons)

array([4, 4, 4, ...,0, 4, 4])

如你所見,它返回一個(gè)列表,每個(gè)數(shù)字預(yù)測訓(xùn)練集中每個(gè)記錄的武器。我們之所以看到的是數(shù)字而不是武器名稱,是因?yàn)榇蠖鄶?shù)分類算法都是用數(shù)字優(yōu)化的。對(duì)于分類數(shù)據(jù),有一些技術(shù)可以將屬性轉(zhuǎn)換為數(shù)字表示。在這種情況下,使用的技術(shù)是標(biāo)簽編碼,使用 sklearn 預(yù)處理庫中的 LabelEncoder 函數(shù):preprocessing.LabelEncoder()。它能夠?qū)σ粋€(gè)數(shù)據(jù)和其對(duì)應(yīng)的數(shù)值表示來進(jìn)行變換和逆變換。在這個(gè)例子中,我們可以使用 LabelEncoder() 的 inverse_transform 函數(shù)來查看武器 0 和 4 是什么:

>>>preprocessing.LabelEncoder().inverse_transform(encoded_weapons)

array(['HANDS', 'FIREARM', 'HANDS', ...,'FIREARM', 'FIREARM', 'FIREARM']

這很有趣,但為了了解這個(gè)模型的準(zhǔn)確程度,我們將幾個(gè)分?jǐn)?shù)計(jì)算為百分比:

>>>nn_model.score(X, y)

0.81999999999999995

這表明我們的神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確度約為 82%。這個(gè)結(jié)果似乎令人印象深刻,但用于不同的犯罪數(shù)據(jù)集時(shí),檢查其有效性非常重要。還有其它測試來做這個(gè),如相關(guān)性、混淆、矩陣等。盡管我們的模型有很高的準(zhǔn)確率,但它對(duì)于一般犯罪數(shù)據(jù)集并不是非常有用,因?yàn)檫@個(gè)特定數(shù)據(jù)集具有不成比例的行數(shù),其列出 FIREARM 作為使用的武器。除非重新訓(xùn)練,否則我們的分類器最有可能預(yù)測 FIREARM,即使輸入數(shù)據(jù)集有不同的分布。

在對(duì)數(shù)據(jù)進(jìn)行分類之前清洗數(shù)據(jù)并刪除異常值和畸形數(shù)據(jù)非常重要。預(yù)處理越好,我們的見解準(zhǔn)確性就越高。此外,為模型或分類器提供過多數(shù)據(jù)(通常超過 90%)以獲得更高的準(zhǔn)確度是一個(gè)壞主意,因?yàn)樗雌饋頊?zhǔn)確但由于過度擬合而無效。

Jupyter notebooks 相對(duì)于命令行來說是一個(gè)很好的交互式替代品。雖然 CLI 對(duì)于大多數(shù)事情都很好,但是當(dāng)你想要運(yùn)行代碼片段以生成可視化時(shí),Jupyter 會(huì)很出色。它比終端更好地格式化數(shù)據(jù)。

這篇文章 列出了一些最好的機(jī)器學(xué)習(xí)免費(fèi)資源,但是還有很多其它的指導(dǎo)和教程。根據(jù)你的興趣和愛好,你還會(huì)發(fā)現(xiàn)許多開放數(shù)據(jù)集可供使用。作為起點(diǎn),由 Kaggle 維護(hù)的數(shù)據(jù)集,以及在州政府網(wǎng)站上提供的數(shù)據(jù)集是極好的資源。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:Python 數(shù)據(jù)科學(xué)入門

文章出處:【微信號(hào):DBDevs,微信公眾號(hào):數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何將數(shù)據(jù)庫中某表的全部內(nèi)容復(fù)制到另一數(shù)據(jù)庫文件里?

    或者將數(shù)據(jù)庫中一張表的全部內(nèi)容復(fù)制到數(shù)據(jù)庫中另一張表中
    發(fā)表于 03-15 16:02

    入門數(shù)據(jù)科學(xué)資源一覽

    在本篇指南中,我們將會(huì)給初學(xué)者分享65個(gè)精心挑選并且?guī)ф溄拥拿赓M(fèi)數(shù)據(jù)資源。為了成為一名數(shù)據(jù)科學(xué)家,在前進(jìn)的路上會(huì)遇到令人畏懼的挑戰(zhàn)。將需
    發(fā)表于 09-22 14:25 ?0次下載

    2018年數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)工具調(diào)查

    近日,數(shù)據(jù)科學(xué)網(wǎng)站KDnuggets發(fā)布 2018年數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)工具調(diào)查結(jié)果。
    的頭像 發(fā)表于 06-07 17:05 ?4625次閱讀
    2018年<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>科學(xué)</b>和機(jī)器學(xué)習(xí)<b class='flag-5'>工具</b>調(diào)查

    開源工具Arena,數(shù)據(jù)科學(xué)家再也不用為Kubernetes犯難啦

    摘要:?為什么要用Kubernetes去難為數(shù)據(jù)科學(xué)家呢?2018年7月,阿里云將深度學(xué)習(xí)工具Arena貢獻(xiàn)給了開源社區(qū),數(shù)據(jù)
    發(fā)表于 08-21 15:54 ?213次閱讀

    Python網(wǎng)頁爬蟲,文本處理,科學(xué)計(jì)算,機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘工具

    本文檔的主要內(nèi)容詳細(xì)介紹的是Python工具包合集包括了:網(wǎng)頁爬蟲工具集,文本處理工具集,Python科學(xué)計(jì)算
    發(fā)表于 09-07 17:14 ?39次下載
    Python網(wǎng)頁爬蟲,文本處理,<b class='flag-5'>科學(xué)</b>計(jì)算,機(jī)器學(xué)習(xí)和<b class='flag-5'>數(shù)據(jù)</b>挖掘<b class='flag-5'>工具</b>集

    IBM與NVIDIA攜手為數(shù)據(jù)科學(xué)家拓展開源機(jī)器學(xué)習(xí)工具

    2018年10月,IBM宣布計(jì)劃將全新RAPIDS? 開源軟件納入到其企業(yè)級(jí)數(shù)據(jù)科學(xué)平臺(tái)中,涵蓋本地預(yù)置、混合云和多云環(huán)境。憑借其龐大的深度學(xué)習(xí)與機(jī)器學(xué)習(xí)解決方案組合,IBM能為偏好不同部署模型的
    的頭像 發(fā)表于 10-20 09:43 ?3256次閱讀

    Arduino實(shí)踐中科學(xué)邏輯的應(yīng)用和VVVV入門教程

    本文檔的主要內(nèi)容詳細(xì)介紹的是openbook開源雜志2013年第五期主要內(nèi)容包括了:Arduino實(shí)踐中科學(xué)邏輯的應(yīng)用和VVVV入門初級(jí)教程
    發(fā)表于 11-01 10:51 ?19次下載
    Arduino實(shí)踐中<b class='flag-5'>科學(xué)</b>邏輯的應(yīng)用和VVVV<b class='flag-5'>入門</b>教程

    如何用TensorFlow進(jìn)行機(jī)器學(xué)習(xí)研究

    從理論上講,這幾乎是您使用 TensorFlow 進(jìn)行機(jī)器學(xué)習(xí)研究所需要的全部內(nèi)容。
    的頭像 發(fā)表于 02-05 10:06 ?2156次閱讀
    如何用TensorFlow進(jìn)行機(jī)器學(xué)習(xí)研究

    干貨 數(shù)據(jù)科學(xué)入門指南

    最近,在Github上發(fā)現(xiàn)了一份數(shù)據(jù)科學(xué)的“入門套路”。無論是從未嘗試過編寫代碼,還是需要深入復(fù)習(xí)相關(guān)數(shù)學(xué)知識(shí),都可以在這份
    的頭像 發(fā)表于 07-19 14:09 ?3499次閱讀
    干貨 <b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>科學(xué)</b><b class='flag-5'>入門</b>指南

    什么是數(shù)據(jù)科學(xué)?數(shù)據(jù)科學(xué)入門教程說明

    本文檔的主要內(nèi)容詳細(xì)介紹的是什么是數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)入門教程說明
    發(fā)表于 04-10 08:00 ?1次下載
    什么是<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>科學(xué)</b>?<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>科學(xué)</b>的<b class='flag-5'>入門</b>教程說明

    藍(lán)牙智能小車手機(jī)遙控全部開源資料合集免費(fèi)下載

    本文檔的主要內(nèi)容詳細(xì)介紹的是藍(lán)牙智能小車手機(jī)遙控全部開源資料合集免費(fèi)下載。
    發(fā)表于 05-28 14:55 ?62次下載
    藍(lán)牙智能小車手機(jī)遙控<b class='flag-5'>全部</b><b class='flag-5'>開源</b>資料合集免費(fèi)下載

    數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)所需要的基本數(shù)學(xué)技能

    作為一切科學(xué)的基礎(chǔ),數(shù)學(xué)在數(shù)據(jù)科學(xué)領(lǐng)域也占據(jù)著重要地位。如果是一名數(shù)據(jù)科學(xué)愛好者,一定想過這些
    的頭像 發(fā)表于 07-06 09:39 ?2786次閱讀

    數(shù)據(jù)科學(xué)工具數(shù)不勝數(shù)——應(yīng)該選擇哪一個(gè)?

    我們得承認(rèn)——數(shù)據(jù)科學(xué)的范圍龐雜,每一個(gè)領(lǐng)域要求處理數(shù)據(jù)的方式各有不同,這讓許多分析家/數(shù)據(jù)科學(xué)家陷入困惑。而如果
    的頭像 發(fā)表于 08-27 15:55 ?1879次閱讀

    2020年常見的20種數(shù)據(jù)科學(xué)工具,了解多少

    執(zhí)行數(shù)據(jù)科學(xué)任務(wù)的最佳工具有哪些?作為數(shù)據(jù)科學(xué)新手,應(yīng)該選擇哪些
    的頭像 發(fā)表于 08-27 15:56 ?4421次閱讀

    液晶屏維修從入門到精通

    資料介紹了如何從液晶屏入門到提高全部內(nèi)容
    發(fā)表于 02-24 16:46 ?5次下載