構(gòu)建機(jī)器學(xué)習(xí)項(xiàng)目檔案
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評論(0)
原文:Building a data science portfolio: Machine learning project
作者:Vik Paruchuri,開發(fā)者,數(shù)據(jù)科學(xué)家,Dataquest.io創(chuàng)始人
翻譯:Alvin 校審:KK4SBB
責(zé)編:周建?。▃houjd@csdn.net)
下文僅是一系列關(guān)于如何建立數(shù)據(jù)科學(xué)檔案(Data Science Portfolio)的文章的一部分。如果你喜歡此篇文章,并且想得到該系列最新的連載文章,可以在頁面的底部選擇訂閱。
大數(shù)據(jù)企業(yè)在評估新員工的時(shí)候會(huì)越來越重視他們的檔案。原因之一就是檔案是判斷某人在現(xiàn)實(shí)世界的技能的最佳方式。但好的消息是此檔案完全在你的的掌控范圍內(nèi),如果你做了一定的工作,你將得到一份企業(yè)青睞的好檔案。
建立優(yōu)質(zhì)數(shù)據(jù)檔案的第一步是確定需要展示哪些技能。如下是企業(yè)想在你的數(shù)據(jù)檔案里看到的一些基本技能:
溝通的能力。與他人合作的能力。技術(shù)的程度。解釋能力的相關(guān)數(shù)據(jù)。動(dòng)力和主觀能動(dòng)性。
任何一個(gè)優(yōu)秀的檔案是由多個(gè)項(xiàng)目組成,每個(gè)項(xiàng)目至少包括上述的一到兩點(diǎn)。此文是一系列關(guān)于如何建立數(shù)據(jù)科學(xué)檔案的文章的一部分。在文章中將會(huì)講述到如何在你的數(shù)據(jù)檔案中添加第二個(gè)項(xiàng)目,而且將會(huì)闡述如何構(gòu)建一個(gè)端對端的機(jī)器學(xué)習(xí)項(xiàng)目。在文章最后,你將會(huì)擁有一個(gè)通過數(shù)據(jù)展現(xiàn)你的水平和技術(shù)能力的項(xiàng)目。如果你感興趣一定不能錯(cuò)過此篇文章。
端對端的項(xiàng)目
作為一個(gè)數(shù)據(jù)科學(xué)的科學(xué)家,有時(shí)候你會(huì)被要求得出一個(gè)數(shù)據(jù)集并且要描述他。在這種情況下,良好的交流過程和連貫的思路變得很重要。比如一些工具例如“Jupyter 記事本”(Jupyter notebook),這個(gè)工具在我們這之前的文章中使用過,對我們的幫助很大。這里想說的是,我們期待的成果是一個(gè)能總結(jié)你的發(fā)現(xiàn)成果的演示或者文檔。
然而有些時(shí)候,你會(huì)被要求創(chuàng)建一個(gè)具有操作價(jià)值的項(xiàng)目。這個(gè)具有操作價(jià)值的項(xiàng)目直接影響公司的日常運(yùn)作,并且使用的時(shí)間和操作的人數(shù)都會(huì)很大。這樣的任務(wù)可能是用來“創(chuàng)建一個(gè)算法來預(yù)測我們的客戶的流失率”或者“創(chuàng)建一個(gè)可以自動(dòng)標(biāo)識(shí)我們的文章的模型”。在這只能過情況下,敘述故事跟技術(shù)能力相比,就顯得不是那么重要了。你需要構(gòu)建并且了解一個(gè)數(shù)據(jù)集,然后創(chuàng)建一組可以處理數(shù)據(jù)的腳本程序。重要的是這些腳本運(yùn)行要很快并且盡可能少的使用例如內(nèi)存的系統(tǒng)資源。常見的是這些腳本程序?qū)⑦\(yùn)行不止一次,所以需要交付的是實(shí)實(shí)在在的程序代碼而不是一個(gè)流程演示。同時(shí)這些交付項(xiàng)目往往是需要納入業(yè)務(wù)流程的范疇,甚至可能是面向用戶的。
構(gòu)建端對端項(xiàng)目的主要要素如下:
理解上下文。研究數(shù)據(jù)并找出其中細(xì)微的差別。創(chuàng)建一個(gè)結(jié)構(gòu)良好的項(xiàng)目,所以此項(xiàng)目才能輕松地集成到操作流程里。編寫高性能的,運(yùn)行速度快的,并使用最少系統(tǒng)資源的代碼。記錄你的程序安裝和使用情況,好的記錄會(huì)反應(yīng)你的代碼質(zhì)量的好壞,從而方便代碼的復(fù)用。
為了有效創(chuàng)建這種類型的項(xiàng)目,我們需要操作多個(gè)文件。使用文本編輯器比如Atom,或者集成開發(fā)環(huán)境比如強(qiáng)烈推薦PyCharm。這些工具可以方便你在文件之間切換并且編輯不同類型的文件,比如markdown文件,Python文件,csv文件等等。還有構(gòu)建你的項(xiàng)目,所以版本控制變得非常容易操作,同時(shí)可以上傳到可協(xié)作編碼工具例如Github。
這個(gè)項(xiàng)目的Github頁面
在這篇文章中,我們將使用我們的編輯工具,比如Pandas和scikit-learn。我們將廣泛的利用Pandas的數(shù)據(jù)框,它可以很容易地閱讀和操作Python上的數(shù)據(jù)表格。
尋找優(yōu)秀的數(shù)據(jù)集
一個(gè)好的端對端數(shù)據(jù)集項(xiàng)目是很難找到。這就要求數(shù)據(jù)量需要足夠的大,這樣才能使得存儲(chǔ)器和系統(tǒng)性能發(fā)揮作用。它還可能需要在操作上非常有用,例如,在這個(gè)數(shù)據(jù)集中包含錄取標(biāo)準(zhǔn),畢業(yè)率數(shù)據(jù),并且畢業(yè)后的未來收益對于一個(gè)美國大學(xué)都是將是一個(gè)值得稱贊的巨大數(shù)據(jù)檔案。但是,當(dāng)你在考慮這個(gè)數(shù)據(jù)集時(shí),你會(huì)清楚地發(fā)現(xiàn)它沒有足夠的差別以建立一個(gè)良好的端對端項(xiàng)目。例如,你可以告訴別人他的潛在的未來收益,如果他們?nèi)チ艘粋€(gè)特殊的大學(xué),但是這將沒有足夠的差別來快速表明其技術(shù)水平。你也可以判別是否具有較高入學(xué)標(biāo)準(zhǔn)的院校會(huì)擁有更多薪資的畢業(yè)生,這將比運(yùn)營更具有故事性。
當(dāng)你擁有比千兆字節(jié)還要多的數(shù)據(jù)時(shí),這些內(nèi)存和性能的限制往往會(huì)發(fā)揮作用,同時(shí)當(dāng)你需要預(yù)測一些事情的時(shí)候,其中涉及的運(yùn)行算法是要超過數(shù)據(jù)集本身的。
良好的操作數(shù)據(jù)使你能夠創(chuàng)建一組轉(zhuǎn)換數(shù)據(jù)的腳本程序,并且即時(shí)地回答問題。一個(gè)很好的例子就是關(guān)于股票價(jià)格的數(shù)據(jù)集。你將能夠預(yù)測第二天的價(jià)格,并將最新的數(shù)據(jù)反饋給后臺(tái)作為交易的結(jié)果。這將有利于你進(jìn)行交易甚至可能從中盈利。這不僅僅是講述一個(gè)故事,而是從中獲利。
這里有一些能夠找到這樣的數(shù)據(jù)集的好地方:
/r/datasets,一個(gè)擁有數(shù)百個(gè)有趣的數(shù)據(jù)集的版塊。Google Public Datasets,可以通過谷歌的BigQuery得到的公共數(shù)據(jù)集。Awesome datasets,一個(gè)托管在Github上的數(shù)據(jù)集列表。
在查看這些數(shù)據(jù)集的時(shí)候,想想有人會(huì)問到跟此數(shù)據(jù)集相關(guān)的問題,并且如果這些問題都是一次性的(“住房價(jià)格和標(biāo)準(zhǔn)普爾500指數(shù)有什么關(guān)聯(lián)?”)或者是(“你能預(yù)測股市嗎?”)。這里的關(guān)鍵是找到正在進(jìn)行的,并需要相同的代碼在多次運(yùn)行的問題中輸入不同的數(shù)據(jù)。
對于這篇文章的目的而言,我們將看看Fannie Mae貸款數(shù)據(jù),F(xiàn)annie Mae是美國政府贊助的企業(yè),用來從其他貸款人手中購買按揭貸款。然后,它捆綁了這些貸款作為抵押貸款放入證券和轉(zhuǎn)售他人。這使得貸款人有更多的按揭貸款,并且在市場上創(chuàng)造更多的流動(dòng)性。這在理論上會(huì)產(chǎn)生更多的購房交易和更好地貸款條件。雖然從借款人的角度來看,事情保持大致相同。
Fannie Mae發(fā)布了兩種類型的數(shù)據(jù),一種是獲得貸款的數(shù)據(jù)另一種是貸款表現(xiàn)的數(shù)據(jù)。在理想情況下,有人從貸款人借錢,然后償還貸款,直到余額為零。然而,一些借貸人錯(cuò)過了多次付款的機(jī)會(huì),這可能會(huì)導(dǎo)致他們喪失抵押品的贖回權(quán)。當(dāng)?shù)盅浩返内H回權(quán)喪失的時(shí)候,房子就會(huì)被銀行沒收,因?yàn)樗麄儫o法按時(shí)還款。Fannie Mae錯(cuò)過了對支付貸款的跟蹤和哪些貸款被取消了贖回權(quán)。此數(shù)據(jù)每季度出版一次,并且落后當(dāng)前數(shù)據(jù)一年,在撰寫本文時(shí)所用的最新的數(shù)據(jù)集止于2015年第一季度。
這些由Fannie Mae出版的采集數(shù)據(jù),包含借貸人的信息,比如,信用分?jǐn)?shù),貸款和家庭的信息,收入信息。當(dāng)貸款放出后,每季度公布這些信息,包括借款人的取消抵押品贖回權(quán)的狀態(tài)和任何的支付信息。這些貸款可能會(huì)包含十幾行的情況數(shù)據(jù)。好消息是這些收獲的數(shù)據(jù)告訴你Fannie Mae 目前正在控制貸款,并且這些數(shù)據(jù)包含了一系列貸款狀態(tài)的最新信息。其中一個(gè)最新的狀態(tài)可能告訴我們貸款在一些季度會(huì)取消抵押品贖回權(quán)。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
下載地址
構(gòu)建機(jī)器學(xué)習(xí)項(xiàng)目檔案下載
相關(guān)電子資料下載
- 如何創(chuàng)建FPGA控制的機(jī)器人手臂 49
- 機(jī)器學(xué)習(xí)需要掌握的九種工具盤點(diǎn) 16
- Hugging Face被限制訪問 404
- 《人工智能在指揮和控制系統(tǒng)中的決策支持》 133
- 生成式人工智能和機(jī)器學(xué)習(xí)正在這9個(gè)學(xué)科中打造未來 216
- 智慧礦山AI算法帶你解決皮帶運(yùn)行難題! 51
- 人工智能領(lǐng)域存在第一性原理嗎? 53
- 英特爾啟動(dòng)首個(gè)AI PC加速計(jì)劃,目標(biāo)2025年前為超100萬臺(tái)PC提供AI特性 223
- PLC就是邏輯控制嗎?PLC的網(wǎng)絡(luò)通信怎么樣? 51
- 機(jī)器學(xué)習(xí)常用的5種采樣方法盤點(diǎn) 45