許多人試圖進(jìn)入與數(shù)據(jù)相關(guān)的領(lǐng)域;但是,由于分支學(xué)科之間有很多交叉和混淆,網(wǎng)絡(luò)上也有很多可用的資源,有的人可能會迷失方向,究竟從哪里開始呢?許多人最終學(xué)習(xí)了一套通用的技能,成為了數(shù)據(jù)科學(xué)通才。
這就是我整理這篇文章的原因,希望能幫助你發(fā)現(xiàn)并選擇適合你的方向。在這篇文章中我還總結(jié)了每個領(lǐng)域所需的所有能力,這樣有助于你制定下一步行動計劃!這里的路線圖涵蓋了數(shù)據(jù)和每個人都需要的技能。我們將介紹精準(zhǔn)的細(xì)節(jié)來希望能幫助到你去發(fā)現(xiàn)自己還缺乏什么技能。
數(shù)據(jù)科學(xué)
數(shù)據(jù)科學(xué)被稱為”處理數(shù)據(jù)的藝術(shù)”。作為一名數(shù)據(jù)科學(xué)家,您不只是使用編程工具來從A點到達(dá)B點;但是,你首先要定義A點,然后從這些點開始繪制所有可能的路徑,探索輸入數(shù)據(jù),進(jìn)行假設(shè),正式的提出假設(shè),使用不同的統(tǒng)計和數(shù)學(xué)工具測試你的假設(shè),如果需要,設(shè)計和應(yīng)用實驗,評估當(dāng)前的周期,如果需要,開發(fā)一些編程工具,或者更多…
數(shù)據(jù)科學(xué)有三個主要組成部分:
機器學(xué)習(xí)和計算機科學(xué)技能
數(shù)學(xué)和統(tǒng)計
領(lǐng)域相關(guān)的知識
數(shù)據(jù)科學(xué)包括不同的技術(shù)和工具。在這里,我們將首先在python中列出所需的技能堆棧。
Python方向所需的技能
熟悉Numpy、panda、sklearn和matplotlib
強大的SQL技能,NOSQL技能也是非常必要的。包括設(shè)計規(guī)范化模式,良好的索引技術(shù),和寫作高效的查詢
數(shù)據(jù)清理
良好的數(shù)據(jù)可視化技能(如tableau或library、matplotlib、seaborn、Bookeh等)
統(tǒng)計分析技能。這包括熟悉不同的統(tǒng)計問題類型。
實驗設(shè)計和統(tǒng)計測試(參數(shù)和非參數(shù)測試)
熟悉大數(shù)據(jù)框架/基礎(chǔ)設(shè)施(Spark、hive、Hadoop、Mongo等)
機器學(xué)習(xí)技能(技能水平因業(yè)務(wù)邏輯導(dǎo)致的差異很大)
對數(shù)據(jù)科學(xué)的整個周期有很較強的理解(尖銳問題、探索性數(shù)據(jù)分析、推理、形式化統(tǒng)計建模、解釋和溝通)
講故事的技巧(PowerPoint等)
數(shù)據(jù)科學(xué)是一個非常廣泛的領(lǐng)域,通常需要基于面臨的任務(wù)去學(xué)習(xí)新的知識和技能(如何構(gòu)建、推薦系統(tǒng)、序列建模等)在本文中我只介紹基本技能集。
數(shù)據(jù)分析
數(shù)據(jù)分析基本上是回答在使用數(shù)據(jù)時與業(yè)務(wù)相關(guān)的問題。這些問題可能是:
描述性:您只是在描述您所擁有的數(shù)據(jù)樣本及其相關(guān)統(tǒng)計數(shù)據(jù)。您對樣品之外的數(shù)據(jù)不感興趣。
探索性:你正在探索不同的模式,趨勢數(shù)據(jù)、季節(jié)性、關(guān)系和分布。通常做為探索性數(shù)據(jù)分析可視化工具。
推論性:你正試圖推斷一些有關(guān)的問題的答案,基于假設(shè)檢驗的樣本數(shù)據(jù)以及不同的靜態(tài)測試技術(shù)。
因果關(guān)系:這類問題通常需要運行一個或更多的實驗來檢驗兩個或更多的變量之間的因果關(guān)系。
機械論的:這一個問題根本聯(lián)系在兩個變量集。通常很難在不受控制的情況下發(fā)現(xiàn)它的環(huán)境。
數(shù)據(jù)分析通常被認(rèn)為是數(shù)據(jù)科學(xué)的一個分支,適用于沒有或幾乎沒有技術(shù)背景的專業(yè)人士。它通常需要統(tǒng)計學(xué)和領(lǐng)域相關(guān)經(jīng)驗。
到目前為止,大多數(shù)數(shù)據(jù)分析師使用SPSS等工具;然而,現(xiàn)在出現(xiàn)了一種新的趨勢,即招聘具有R/ python技能的數(shù)據(jù)分析師,因為他們具備更強大的預(yù)測分析和大數(shù)據(jù)工具的技能。
Python方向所需的技能
熟悉Numpy、panda、sklearn和matplotlib
強大的SQL技能,NOSQL技能。正常情況下這包括編寫有效的查詢
良好的數(shù)據(jù)可視化技能(如tableau或library、matplotlib、seaborn、Bookeh等)
統(tǒng)計分析技能
實驗設(shè)計與統(tǒng)計檢驗
了解基本的預(yù)測分析工具,如回歸模型與聚類、隊列分析等。
對數(shù)據(jù)科學(xué)的整個周期有很較強的理解(尖銳問題、探索性數(shù)據(jù)分析、推理、形式化統(tǒng)計建模、解釋和溝通)
機器學(xué)習(xí)工程
機器學(xué)習(xí)是人工智能的一個領(lǐng)域,我們用它來實現(xiàn)那些通常需要人類的智慧來做特別在視覺和語言過程的自動化。ML是AI的分支,它使用數(shù)據(jù)在人工智能中其他非數(shù)據(jù)中心的方來應(yīng)用它。
機器學(xué)習(xí)是其中技術(shù)含量最高的。它需要一系列的技術(shù)技能,比如編寫有效的查詢,高的學(xué)習(xí)算法(時間和精度)。
請永遠(yuǎn)記住,在我們操控電腦時,電腦和我們一樣聰明
Python方向所需的技能
熟悉Numpy、panda、sklearn和matplotlib
強大的SQL技能,NOSQL技能也是非常必要的
良好的數(shù)據(jù)可視化技能(如tableau或library、matplotlib、seaborn等)
熟悉大數(shù)據(jù)框架/基礎(chǔ)設(shè)施(Spark、hive、Hadoop、Mongo等)
對基本的ML算法有很強的理解(回歸,分類、聚類和降維)
特征工程與超參數(shù)微調(diào)
對不同的優(yōu)化算法在什么時候使用有較強的直覺性
構(gòu)造和評估ML算法
了解不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和新的病毒架構(gòu)
強化學(xué)習(xí)
非常熟悉一個或多個TGE深度學(xué)習(xí)框架(TensorFlow、Keras、Caffe或Torch等)
網(wǎng)絡(luò)分析
數(shù)據(jù)工程
數(shù)據(jù)工程是關(guān)注構(gòu)建數(shù)據(jù)管道和基礎(chǔ)設(shè)施的領(lǐng)域。這項工作對于任何擁有大量數(shù)據(jù)并計劃聘請數(shù)據(jù)科學(xué)家的公司來說都是至關(guān)重要的。通常情況下,雇傭數(shù)據(jù)工程師先于雇傭數(shù)據(jù)科學(xué)家。
Python方向所需的技能
深入了解SQL和NoSQL解決方案
系統(tǒng)架構(gòu)技能
用于高效數(shù)據(jù)存儲和檢索的ETL和其他數(shù)據(jù)倉庫工具
熟悉數(shù)據(jù)湖、數(shù)據(jù)倉庫等不同的AWS或任何云服務(wù)
基于大數(shù)據(jù)的分析(即基于mongo或Hadoop的框架,如spark、hive、mapreduce)
基本了解數(shù)據(jù)建模、ML和統(tǒng)計分析
建立高效的數(shù)據(jù)管道
畢竟,所有這些領(lǐng)域在工業(yè)上都是剛剛興起,還沒有很好地建立起來。這就是為什么你需要跟上新的技能,病毒架構(gòu),論文等。
未來,我也許會發(fā)布另一篇關(guān)于最佳推薦的在線課程和學(xué)位的文章,指引我們學(xué)習(xí)每一項技能,并快速瀏覽這些要點。
評論