什么是sklearn
Sklearn原稱是Scikit learn,是機器學習領域中最知名的python模塊之一,是基于Python語言的機器學習的工具。他主要建立在NumPy,SciPy,matplotlib之上,提供簡單高效,用于數(shù)據(jù)挖掘,數(shù)據(jù)分析等的工具,最重要的是,他是開源的,基于BSD許可證,可以商業(yè)使用。這樣子,就給了我們無限的想象。
sklearn與tensorflow優(yōu)劣勢
目前,在社區(qū)中,tensorflow會比較火,很多同學會問,為什么不用tensorflow,這兩個有什么區(qū)別,我想,主要從以下這方面來做對比
1、sklearn主要定位是一種通用的機器學習的學習庫,tf主要定位還是深度學習。
2、特征工程上,sklearn提供了例如維度壓縮、特征選擇等,但是這樣子并不代表這tf就比sklearn弱。在傳統(tǒng)的機器學習中,sklearn需要使用者自行對數(shù)據(jù)進行數(shù)據(jù)處理,例如進行特征選擇,維度壓縮,轉換格式等,但是tf可以在開始進行數(shù)據(jù)訓練的過程中,自行從數(shù)據(jù)中提取有效的特征,從而減少人為的干預。
3、易用性及封裝度上,sklearn更高,這點上,我想很多用過的人都清楚,不做累贅描述。
4、面對項目的不同,sklearn更適合中小型,特別是數(shù)據(jù)量不大的項目,此時更需要手動者對數(shù)據(jù)進行處理,并且選擇合適模型的項目,這些計算是可以在CPU直接計算的,沒有什么硬件要求。相對的,tf的應用領域上,往往更加注重數(shù)據(jù)量較大,一般情況下需要GPU進行加速運算。目前很多公司并沒有很大量的數(shù)據(jù),在選擇上,可以作為參考。
機器學習有幾種方式
針對sklearn來講,經(jīng)常用到的主要有:數(shù)據(jù)預處理、分類、回歸、分監(jiān)督分類(聚類),模型選擇,數(shù)據(jù)降維
應用領域有哪些
目前,sklearn在應用中,主要有四類算法:聚類,分類,回歸,降維
聚類:即非監(jiān)督學習的方式,例如我有一堆人,這堆數(shù)據(jù)是沒有男孩或者女孩這些標簽的,此時我需要給這堆數(shù)據(jù)進行聚類,根據(jù)一些身體特征,分成兩類,并標記為男孩,女孩。
分類/回歸:監(jiān)督學習的方式,還是那堆人,但是已經(jīng)分好類了,男孩,女孩,此時來了一個新人,我根據(jù)這個新人的特征,給他歸類。
降維:如果按照字面意思來理解,那就有問題,當數(shù)據(jù)集有很多屬性的時候,我們此時需要把100個屬性變成10個,并不是挑出10個,而是壓縮成10個,這10個屬性,就集合了100個屬性特征,簡單理解,就是重要的特征就拿起來,不重要的就吸收了。
至此結束,在下一章節(jié)中,我們將會介紹怎么來開發(fā)一個機器學習應用。
-
機器學習
+關注
關注
66文章
8503瀏覽量
134601 -
tensorflow
+關注
關注
13文章
330瀏覽量
61179 -
sklearn
+關注
關注
0文章
2瀏覽量
3498
發(fā)布評論請先 登錄
集成式網(wǎng)絡變壓器優(yōu)劣勢

晶圓級封裝技術的概念和優(yōu)劣勢

歐盟發(fā)布報告分析其在全球半導體領域的優(yōu)劣勢

Arm與RISC-V架構的優(yōu)劣勢比較
藍牙人員定位的優(yōu)劣勢分析
模擬IC設計中Spectre和HSPICE仿真工具的起源、差別和優(yōu)劣勢
一文洞悉PoC公網(wǎng)對講與DMR數(shù)模對講的優(yōu)劣之勢

組串式儲能系統(tǒng)和集中式儲能系統(tǒng)的優(yōu)劣勢
使用獨立ADC和使用MCU的內(nèi)部ADC來實現(xiàn)模數(shù)轉換,有什么性能、技術上的區(qū)別嗎?

評論