99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

回顧一下機(jī)器學(xué)習(xí)分類(lèi)算法

新機(jī)器視覺(jué) ? 來(lái)源:builtin ? 作者:builtin ? 2021-05-11 09:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

說(shuō)起分類(lèi)算法,相信學(xué)過(guò)機(jī)器學(xué)習(xí)的同學(xué)都能侃上一二。

可是,你能夠如數(shù)家珍地說(shuō)出所有常用的分類(lèi)算法,以及他們的特征、優(yōu)缺點(diǎn)嗎?比如說(shuō),你可以快速地回答下面的問(wèn)題么:

KNN算法的優(yōu)缺點(diǎn)是什么?

Naive Bayes算法的基本假設(shè)是什么?

entropy loss是如何定義的?

最后,分類(lèi)算法調(diào)參常用的圖像又有哪些?

答不上來(lái)?別怕!一起來(lái)通過(guò)這篇文章回顧一下機(jī)器學(xué)習(xí)分類(lèi)算法吧(本文適合已有機(jī)器學(xué)習(xí)分類(lèi)算法基礎(chǔ)的同學(xué))。

機(jī)器學(xué)習(xí)是一種能從數(shù)據(jù)中學(xué)習(xí)的計(jì)算機(jī)編程科學(xué)以及藝術(shù),就像下面這句話說(shuō)得一樣。

機(jī)器學(xué)習(xí)是使計(jì)算機(jī)無(wú)需顯式編程就能學(xué)習(xí)的研究領(lǐng)域。 ——阿瑟·塞繆爾,1959年

不過(guò)還有一個(gè)更好的定義:

“如果一個(gè)程序在使用既有的經(jīng)驗(yàn)(E)執(zhí)行某類(lèi)任務(wù)(T)的過(guò)程中被認(rèn)為是“具備學(xué)習(xí)能力的”,那么它一定需要展現(xiàn)出:利用現(xiàn)有的經(jīng)驗(yàn)(E),不斷改善其完成既定任務(wù)(T)的性能(P)的特性?!?——Tom Mitchell, 1997

例如,你的垃圾郵件過(guò)濾器是一個(gè)機(jī)器學(xué)習(xí)程序,通過(guò)學(xué)習(xí)用戶標(biāo)記好的垃圾郵件和常規(guī)非垃圾郵件示例,它可以學(xué)會(huì)標(biāo)記垃圾郵件。系統(tǒng)用于學(xué)習(xí)的示例稱(chēng)為訓(xùn)練集。在此案例中,任務(wù)(T)是標(biāo)記新郵件是否為垃圾郵件,經(jīng)驗(yàn)(E)是訓(xùn)練數(shù)據(jù),性能度量(P) 需要定義。例如,你可以定義正確分類(lèi)的電子郵件的比例為P。這種特殊的性能度量稱(chēng)為準(zhǔn)確度,這是一種有監(jiān)督的學(xué)習(xí)方法,常被用于分類(lèi)任務(wù)。

機(jī)器學(xué)習(xí)入門(mén)指南:

https://builtin.com/data-science/introduction-to-machine-learning

監(jiān)督學(xué)習(xí)

在監(jiān)督學(xué)習(xí)中,算法從有標(biāo)記數(shù)據(jù)中學(xué)習(xí)。在理解數(shù)據(jù)之后,該算法通過(guò)將模式與未標(biāo)記的新數(shù)據(jù)關(guān)聯(lián)來(lái)確定應(yīng)該給新數(shù)據(jù)賦哪種標(biāo)簽。

監(jiān)督學(xué)習(xí)可以分為兩類(lèi):分類(lèi)和回歸。

分類(lèi)問(wèn)題預(yù)測(cè)數(shù)據(jù)所屬的類(lèi)別;

分類(lèi)的例子包括垃圾郵件檢測(cè)、客戶流失預(yù)測(cè)、情感分析、犬種檢測(cè)等。

回歸問(wèn)題根據(jù)先前觀察到的數(shù)據(jù)預(yù)測(cè)數(shù)值;

回歸的例子包括房?jī)r(jià)預(yù)測(cè)、股價(jià)預(yù)測(cè)、身高-體重預(yù)測(cè)等。

機(jī)器學(xué)習(xí)新手的十大算法之旅:

https://builtin.com/data-science/tour-top-10-algorithms-machine-learning-newbies

分類(lèi)問(wèn)題

分類(lèi)是一種基于一個(gè)或多個(gè)自變量確定因變量所屬類(lèi)別的技術(shù)。

3a483a82-b1d6-11eb-bf61-12bb97331649.jpg

分類(lèi)用于預(yù)測(cè)離散響應(yīng)

邏輯回歸

邏輯回歸類(lèi)似于線性回歸,適用于因變量不是一個(gè)數(shù)值字的情況 (例如,一個(gè)“是/否”的響應(yīng))。它雖然被稱(chēng)為回歸,但卻是基于根據(jù)回歸的分類(lèi),將因變量分為兩類(lèi)。

3a8121c6-b1d6-11eb-bf61-12bb97331649.jpg

如上所述,邏輯回歸用于預(yù)測(cè)二分類(lèi)的輸出。例如,如果信用卡公司構(gòu)建一個(gè)模型來(lái)決定是否通過(guò)向客戶的發(fā)行信用卡申請(qǐng),它將預(yù)測(cè)客戶的信用卡是否會(huì)“違約”。 3a8dcb06-b1d6-11eb-bf61-12bb97331649.png 首先對(duì)變量之間的關(guān)系進(jìn)行線性回歸以構(gòu)建模型,分類(lèi)的閾值假設(shè)為0.5。 3a983a32-b1d6-11eb-bf61-12bb97331649.png

然后將Logistic函數(shù)應(yīng)用于回歸分析,得到兩類(lèi)的概率。

該函數(shù)給出了事件發(fā)生和不發(fā)生概率的對(duì)數(shù)。最后,根據(jù)這兩類(lèi)中較高的概率對(duì)變量進(jìn)行分類(lèi)。

3aa275ba-b1d6-11eb-bf61-12bb97331649.jpg

K-近鄰算法(K-NN)

K-NN算法是一種最簡(jiǎn)單的分類(lèi)算法,通過(guò)識(shí)別被分成若干類(lèi)的數(shù)據(jù)點(diǎn),以預(yù)測(cè)新樣本點(diǎn)的分類(lèi)。K-NN是一種非參數(shù)的算法,是“懶惰學(xué)習(xí)”的著名代表,它根據(jù)相似性(如,距離函數(shù))對(duì)新數(shù)據(jù)進(jìn)行分類(lèi)。

3aab9a28-b1d6-11eb-bf61-12bb97331649.jpg

3ab74094-b1d6-11eb-bf61-12bb97331649.jpg

3ac5095e-b1d6-11eb-bf61-12bb97331649.jpg

3ad3860a-b1d6-11eb-bf61-12bb97331649.jpg

K-NN能很好地處理少量輸入變量(p)的情況,但當(dāng)輸入量非常大時(shí)就會(huì)出現(xiàn)問(wèn)題。

支持向量機(jī)(SVM)

支持向量機(jī)既可用于回歸也可用于分類(lèi)。它基于定義決策邊界的決策平面。決策平面(超平面)可將一組屬于不同類(lèi)的對(duì)象分離開(kāi)。

3ae077a2-b1d6-11eb-bf61-12bb97331649.jpg

在支持向量的幫助下,SVM通過(guò)尋找超平面進(jìn)行分類(lèi),并使兩個(gè)類(lèi)之間的邊界距離最大化。

3af3ade0-b1d6-11eb-bf61-12bb97331649.jpg

SVM中超平面的學(xué)習(xí)是通過(guò)將問(wèn)題轉(zhuǎn)化為使用一些某種線性代數(shù)轉(zhuǎn)換問(wèn)題來(lái)完成的。(上圖的例子是一個(gè)線性核,它在每個(gè)變量之間具有線性可分性)。

對(duì)于高維數(shù)據(jù),使用可使用其他核函數(shù),但高維數(shù)據(jù)不容易進(jìn)行分類(lèi)。具體方法將在下一節(jié)中闡述。

核支持向量機(jī)

核支持向量機(jī)將核函數(shù)引入到SVM算法中,并將其轉(zhuǎn)換為所需的形式,將數(shù)據(jù)映射到可分的高維空間。

核函數(shù)的類(lèi)型包括:

3affeb82-b1d6-11eb-bf61-12bb97331649.jpg

前文討論的就是線性SVM。

多項(xiàng)式核中需要指定多項(xiàng)式的次數(shù)。它允許在輸入空間中使用曲線進(jìn)行分割。

徑向基核(radial basis function, RBF)可用于非線性可分變量。使用平方歐幾里德距離,參數(shù)的典型值會(huì)導(dǎo)致過(guò)度擬合。sklearn中默認(rèn)使用RBF。

類(lèi)似于與邏輯回歸類(lèi)似,sigmoid核用于二分類(lèi)問(wèn)題。

3b0a4564-b1d6-11eb-bf61-12bb97331649.jpg

徑向基核(RBF:Radial Basis Function )

RBF核支持向量機(jī)的決策區(qū)域?qū)嶋H上也是一個(gè)線性決策區(qū)域。RBF核支持向量機(jī)的實(shí)際作用是構(gòu)造特征的非線性組合,將樣本映射到高維特征空間,再利用線性決策邊界分離類(lèi)。

3b174cf0-b1d6-11eb-bf61-12bb97331649.jpg

因此,可以得出經(jīng)驗(yàn)是:對(duì)線性問(wèn)題使用線性支持向量機(jī),對(duì)非線性問(wèn)題使用非線性核函數(shù),如RBF核函數(shù)。

樸素貝葉斯

樸素貝葉斯分類(lèi)器建立在貝葉斯定理的基礎(chǔ)上,基于特征之間互相獨(dú)立的假設(shè)(假定類(lèi)中存在一個(gè)與任何其他特征無(wú)關(guān)的特征)。即使這些特征相互依賴,或者依賴于其他特征的存在,樸素貝葉斯算法都認(rèn)為這些特征都是獨(dú)立的。這樣的假設(shè)過(guò)于理想,樸素貝葉斯因此而得名。

3b25b13c-b1d6-11eb-bf61-12bb97331649.jpg

在樸素貝葉斯的基礎(chǔ)上,高斯樸素貝葉斯根據(jù)二項(xiàng)(正態(tài))分布對(duì)數(shù)據(jù)進(jìn)行分類(lèi)。

3b3500b0-b1d6-11eb-bf61-12bb97331649.jpg

P(class|data)表示給定特征(屬性)后數(shù)據(jù)屬于某類(lèi)(目標(biāo))的后驗(yàn)概率。給定數(shù)據(jù),其屬于各類(lèi)的概率大小就是我們要計(jì)算的值。 P(class)表示某類(lèi)的先驗(yàn)概率。 P(data|class)表示似然,是指定類(lèi)別時(shí)特征出現(xiàn)的概率。 P(data)表示特征或邊際似然的先驗(yàn)概率。

3b5cc5b4-b1d6-11eb-bf61-12bb97331649.png

步驟

1、計(jì)算先驗(yàn)概率P(class)= 類(lèi)中數(shù)據(jù)點(diǎn)的數(shù)量/觀測(cè)值的總數(shù)量 P(yellow)= 10/17 P(green)= 7/17

2、計(jì)算邊際似然P(data)= 與觀測(cè)值相似的數(shù)據(jù)點(diǎn)的數(shù)量/觀測(cè)值的總數(shù)量 P(?)= 4/17 該值用于檢查各個(gè)概率。

3、計(jì)算似然P(data/class)= 類(lèi)中與觀測(cè)值相似的數(shù)量/類(lèi)中點(diǎn)的總數(shù)量 P(?/yellow)= 1/7 P(?/green)= 3/10

4、計(jì)算各類(lèi)的后驗(yàn)概率

3b67ab32-b1d6-11eb-bf61-12bb97331649.png

5、分類(lèi)

3b726180-b1d6-11eb-bf61-12bb97331649.png

某一點(diǎn)歸于后驗(yàn)概率高的類(lèi)別,因?yàn)閺纳峡芍鋵儆诰G色類(lèi)的概率是75%根據(jù)其75%的概率這個(gè)點(diǎn)屬于綠色類(lèi)。

多項(xiàng)式、伯努利樸素貝葉斯是計(jì)算概率的其他模型。樸素貝葉斯模型易于構(gòu)建,不需要復(fù)雜的參數(shù)迭代估計(jì),這使得它對(duì)非常大的數(shù)據(jù)集特別有用。

決策樹(shù)分類(lèi)

決策樹(shù)以樹(shù)狀結(jié)構(gòu)構(gòu)建分類(lèi)或回歸模型。它通過(guò)將數(shù)據(jù)集不斷拆分為更小的子集來(lái)使決策樹(shù)不斷生長(zhǎng)。最終長(zhǎng)成具有決策節(jié)點(diǎn)(包括根節(jié)點(diǎn)和內(nèi)部節(jié)點(diǎn))和葉節(jié)點(diǎn)的樹(shù)。最初決策樹(shù)算法它采用采用Iterative Dichotomiser 3(ID3)算法來(lái)確定分裂節(jié)點(diǎn)的順序。

3b7b0970-b1d6-11eb-bf61-12bb97331649.jpg

信息熵和信息增益用于被用來(lái)構(gòu)建決策樹(shù)。

信息熵

信息熵是衡量元素?zé)o序狀態(tài)程度的一個(gè)指標(biāo),即衡量信息的不純度。

3b84246a-b1d6-11eb-bf61-12bb97331649.png

信息熵是衡量元素的無(wú)序狀態(tài)的程度的一個(gè)指標(biāo),或者說(shuō),衡量信息的不純度。

3b84246a-b1d6-11eb-bf61-12bb97331649.png

直觀上說(shuō)地理解,信息熵表示一個(gè)事件的確定性程度。信息熵度量樣本的同一性,如果樣本全部屬于同一類(lèi),則信息熵為0;如果樣本等分成不同的類(lèi)別,則信息熵為1。

信息增益

信息增益測(cè)量獨(dú)立屬性間信息熵的變化。它試圖估計(jì)每個(gè)屬性本身包含的信息,構(gòu)造決策樹(shù)就是要找到具有最高信息增益的屬性(即純度最高的分支)。

3b94d648-b1d6-11eb-bf61-12bb97331649.png

信息增益測(cè)量獨(dú)立屬性間的信息熵的變化。它試圖估計(jì)每個(gè)屬性本身包含的信息,構(gòu)造決策樹(shù)就是要找到具有最高信息增益的屬性(即純度最高的分支)。

3b94d648-b1d6-11eb-bf61-12bb97331649.png

其中Gain((T,X))是特征X的信息增益。Entropy(T)是整個(gè)集合的信息熵,第二項(xiàng)Entropy(T,X)是特征X的信息熵。

采用信息熵進(jìn)行節(jié)點(diǎn)選擇時(shí),通過(guò)對(duì)該節(jié)點(diǎn)各個(gè)屬性信息增益進(jìn)行排序,選擇具有最高信息增益的屬性作為劃分節(jié)點(diǎn),過(guò)濾掉其他屬性。

決策樹(shù)模型存在的一個(gè)問(wèn)題是容易過(guò)擬合。因?yàn)樵谄錄Q策樹(shù)構(gòu)建過(guò)程中試圖通過(guò)生成長(zhǎng)一棵完整的樹(shù)來(lái)擬合訓(xùn)練集,因此卻降低了測(cè)試集的準(zhǔn)確性。

3bab0fda-b1d6-11eb-bf61-12bb97331649.jpg

通過(guò)剪枝技術(shù)可以減少小決策樹(shù)的過(guò)擬合問(wèn)題。

分類(lèi)的集成算法

集成算法是一個(gè)模型組。從技術(shù)上說(shuō),集成算法是單獨(dú)訓(xùn)練幾個(gè)有監(jiān)督模型,并將訓(xùn)練好的模型以不同的方式進(jìn)行融合,從而達(dá)到最終的得預(yù)測(cè)結(jié)果。集成后的模型比其中任何一個(gè)單獨(dú)的模型都有更高的預(yù)測(cè)能力。

3bc34c30-b1d6-11eb-bf61-12bb97331649.jpg

隨機(jī)森林分類(lèi)器

隨機(jī)森林分類(lèi)器是一種基于裝袋(bagging)的集成算法,即自舉助聚合法(bootstrap aggregation)。集成算法結(jié)合了多個(gè)相同或不同類(lèi)型的算法來(lái)對(duì)對(duì)象進(jìn)行分類(lèi)(例如,SVM的集成,基于樸素貝葉斯的集成或基于決策樹(shù)的集成)。

3bd1452e-b1d6-11eb-bf61-12bb97331649.jpg

集成的基本思想是算法的組合提升了最終的結(jié)果。

3bdfe778-b1d6-11eb-bf61-12bb97331649.jpg

深度太大的決策樹(shù)容易受過(guò)擬合的影響。但是隨機(jī)森林通過(guò)在隨機(jī)子集上構(gòu)建決策樹(shù)防止過(guò)擬合,主要原因是它會(huì)對(duì)所有樹(shù)的結(jié)果進(jìn)行投票的結(jié)果是所有樹(shù)的分類(lèi)結(jié)果的投票,從而消除了單棵樹(shù)的偏差。

隨機(jī)森林在決策樹(shù)生增長(zhǎng)的同時(shí)為模型增加了額外的隨機(jī)性。它在分割節(jié)點(diǎn)時(shí),不是搜索全部樣本最重要的特征,而是在隨機(jī)特征子集中搜索最佳特征。這種方式使得決策樹(shù)具有多樣性,從而能夠得到更好的模型。

梯度提升分類(lèi)器

梯度提升分類(lèi)器是一種提升集成算法。提升(boosting)算法是為了減少偏差而對(duì)弱分類(lèi)器的而進(jìn)行的一種集成方法。與裝袋(bagging)方法構(gòu)建預(yù)測(cè)結(jié)果池不同,提升算法是一種分類(lèi)器的串行方法,它把每個(gè)輸出作為下一個(gè)分類(lèi)器的輸入。通常,在裝袋算法中,每棵樹(shù)在原始數(shù)據(jù)集的子集上并行訓(xùn)練,并用所有樹(shù)預(yù)測(cè)結(jié)果的均值作為模型最終的預(yù)測(cè)結(jié)果;梯度提升模型,采用串行方式而非并行模式獲得預(yù)測(cè)結(jié)果。每棵決策樹(shù)預(yù)測(cè)前一棵決策樹(shù)的誤差,因而使誤差獲得提升。

3bef776a-b1d6-11eb-bf61-12bb97331649.jpg

梯度提升樹(shù)的工作流程

使用淺層決策樹(shù)初始化預(yù)測(cè)結(jié)果。

計(jì)算殘差值(實(shí)際預(yù)測(cè)值)。

構(gòu)建另一棵淺層決策樹(shù),將上一棵樹(shù)的殘差作為輸入進(jìn)行預(yù)測(cè)。

用新預(yù)測(cè)值和學(xué)習(xí)率的乘積作為最新預(yù)測(cè)結(jié)果,更新原有預(yù)測(cè)結(jié)果。

重復(fù)步驟2-4,進(jìn)行一定次數(shù)的迭代(迭代的次數(shù)即為構(gòu)建的決策樹(shù)的個(gè)數(shù))。

3bf9e02e-b1d6-11eb-bf61-12bb97331649.png

如果想了解更多關(guān)于梯度提升分類(lèi)器的知識(shí),可參考:

https://medium.com/mlreview/gradient-boosting-from-scratch-1e317ae4587d%20/t%20_blank

分類(lèi)器的性能

混淆矩陣

混淆矩陣是一張表,這張表通過(guò)對(duì)比已知分類(lèi)結(jié)果的測(cè)試數(shù)據(jù)的預(yù)測(cè)值和真實(shí)值表來(lái)描述衡量分類(lèi)器的性能。在二分類(lèi)的情況下,混淆矩陣是展示預(yù)測(cè)值和真實(shí)值四種不同結(jié)果組合的表。

3c3ed558-b1d6-11eb-bf61-12bb97331649.jpg

多分類(lèi)問(wèn)題的混淆矩陣可以幫助你確認(rèn)錯(cuò)誤模式。

對(duì)于二元分類(lèi)器:

3c4bfa94-b1d6-11eb-bf61-12bb97331649.png

假正例&假負(fù)例

假正例和假負(fù)例用來(lái)衡量模型預(yù)測(cè)的分類(lèi)效果。假正例是指模型錯(cuò)誤地將負(fù)例預(yù)測(cè)為正例。假負(fù)例是指模型錯(cuò)誤地將正例預(yù)測(cè)為負(fù)例。主對(duì)角線的值越大(主對(duì)角線為真正例和真負(fù)例),模型就越好;副對(duì)角線給出模型的最差預(yù)測(cè)結(jié)果。

假正例

下面給出一個(gè)假正例的例子。比如:模型將一封郵件分類(lèi)為垃圾郵件(正例),但這封郵件實(shí)際并不是垃圾郵件。這就像一個(gè)警示,錯(cuò)誤如果能被修正就更好,但是與假負(fù)例相比,它并不是一個(gè)嚴(yán)重的問(wèn)題。

作者注:個(gè)人觀點(diǎn),這個(gè)例子舉的不太好,對(duì)垃圾郵件來(lái)說(shuō),相比于錯(cuò)誤地將垃圾郵件分類(lèi)為正常郵件(假負(fù)例),將正常郵件錯(cuò)誤地分類(lèi)為垃圾郵件(假正例)是更嚴(yán)重的問(wèn)題。

假正例(I型錯(cuò)誤)——原假設(shè)正確而拒絕原假設(shè)。

3c842450-b1d6-11eb-bf61-12bb97331649.jpg

假負(fù)例

假負(fù)例的一個(gè)例子。例如,該模型預(yù)測(cè)一封郵件不是垃圾郵件(負(fù)例),但實(shí)際上這封郵件是垃圾郵件。這就像一個(gè)危險(xiǎn)的信號(hào),錯(cuò)誤應(yīng)該被及早糾正,因?yàn)樗燃僬鼑?yán)重。

假負(fù)例(II型錯(cuò)誤)——原假設(shè)錯(cuò)誤而接受原假設(shè)

上圖能夠很容易地說(shuō)明上述指標(biāo)。左圖男士的測(cè)試結(jié)果是假正例因?yàn)槟行圆荒軕言?;右圖女士是假負(fù)例因?yàn)楹苊黠@她懷孕了。

從混淆矩陣,我們能計(jì)算出準(zhǔn)確率、精度、召回率和F-1值。

準(zhǔn)確率

準(zhǔn)確率是模型預(yù)測(cè)正確的部分。

3cde770c-b1d6-11eb-bf61-12bb97331649.jpg

準(zhǔn)確率的公式為:

3ced1cee-b1d6-11eb-bf61-12bb97331649.png

當(dāng)數(shù)據(jù)集不平衡,也就是正樣本和負(fù)樣本的數(shù)量存在顯著差異時(shí),單獨(dú)依靠準(zhǔn)確率不能評(píng)價(jià)模型的性能。精度和召回率是衡量不平衡數(shù)據(jù)集的更好的指標(biāo)。

精度

精度是指在所有預(yù)測(cè)為正例的分類(lèi)中,預(yù)測(cè)正確的程度為正例的效果。

3cf95504-b1d6-11eb-bf61-12bb97331649.jpg

精度越高越好。

召回率

召回率是指在所有預(yù)測(cè)為正例(被正確預(yù)測(cè)為真的和沒(méi)被正確預(yù)測(cè)但為真的)的分類(lèi)樣本中,召回率是指預(yù)測(cè)正確的程度。它,也被稱(chēng)為敏感度或真正率(TPR)。

3d03e1c2-b1d6-11eb-bf61-12bb97331649.jpg

召回率越高越好。

F-1值

通常實(shí)用的做法是將精度和召回率合成一個(gè)指標(biāo)F-1值更好用,特別是當(dāng)你需要一種簡(jiǎn)單的方法來(lái)衡量?jī)蓚€(gè)分類(lèi)器性能時(shí)。F-1值是精度和召回率的調(diào)和平均值。

3d0d3060-b1d6-11eb-bf61-12bb97331649.jpg

普通的通常均值將所有的值平等對(duì)待,而調(diào)和平均值給予較低的值更高的權(quán)重,從而能夠更多地懲罰極端值。所以,如果精度和召回率都很高,則分類(lèi)器將得到很高的F-1值。

接受者操作曲線(ROC)和曲線下的面積(AUC)

ROC曲線是衡量分類(lèi)器性能的一個(gè)很重要指標(biāo),它代表模型準(zhǔn)確預(yù)測(cè)的程度。ROC曲線通過(guò)繪制真正率和假正率的關(guān)系來(lái)衡量分類(lèi)器的敏感度。如果分類(lèi)器性能優(yōu)越,則真正率將增加,曲線下的面積會(huì)接近于1.如果分類(lèi)器類(lèi)似于隨機(jī)猜測(cè),真正率將隨假正率線性增加。AUC值越大,模型效果越好。

3d197aa0-b1d6-11eb-bf61-12bb97331649.jpg

累積精度曲線

CAP代表一個(gè)模型沿y軸為真正率的累積百分比與沿x軸的該分類(lèi)樣本累積百分比。CAP不同于接受者操作曲線(ROC,繪制的是真正率與假正率的關(guān)系)。與ROC曲線相比,CAP曲線很少使用。

3d249da4-b1d6-11eb-bf61-12bb97331649.png

以考慮一個(gè)預(yù)測(cè)客戶是否會(huì)購(gòu)買(mǎi)產(chǎn)品的模型為例,如果隨機(jī)選擇客戶,他有50%的概率會(huì)購(gòu)買(mǎi)產(chǎn)品??蛻糍?gòu)買(mǎi)產(chǎn)品的累積數(shù)量會(huì)線性地增長(zhǎng)到對(duì)應(yīng)客戶總量的最大值,這個(gè)曲線稱(chēng)為CAP隨機(jī)曲線,為上圖中的藍(lán)色線。而一個(gè)完美的預(yù)測(cè),準(zhǔn)確地確定預(yù)測(cè)了哪些客戶會(huì)購(gòu)買(mǎi)產(chǎn)品,這樣,在所有樣本中只需選擇最少的客戶就能達(dá)到最大購(gòu)買(mǎi)量。這在CAP曲線上產(chǎn)生了一條開(kāi)始陡峭一旦達(dá)到最大值就會(huì)維持在1的折線,稱(chēng)為CAP的完美曲線,也被稱(chēng)為理想曲線,為上圖中灰色的線。

最后,一個(gè)真實(shí)的模型應(yīng)該能盡可能最大化地正確預(yù)測(cè),接近于理想模型曲線。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7253

    瀏覽量

    91753
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4708

    瀏覽量

    95257
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8500

    瀏覽量

    134503

原文標(biāo)題:來(lái)!一起捋一捋機(jī)器學(xué)習(xí)分類(lèi)算法

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    肇觀電子推出W系列水下機(jī)器人視覺(jué)模組

    在此背景,肇觀電子推出全球首創(chuàng)W系列水下機(jī)器人視覺(jué)模組,以光學(xué)視覺(jué)革命突破水下感知瓶頸!
    的頭像 發(fā)表于 06-17 14:58 ?397次閱讀
    肇觀電子推出W系列水<b class='flag-5'>下機(jī)器</b>人視覺(jué)模組

    下機(jī)器人示教編程教學(xué)課件資料

    下機(jī)器人示教編程教學(xué)課件(新)
    發(fā)表于 06-11 17:23 ?0次下載

    請(qǐng)問(wèn)STM32部署機(jī)器學(xué)習(xí)算法硬件至少要使用哪個(gè)系列的芯片?

    STM32部署機(jī)器學(xué)習(xí)算法硬件至少要使用哪個(gè)系列的芯片?
    發(fā)表于 03-13 07:34

    機(jī)器學(xué)習(xí)模型市場(chǎng)前景如何

    當(dāng)今,隨著算法的不斷優(yōu)化、數(shù)據(jù)量的爆炸式增長(zhǎng)以及計(jì)算能力的飛速提升,機(jī)器學(xué)習(xí)模型的市場(chǎng)前景愈發(fā)廣闊。下面,AI部落小編將探討機(jī)器學(xué)習(xí)模型市場(chǎng)
    的頭像 發(fā)表于 02-13 09:39 ?356次閱讀

    機(jī)器人如何實(shí)現(xiàn)移動(dòng)功能

    在前面兩篇《如何制造足球機(jī)器人》文章中,我們主要圍繞機(jī)器人本體進(jìn)行了硬件設(shè)計(jì),而這次將以控制器為中心,開(kāi)展軟件設(shè)計(jì)工作。在正式開(kāi)始之前,先為大家回顧一下機(jī)器人如何實(shí)現(xiàn)移動(dòng)功能的設(shè)計(jì)。
    的頭像 發(fā)表于 01-23 10:36 ?869次閱讀
    <b class='flag-5'>機(jī)器</b>人如何實(shí)現(xiàn)移動(dòng)功能

    xgboost在圖像分類(lèi)中的應(yīng)用

    XGBoost(eXtreme Gradient Boosting)是種高效的機(jī)器學(xué)習(xí)算法,它基于梯度提升框架,通過(guò)構(gòu)建多個(gè)弱學(xué)習(xí)器(通常
    的頭像 發(fā)表于 01-19 11:16 ?970次閱讀

    “碰一下”支付背后的4G技術(shù)

    不知道你是否有留意,近期,在線下支付場(chǎng)景中,多了個(gè)支付寶“碰一下”支付的設(shè)備,只需要“解鎖手機(jī)—碰一下—確認(rèn)”即可完成支付,對(duì)比打開(kāi)付款碼支付,步驟確實(shí)更加簡(jiǎn)潔。
    的頭像 發(fā)表于 01-03 16:27 ?1765次閱讀

    華為云 Flexus X 實(shí)例部署安裝 Jupyter Notebook,學(xué)習(xí) AI,機(jī)器學(xué)習(xí)算法

    前言 由于本人最近在學(xué)習(xí)機(jī)器算法,AI 算法的知識(shí),需要搭建個(gè)
    的頭像 發(fā)表于 01-02 13:43 ?520次閱讀
    華為云 Flexus X 實(shí)例部署安裝 Jupyter Notebook,<b class='flag-5'>學(xué)習(xí)</b> AI,<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>算法</b>

    傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    在上篇文章中,我們介紹了機(jī)器學(xué)習(xí)的關(guān)鍵概念術(shù)語(yǔ)。在本文中,我們會(huì)介紹傳統(tǒng)機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)和多種算法
    的頭像 發(fā)表于 12-30 09:16 ?1154次閱讀
    傳統(tǒng)<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>方法和應(yīng)用指導(dǎo)

    NPU與機(jī)器學(xué)習(xí)算法的關(guān)系

    在人工智能領(lǐng)域,機(jī)器學(xué)習(xí)算法是實(shí)現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復(fù)雜度的提升,對(duì)計(jì)算資源的需求也在不斷增長(zhǎng)。NPU作為種專(zhuān)門(mén)為深度
    的頭像 發(fā)表于 11-15 09:19 ?1181次閱讀

    主動(dòng)學(xué)習(xí)在圖像分類(lèi)技術(shù)中的應(yīng)用:當(dāng)前狀態(tài)與未來(lái)展望

    基于Transformer結(jié)構(gòu)提升模型預(yù)測(cè)性能,以確保模型預(yù)測(cè)結(jié)果的可靠性。 此外,本文還對(duì)各類(lèi)主動(dòng)學(xué)習(xí)圖像分類(lèi)算法的重要學(xué)術(shù)工作進(jìn)行了實(shí)驗(yàn)對(duì)比,并對(duì)各
    的頭像 發(fā)表于 11-14 10:12 ?1249次閱讀
    主動(dòng)<b class='flag-5'>學(xué)習(xí)</b>在圖像<b class='flag-5'>分類(lèi)</b>技術(shù)中的應(yīng)用:當(dāng)前狀態(tài)與未來(lái)展望

    【每天學(xué)點(diǎn)AI】KNN算法:簡(jiǎn)單有效的機(jī)器學(xué)習(xí)分類(lèi)

    過(guò)程,其實(shí)就是個(gè)簡(jiǎn)單的分類(lèi)問(wèn)題,而KNN(K-NearestNeighbors)算法正是模仿這種人類(lèi)決策過(guò)程的機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 10-31 14:09 ?839次閱讀
    【每天學(xué)點(diǎn)AI】KNN<b class='flag-5'>算法</b>:簡(jiǎn)單有效的<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>分類(lèi)</b>器

    人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)存在什么區(qū)別

    人工智能指的是在某種程度上顯示出類(lèi)似人類(lèi)智能的設(shè)備。AI有很多技術(shù),但其中個(gè)很大的子集是機(jī)器學(xué)習(xí)——讓算法從數(shù)據(jù)中學(xué)習(xí)。
    發(fā)表于 10-24 17:22 ?2948次閱讀
    人工智能、<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b>存在什么區(qū)別

    RISC-V如何支持不同的AI和機(jī)器學(xué)習(xí)框架和庫(kù)?

    RISC-V如何支持不同的AI和機(jī)器學(xué)習(xí)框架和庫(kù)?還請(qǐng)壇友們多多指教一下。
    發(fā)表于 10-10 22:24

    利用Matlab函數(shù)實(shí)現(xiàn)深度學(xué)習(xí)算法

    在Matlab中實(shí)現(xiàn)深度學(xué)習(xí)算法個(gè)復(fù)雜但強(qiáng)大的過(guò)程,可以應(yīng)用于各種領(lǐng)域,如圖像識(shí)別、自然語(yǔ)言處理、時(shí)間序列預(yù)測(cè)等。這里,我將概述個(gè)基本的流程,包括環(huán)境設(shè)置、數(shù)據(jù)準(zhǔn)備、模型設(shè)計(jì)、訓(xùn)
    的頭像 發(fā)表于 07-14 14:21 ?3609次閱讀