99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用PCA還是LDA?特征抽取經(jīng)典算法大PK

格創(chuàng)東智 ? 2019-01-10 13:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在之前的格物匯文章中,我們介紹了特征抽取的經(jīng)典算法——主成分分析(PCA),了解了PCA算法實(shí)質(zhì)上是進(jìn)行了一次坐標(biāo)軸旋轉(zhuǎn),盡可能讓數(shù)據(jù)映射在新坐標(biāo)軸方向上的方差盡可能大,并且讓原數(shù)據(jù)與新映射的數(shù)據(jù)在距離的變化上盡可能小。方差較大的方向代表數(shù)據(jù)含有的信息量較大,建議保留。方差較小的方向代表數(shù)據(jù)含有的信息量較少,建議舍棄。今天我們就來(lái)看一下PCA的具體應(yīng)用案例和特征映射的另一種方法:線性判別分析(LDA)。


PCA案例

機(jī)器學(xué)習(xí)中,所使用的數(shù)據(jù)往往維數(shù)很大,我們需要使用降維的方法來(lái)突顯信息含量較大的數(shù)據(jù),PCA就是一個(gè)很好的降維方法。下面我們來(lái)看一個(gè)具體的應(yīng)用案例,為了簡(jiǎn)單起見,我們使用一個(gè)較小的數(shù)據(jù)集來(lái)展示:


1.jpg


顯而易見,我們數(shù)據(jù)有6維,維數(shù)雖然不是很多但不一定代表數(shù)據(jù)不可以降維。我們使用sklearn中的PCA算法擬合數(shù)據(jù)集得到如下的結(jié)果:


2.jpg

我們可以看到經(jīng)過(guò)PCA降維后依然生成了新的6個(gè)維度,但是數(shù)據(jù)映射在每一個(gè)維度上的方差大小不一樣。我們會(huì)對(duì)每一個(gè)維度上的方差進(jìn)行歸一化,每一個(gè)維度上的方差量我們稱為可解釋的方差量(Explained Variance)。由圖可知,每一個(gè)維度上可解釋方差占比為:0.4430,0.2638,0.1231,0.1012,0.0485,0.0204。根據(jù)經(jīng)驗(yàn)來(lái)說(shuō)我們期望可解釋的方差量累計(jì)值在80%以上較好,因此我們可以選擇降維降到3維(82.99%)或者4維(93.11%),括號(hào)中的數(shù)字為累計(jì)可解釋的方差量,最后兩維方差解釋只有7%不到,建議舍去。圖中的柱狀圖表示原維度在新坐標(biāo)軸上的映射向量大小。在前兩維度上表現(xiàn)如下圖所示:

3.jpg

PCA雖然能實(shí)現(xiàn)很好的降維效果,但是它卻是一種無(wú)監(jiān)督的方法。實(shí)際上我們更加希望對(duì)于有類別標(biāo)簽的數(shù)據(jù)(有監(jiān)督),也能實(shí)現(xiàn)降維,并且降維后能更好的區(qū)分每一個(gè)類。此時(shí),特征抽取的另一種經(jīng)典算法——線性判別分析(LDA)就閃亮登場(chǎng)了。

LDA簡(jiǎn)介

LDA是一種監(jiān)督學(xué)習(xí)的降維技術(shù),也就是說(shuō)它的數(shù)據(jù)集的每個(gè)樣本是有類別輸出的。這點(diǎn)和PCA不同。PCA是不考慮樣本類別輸出的無(wú)監(jiān)督降維技術(shù)。LDA的思想可以用一句話概括,就是“投影后類內(nèi)方差最小,類間方差最大”。什么意思呢? 我們要將數(shù)據(jù)在低維度上進(jìn)行投影,投影后希望每一種類別數(shù)據(jù)的投影點(diǎn)盡可能的接近,而不同類別的數(shù)據(jù)的類別中心之間的距離盡可能的大。

4.jpg


上圖中提供了兩種投影方式,哪一種能更好的滿足我們的標(biāo)準(zhǔn)呢?從直觀上可以看出,右圖要比左圖的投影效果好,因?yàn)橛覉D的黑色數(shù)據(jù)和藍(lán)色數(shù)據(jù)各個(gè)較為集中,且類別之間的距離明顯。左圖則在邊界處數(shù)據(jù)混雜。LDA的降維效果更像右圖,它能在新坐標(biāo)軸上優(yōu)先區(qū)分出兩個(gè)類別,它是如何實(shí)現(xiàn)的呢?

LDA的原理

LDA的主要思想是“投影后類內(nèi)方差最小,類間方差最大”。實(shí)質(zhì)上就是很好的區(qū)分出兩個(gè)類的分布。我們知道衡量數(shù)據(jù)分布的兩個(gè)重要指標(biāo)是均值和方差,對(duì)于每一個(gè)類,他們的定義如下:

5.jpg

與PCA一樣,LDA也是對(duì)數(shù)據(jù)的坐標(biāo)軸進(jìn)行一次旋轉(zhuǎn),假設(shè)旋轉(zhuǎn)的轉(zhuǎn)移矩陣是w,那么新的旋轉(zhuǎn)數(shù)據(jù)可以表示為:

6.jpg

同理,兩個(gè)類別的中心點(diǎn)也轉(zhuǎn)換成了:

7.jpg


文字.jpg


8.jpg


我們求解這個(gè)最優(yōu)化問(wèn)題,即可求出轉(zhuǎn)移變換矩陣w,即LDA的最終結(jié)果。


PCA vs LDA

LDA用于降維,和PCA有很多相同,也有很多不同的地方,因此值得好好的比較一下兩者的降維異同點(diǎn)。首先我們看看相同點(diǎn):

1、兩者均可以對(duì)數(shù)據(jù)進(jìn)行降維

2、兩者在降維時(shí)均使用了矩陣特征分解的思想

3、兩者都假設(shè)數(shù)據(jù)符合高斯分布


我們接著看看不同點(diǎn):

1、LDA是有監(jiān)督的降維方法,而PCA是無(wú)監(jiān)督的降維方法

2、LDA降維最多降到類別數(shù)k-1的維數(shù),而PCA沒(méi)有這個(gè)限制

3、LDA除了可以用于降維,還可以用于分類

4、LDA選擇分類性能最好的投影方向,而PCA選擇樣本點(diǎn)投影具有最大方差的方向


在某些數(shù)據(jù)分布下LDA比PCA降維較優(yōu)(左圖),在某些數(shù)據(jù)分布下,PCA比LDA降維較優(yōu)。

9.jpg


好了,以上就是本期格物匯的內(nèi)容,我們下期見。


本文作者:格創(chuàng)東智 OT團(tuán)隊(duì)(轉(zhuǎn)載請(qǐng)注明作者及來(lái)源)



聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 物聯(lián)網(wǎng)
    +關(guān)注

    關(guān)注

    2931

    文章

    46251

    瀏覽量

    392622
  • PCA
    PCA
    +關(guān)注

    關(guān)注

    0

    文章

    91

    瀏覽量

    30219
  • LDA
    LDA
    +關(guān)注

    關(guān)注

    0

    文章

    29

    瀏覽量

    10827
  • 智能制造
    +關(guān)注

    關(guān)注

    48

    文章

    5897

    瀏覽量

    77877
  • 工業(yè)互聯(lián)網(wǎng)

    關(guān)注

    28

    文章

    4362

    瀏覽量

    95092
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    PCA9958HN-ARD】GUI工具的使用

    一、說(shuō)明 PCA9958HN-ARD評(píng)估板是可以通過(guò)NXP官方的GUI上位機(jī)來(lái)進(jìn)行控制的,但是需要使用另外的官方指定的MCU開發(fā)板。 例如下圖就是通過(guò)LPC55S69-EVKMCU板來(lái)演示
    發(fā)表于 06-29 10:07

    低功耗藍(lán)牙和經(jīng)典藍(lán)牙,到底怎么選?

    和Bluetooth Smart兩者又有什么區(qū)別?我的應(yīng)用到底該選經(jīng)典藍(lán)牙技術(shù)還是低功耗藍(lán)牙技術(shù)?這是很多剛接觸藍(lán)牙技術(shù)的人經(jīng)常碰到的問(wèn)題。 首先,在2010年以前,當(dāng)我們談?wù)撍{(lán)牙的時(shí)候,就是在說(shuō)經(jīng)典藍(lán)牙,因?yàn)?/div>
    的頭像 發(fā)表于 04-07 16:01 ?629次閱讀
    低功耗藍(lán)牙和<b class='flag-5'>經(jīng)典</b>藍(lán)牙,到底怎么選?

    RTC芯片有Linux PCA2131驅(qū)動(dòng)程序嗎?

    RTC 芯片有 Linux PCA2131驅(qū)動(dòng)程序嗎? 1) 如果沒(méi)有,我可以使用任何兼容的驅(qū)動(dòng)程序來(lái)驅(qū)動(dòng)這個(gè) RTC 芯片嗎? 2) 如果是,我在哪里可以找到它?
    發(fā)表于 03-31 06:22

    如何在i.MX6ULL定制板上啟用IO Expander PCA6416A的控制?

    我想知道如何在 i.MX6ULL 定制板上啟用 IO Expander PCA6416A 的控制。 我嘗試修改 imx6ul-14x14-evk.dtsi,將 pca6416 節(jié)點(diǎn)添加到 i2c2
    發(fā)表于 03-26 07:10

    PID控制算法的C語(yǔ)言實(shí)現(xiàn):PID算法原理

    的是,在我所接觸的控制算法當(dāng)中,PID 控制算法又是最簡(jiǎn)單,最能體現(xiàn)反饋思想的控制算法,可謂經(jīng)典中的經(jīng)典。
    發(fā)表于 02-26 15:24

    MSN4688驅(qū)動(dòng)IGBT的經(jīng)典的電路

    MSN4688驅(qū)動(dòng)IGBT的經(jīng)典的電路
    發(fā)表于 02-07 14:13 ?3次下載

    請(qǐng)教技術(shù)大牛關(guān)于PCA9306 issue

    PCA9306我們采用的PCA9306 chip. 電路低壓側(cè)為3.3V, 高壓側(cè)為5V. EN and VREF2 信號(hào) 通過(guò)200k ohm 電阻連5V,100nf 電容接地! 發(fā)現(xiàn)當(dāng)5V
    發(fā)表于 01-20 09:05

    戴爾I7的圖紙下載 版號(hào)是PCA40D

    戴爾I7的圖紙 版號(hào)是PCA40D
    發(fā)表于 12-20 14:43 ?0次下載

    【「從算法到電路—數(shù)字芯片算法的電路實(shí)現(xiàn)」閱讀體驗(yàn)】+內(nèi)容簡(jiǎn)介

    的乘法器和除法器設(shè)計(jì),在不同專業(yè)芯片領(lǐng)域有著廣泛應(yīng)用的數(shù)字信號(hào)發(fā)生器、復(fù)數(shù)求模求角度運(yùn)算器、普通濾波器、E△ADC中使用的抽取濾波器、基于 E△結(jié)構(gòu)實(shí)現(xiàn)的小數(shù)倍分頻器、CRC校驗(yàn)器等。每個(gè)電路均給出了算法
    發(fā)表于 11-21 17:14

    ADS1299ADS采集數(shù)據(jù),ADS可以不抽取看原始得數(shù)據(jù)嗎?

    1.ADS采集數(shù)據(jù),將時(shí)域的數(shù)據(jù)進(jìn)行FFT變換,得到頻譜里面看似有 Sinc Filter 抽取,不需要抽取是否可以?ADS可以不抽取看原始得數(shù)據(jù)嗎? 2.這個(gè)和手冊(cè)上的頻譜不
    發(fā)表于 11-20 06:05

    求助,關(guān)于AMC1306M25抽取率OSR的疑問(wèn)求解

    我客戶目前正在評(píng)估AMC1306M25,有以下疑問(wèn)需要解答,可否幫忙確認(rèn)一下: 圖為官方的例程,兩個(gè)都應(yīng)該指的是抽取率OSR。但是當(dāng)客戶在第一個(gè)函數(shù)中填的抽取率為64,到第二張圖中ratio的值
    發(fā)表于 11-14 07:09

    特征工程實(shí)施步驟

    數(shù)據(jù)中提取數(shù)值表示以供無(wú)監(jiān)督模型使用的方法(例如,試圖從之前非結(jié)構(gòu)化的數(shù)據(jù)集中提取結(jié)構(gòu))。特征工程包括這兩種情況,以及更多內(nèi)容。數(shù)據(jù)從業(yè)者通常依賴ML和深度學(xué)習(xí)算法
    的頭像 發(fā)表于 10-23 08:07 ?918次閱讀
    <b class='flag-5'>特征</b>工程實(shí)施步驟

    現(xiàn)代移位寄存器克服最后一分鐘的特征蠕變

    電子發(fā)燒友網(wǎng)站提供《現(xiàn)代移位寄存器克服最后一分鐘的特征蠕變.pdf》資料免費(fèi)下載
    發(fā)表于 09-21 11:20 ?0次下載
    <b class='flag-5'>用</b>現(xiàn)代移位寄存器克服最后一分鐘的<b class='flag-5'>特征</b>蠕變

    求助,AD7190關(guān)于Σ-Δ ADC其中的抽取濾波器的數(shù)據(jù)轉(zhuǎn)換問(wèn)題求解

    AD7190可以通過(guò)模式寄存器的FS[0:9]設(shè)置輸出速率, 0-1023的范圍;此時(shí)設(shè)置的數(shù)據(jù)速率選擇位是否就是Σ-Δ ADC抽取濾波器的抽取比? 關(guān)于抽取濾波器,此時(shí)我設(shè)置的為1023,那我是否
    發(fā)表于 09-09 06:11

    天翼云,AI取經(jīng)路上的逐夢(mèng)人

    息壤一體化智算服務(wù)平臺(tái)升級(jí),天翼云幫助AI天命人踏上取經(jīng)
    的頭像 發(fā)表于 09-05 16:06 ?2782次閱讀
    天翼云,AI<b class='flag-5'>取經(jīng)</b>路上的逐夢(mèng)人