99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何解決樣本不均的問題?

深度學(xué)習(xí)自然語言處理 ? 來源:煉丹筆記 ? 作者:時(shí)晴 ? 2021-05-26 09:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

樣本不均的問題大家已經(jīng)很常見了,我們總是能看到某一個(gè)類目的數(shù)量遠(yuǎn)高于其他類目,舉個(gè)例子,曝光轉(zhuǎn)化數(shù)遠(yuǎn)低于曝光未轉(zhuǎn)化數(shù)。樣本不均嚴(yán)重影響了模型的效果,甚至影響到我們對(duì)模型好壞的判斷,因?yàn)槟P蛯?duì)占比比較高的類目準(zhǔn)確率非常高,對(duì)占比很低的類目預(yù)估的偏差特別大,但是由于占比較高的類目對(duì)loss/metric影響較大,我們會(huì)認(rèn)為得到了一個(gè)較優(yōu)的模型。比如像是異常檢測(cè)問題,我們直接返回沒有異常,也能得到一個(gè)很高的準(zhǔn)確率。

重采樣

這個(gè)是目前使用頻率最高的方式,可以對(duì)“多數(shù)”樣本降采樣,也可以對(duì)“少數(shù)”樣本過采樣,如下圖所示:

cf82abcc-bd58-11eb-9e57-12bb97331649.png

重采樣的缺點(diǎn)也比較明顯,過采樣對(duì)少數(shù)樣本“過度捕撈”,降采樣會(huì)丟失大量信息。

重采樣的方案也有很多,最簡(jiǎn)單的就是隨機(jī)過采樣/降采樣,使得各個(gè)類別的數(shù)量大致相同。還有一些復(fù)雜的采樣方式,比如先對(duì)樣本聚類,在需要降采樣的樣本上,按類別進(jìn)行降采樣,這樣能丟失較少的信息。過采樣的話,可以不用簡(jiǎn)單的copy,可以加一點(diǎn)點(diǎn)“噪聲”,生成更多的樣本。

Tomek links

Tomek連接指的是在空間上“最近”的樣本,但是是不同類別的樣本。刪除這些pair中,占大多數(shù)類別的樣本。通過這種降采樣方式,有利于分類模型的學(xué)習(xí),如下圖所示:

cf95388c-bd58-11eb-9e57-12bb97331649.png

SMOTE

這個(gè)方法可以給少數(shù)樣本做擴(kuò)充,SMOTE在樣本空間中少數(shù)樣本隨機(jī)挑選一個(gè)樣本,計(jì)算k個(gè)鄰近的樣本,在這些樣本之間插入一些樣本做擴(kuò)充,反復(fù)這個(gè)過程,知道樣本均衡,如下圖所示:

cfa3f39a-bd58-11eb-9e57-12bb97331649.png

NearMiss

這是個(gè)降采樣的方法,通過距離計(jì)算,刪除掉一些無用的點(diǎn)。

NearMiss-1:在多數(shù)類樣本中選擇與最近的3個(gè)少數(shù)類樣本的平均距離最小的樣本。

NearMiss-2:在多數(shù)類樣本中選擇與最遠(yuǎn)的3個(gè)少數(shù)類樣本的平均距離最小的樣本。

NearMiss-3:對(duì)于每個(gè)少數(shù)類樣本,選擇離它最近的給定數(shù)量的多數(shù)類樣本。

NearMiss-1考慮的是與最近的3個(gè)少數(shù)類樣本的平均距離,是局部的;NearMiss-2考慮的是與最遠(yuǎn)的3個(gè)少數(shù)類樣本的平均距離,是全局的。NearMiss-1方法得到的多數(shù)類樣本分布也是“不均衡”的,它傾向于在比較集中的少數(shù)類附近找到更多的多數(shù)類樣本,而在孤立的(或者說是離群的)少數(shù)類附近找到更少的多數(shù)類樣本,原因是NearMiss-1方法考慮的局部性質(zhì)和平均距離。NearMiss-3方法則會(huì)使得每一個(gè)少數(shù)類樣本附近都有足夠多的多數(shù)類樣本,顯然這會(huì)使得模型的精確度高、召回率低。

評(píng)估指標(biāo)

為了避免對(duì)模型的誤判,避免使用Accuracy,可以用confusion matrix,precision,recall,f1-score,AUC,ROC等指標(biāo)。

懲罰項(xiàng)

對(duì)少數(shù)樣本預(yù)測(cè)錯(cuò)誤增大懲罰,是一個(gè)比較直接的方式。

使用多種算法

模型融合不止能提升效果,也能解決樣本不均的問題,經(jīng)驗(yàn)上,樹模型對(duì)樣本不均的解決幫助很大,特別是隨機(jī)森林,Random Forest,XGB,LGB等。因?yàn)闃淠P妥饔梅绞筋愃朴趇f/else,所以迫使模型對(duì)少數(shù)樣本也非常重視。

正確的使用K-fold

當(dāng)我們對(duì)樣本過采樣時(shí),對(duì)過采樣的樣本使用k-fold,那么模型會(huì)過擬合我們過采樣的樣本,所以交叉驗(yàn)證要在過采樣前做。在過采樣過程中,應(yīng)當(dāng)增加些隨機(jī)性,避免過擬合。

使用多種重采樣的訓(xùn)練集

這種方法可以使用更多的數(shù)據(jù)獲得一個(gè)泛化性較強(qiáng)的模型。用所有的少數(shù)樣本,和多種采樣的多數(shù)樣本,構(gòu)建多個(gè)模型得到多個(gè)模型做融合,可以取得不錯(cuò)的效果。

重采樣使用不同rate

這個(gè)方法和上面的方法很類似,嘗試使用各種不同的采樣率,訓(xùn)練不同的模型。

沒有什么解決樣本不均最好的方法,以上內(nèi)容也沒有枚舉出所有的解決方案,最好的方案就是嘗試使用各種方案。

原文標(biāo)題:對(duì)“樣本不均衡”一頓操作

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1807

    文章

    49029

    瀏覽量

    249569
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3521

    瀏覽量

    50431
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5561

    瀏覽量

    122799

原文標(biāo)題:對(duì)"樣本不均衡"一頓操作

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    嵌入式AI技術(shù)漫談:怎么為訓(xùn)練AI模型采集樣本數(shù)據(jù)

    Q 需要為嵌入式AI模型提供多少樣本數(shù)據(jù)? 我在向客戶介紹如何使用AI方法設(shè)計(jì)一款客戶產(chǎn)品時(shí),客戶理解,AI嵌入式項(xiàng)目的開發(fā)都是圍繞數(shù)據(jù)展開的,如此,我經(jīng)常會(huì)被問到這樣的問題:客戶的工程師需要采集
    的頭像 發(fā)表于 06-11 16:30 ?602次閱讀

    西門子伺服電機(jī)簡(jiǎn)明樣本

    西門子伺服電機(jī)簡(jiǎn)明樣本
    發(fā)表于 04-14 15:36 ?0次下載

    請(qǐng)問是否有任何OpenVINO?樣本可以推斷批次大小大于1的檢測(cè)模型?

    是否有任何OpenVINO?樣本可以推斷批次大小大于 1 的檢測(cè)模型?
    發(fā)表于 03-06 07:19

    假設(shè)檢驗(yàn)的功效和樣本數(shù)量

    在假設(shè)檢驗(yàn)中,我們會(huì)使用樣本中的數(shù)據(jù)來描繪有關(guān)總體的結(jié)論。首先,我們會(huì)進(jìn)行假設(shè),這被稱為原假設(shè)(以 H0 表示)。當(dāng)您進(jìn)行原假設(shè)時(shí),您也需要定義備擇假設(shè) (Ha),其與原假設(shè)正相反。樣本數(shù)據(jù)將用
    的頭像 發(fā)表于 01-15 10:50 ?358次閱讀

    ADS8556和ADS8568采集一個(gè)樣本點(diǎn)最快支持多少nS?

    求教一下,有應(yīng)用經(jīng)驗(yàn)的給指導(dǎo)一下,ADS8556 和ADS8568 采集一個(gè)樣本點(diǎn)最快支持多少nS,且兩個(gè)相鄰樣本點(diǎn)的數(shù)據(jù)不能相互串?dāng)_。
    發(fā)表于 12-09 07:16

    磁極是如何解決磁集成產(chǎn)品電磁干擾的?

    磁集成后,有哪些新的電磁干擾源?該如何解決這些新的干擾源?磁極又是如何解決這些問題的? 磁集成后,EMC比分立磁性元件更難通過,到底是什么原因?qū)е碌模看判栽髽I(yè)又有哪些辦法可以解決?今天我們采訪
    的頭像 發(fā)表于 12-06 11:27 ?691次閱讀
    磁極是如<b class='flag-5'>何解</b>決磁集成產(chǎn)品電磁干擾的?

    ADS54J69EVM輸出的樣本數(shù)據(jù)變化幅度很大的原因?怎么解決?

    您好,我在測(cè)試ADS54J69EVM的數(shù)據(jù)輸時(shí),選擇將VCM、AINP、AINM與板上到的GND連接在一起,本以為這樣輸出的樣本數(shù)據(jù)應(yīng)該時(shí)接近0V的數(shù)據(jù),出現(xiàn)的波動(dòng)也會(huì)很小,但實(shí)時(shí)是該通道對(duì)應(yīng)
    發(fā)表于 11-27 06:39

    AFE4960如何正確的從FIFO中讀取樣本呢?

    我有一些問題想請(qǐng)教。 在雙芯片串行模式下,MCU 收到 AFE4960 發(fā)送的 FIFO_RDY 中斷信號(hào)后,開始通過 SPI 通信從 AFE4960 的 FIFO 中讀取樣本。 具體流程為
    發(fā)表于 11-14 06:41

    同步與多個(gè)FPGA接口的千兆樣本ADC

    電子發(fā)燒友網(wǎng)站提供《同步與多個(gè)FPGA接口的千兆樣本ADC.pdf》資料免費(fèi)下載
    發(fā)表于 10-10 11:32 ?0次下載
    同步與多個(gè)FPGA接口的千兆<b class='flag-5'>樣本</b>ADC

    CC13xx IQ樣本

    電子發(fā)燒友網(wǎng)站提供《CC13xx IQ樣本.pdf》資料免費(fèi)下載
    發(fā)表于 09-20 11:12 ?0次下載
    CC13xx IQ<b class='flag-5'>樣本</b>

    聚徽-工控一體機(jī)顯示屏亮度不均怎么辦

    工控一體機(jī)顯示屏亮度不均可能由多種原因引起,首先,嘗試通過工控一體機(jī)的快捷鍵(如 “Fn”+“F5” 或 “F6”)來調(diào)整屏幕亮度,看是否能夠解決亮度不均的問題。
    的頭像 發(fā)表于 09-13 09:54 ?692次閱讀

    何解決熱插拔時(shí)的電壓過沖

    電子發(fā)燒友網(wǎng)站提供《如何解決熱插拔時(shí)的電壓過沖.pdf》資料免費(fèi)下載
    發(fā)表于 09-06 11:34 ?0次下載
    如<b class='flag-5'>何解</b>決熱插拔時(shí)的電壓過沖

    何解決工字電感噪音大的問題

    電子發(fā)燒友網(wǎng)站提供《如何解決工字電感噪音大的問題.docx》資料免費(fèi)下載
    發(fā)表于 09-04 11:46 ?0次下載

    何解決電感的漏感問題

    電子發(fā)燒友網(wǎng)站提供《如何解決電感的漏感問題.docx》資料免費(fèi)下載
    發(fā)表于 09-02 14:48 ?0次下載

    英國(guó)醫(yī)院通過RFID技術(shù)跟蹤患者樣本數(shù)據(jù)……

    英國(guó)醫(yī)院通過RFID技術(shù)跟蹤患者樣本數(shù)據(jù) 為了更好地管理患者病例中的組織樣本,醫(yī)院決定引入RFID技術(shù)來構(gòu)建實(shí)時(shí)跟蹤系統(tǒng)。利茲教學(xué)醫(yī)院作為英國(guó)國(guó)民健康保險(xiǎn)制度(NHS)下的重要醫(yī)療機(jī)構(gòu),每年處理
    的頭像 發(fā)表于 08-08 16:15 ?548次閱讀
    英國(guó)醫(yī)院通過RFID技術(shù)跟蹤患者<b class='flag-5'>樣本</b>數(shù)據(jù)……