无码理论片在线观看观看一区二区三区 ,五月婷婷五月日日日,精品产二区三区日本精品

數(shù)據(jù)準(zhǔn)備是將原始數(shù)據(jù)轉(zhuǎn)換為適合建模的形式的過程。原始的數(shù)據(jù)準(zhǔn)備方法是在評估模型性能之前對整個數(shù)據(jù)集進行處理。這會導(dǎo)致數(shù)據(jù)泄漏的問題, 測試集中的數(shù)據(jù)信息會泄露到訓(xùn)練集中。那么在對新數(shù)據(jù)進行預(yù)測時，我們會錯誤地估計模型性能。為了避免數(shù)據(jù)泄漏，我們需要謹慎使用數(shù)據(jù)準(zhǔn)備技術(shù)，同時也要根據(jù)所使用的模型評估方案靈活選擇，例如訓(xùn)練測試集劃分或k折交叉驗證。在本教程中，您將學(xué)習(xí)在評估機器學(xué)習(xí)模型時如何避免在數(shù)據(jù)準(zhǔn)備過程中的數(shù)據(jù)泄漏。完成本教程后，您將會知道：

應(yīng)用于整個數(shù)據(jù)集的簡單的數(shù)據(jù)準(zhǔn)備方法會導(dǎo)致數(shù)據(jù)泄漏，從而導(dǎo)致對模型性能的錯誤估計。

為了避免數(shù)據(jù)泄漏，數(shù)據(jù)準(zhǔn)備應(yīng)該只在訓(xùn)練集中進行。

如何在Python中用訓(xùn)練測試集劃分和k折交叉驗證實現(xiàn)數(shù)據(jù)準(zhǔn)備而又不造成數(shù)據(jù)泄漏。在我的新書

(https://machinelearningmastery.com/data-preparation-for-machine-learning/)

中了解有關(guān)數(shù)據(jù)清理，特征選擇，數(shù)據(jù)轉(zhuǎn)換，降維以及更多內(nèi)容，包含30個循序漸進的教程和完整的Python源代碼。

讓我們開始吧。目錄本教程分為三個部分： 1.原始數(shù)據(jù)準(zhǔn)備方法存在的問題 2.用訓(xùn)練集和測試集進行數(shù)據(jù)準(zhǔn)備

用原始數(shù)據(jù)準(zhǔn)備方法進行訓(xùn)練-測試評估

用正確的數(shù)據(jù)準(zhǔn)備方法進行訓(xùn)練-測試評估

3 .用K折交叉驗證進行數(shù)據(jù)準(zhǔn)備

用原始數(shù)據(jù)準(zhǔn)備方法進行交叉驗證評估

用正確的數(shù)據(jù)準(zhǔn)備方法進行交叉驗證評估

原始數(shù)據(jù)準(zhǔn)備方法的問題應(yīng)用數(shù)據(jù)準(zhǔn)備技術(shù)處理數(shù)據(jù)的方式很重要。一種常見的方法是首先將一個或多個變換應(yīng)用于整個數(shù)據(jù)集。然后將數(shù)據(jù)集分為訓(xùn)練集和測試集，或使用k折交叉驗證來擬合并評估機器學(xué)習(xí)模型。 1.準(zhǔn)備數(shù)據(jù)集 2.分割數(shù)據(jù) 3.評估模型盡管這是一種常見的方法，但在大多數(shù)情況下很可能是不正確的。在分割數(shù)據(jù)進行模型評估之前使用數(shù)據(jù)準(zhǔn)備技術(shù)可能會導(dǎo)致數(shù)據(jù)泄漏，進而可能導(dǎo)致錯誤評估模型的性能。數(shù)據(jù)泄漏是指保留數(shù)據(jù)集（例如測試集或驗證數(shù)據(jù)集）中的信息出現(xiàn)在訓(xùn)練數(shù)據(jù)集中,并被模型使用的問題。這種泄漏通常很小且微妙，但會對性能產(chǎn)生顯著影響。 ‘’…泄漏意味著信息會提供給模型，這給它做出更好的預(yù)測帶來了不真實的優(yōu)勢。當(dāng)測試數(shù)據(jù)泄漏到訓(xùn)練集中時，或者將來的數(shù)據(jù)泄漏到過去時，可能會發(fā)生這種情況。當(dāng)模型應(yīng)用到現(xiàn)實世界中進行預(yù)測時，只要模型訪問了它不應(yīng)該訪問的信息，就是泄漏。 —第93頁，機器學(xué)習(xí)的特征工程，2018年?！? 將數(shù)據(jù)準(zhǔn)備技術(shù)應(yīng)用于整個數(shù)據(jù)集會發(fā)生數(shù)據(jù)泄漏。數(shù)據(jù)泄漏的直接形式是指我們在測試數(shù)據(jù)集上訓(xùn)練模型。而當(dāng)前情況是數(shù)據(jù)泄漏的間接形式，是指訓(xùn)練過程中，模型可以使用匯總統(tǒng)計方法捕獲到有關(guān)測試數(shù)據(jù)集的一些知識。對于初學(xué)者而言很難察覺到第二種類型的數(shù)據(jù)泄露。 “重采樣的另一個方面與信息泄漏的概念有關(guān)，信息泄漏是在訓(xùn)練過程中（直接或間接）使用測試集數(shù)據(jù)。這可能會導(dǎo)致過于樂觀的結(jié)果，這些結(jié)果無法在將來的數(shù)據(jù)上復(fù)現(xiàn)。 —第55頁，特征工程與選擇，2019年?！? 例如，在某些情況下我們要對數(shù)據(jù)進行歸一化，即將輸入變量縮放到0-1范圍。當(dāng)我們對輸入變量進行歸一化時，首先要計算每個變量的最大值和最小值, 并利用這些值去縮放變量. 然后將數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集，但是這樣的話訓(xùn)練數(shù)據(jù)集中的樣本對測試數(shù)據(jù)集中的數(shù)據(jù)信息有所了解。數(shù)據(jù)已按全局最小值和最大值進行了縮放，因此，他們掌握了更多有關(guān)變量全局分布的信息。幾乎所有的數(shù)據(jù)準(zhǔn)備技術(shù)都會導(dǎo)致相同類型的泄漏。例如，標(biāo)準(zhǔn)化估計了域的平均值和標(biāo)準(zhǔn)差，以便縮放變量；甚至是估算缺失值的模型或統(tǒng)計方法也會從全部數(shù)據(jù)集中采樣來填充訓(xùn)練數(shù)據(jù)集中的值。解決方案很簡單。數(shù)據(jù)準(zhǔn)備工作只能在訓(xùn)練數(shù)據(jù)集中進行。也就是說，任何用于數(shù)據(jù)準(zhǔn)備工作的系數(shù)或模型都只能使用訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)行。一旦擬合完，就可以將數(shù)據(jù)準(zhǔn)備算法或模型應(yīng)用于訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。 1.分割數(shù)據(jù)。 2.在訓(xùn)練數(shù)據(jù)集上進行數(shù)據(jù)準(zhǔn)備。 3.將數(shù)據(jù)準(zhǔn)備技術(shù)應(yīng)用于訓(xùn)練和測試數(shù)據(jù)集。 4.評估模型。更普遍的是，僅在訓(xùn)練數(shù)據(jù)集上進行整個建模工作來避免數(shù)據(jù)泄露。這可能包括數(shù)據(jù)轉(zhuǎn)換，還包括其他技術(shù)，例如特征選擇，降維，特征工程等等。這意味著所謂的“模型評估”實際上應(yīng)稱為“建模過程評估”。 “為了使任何重采樣方案都能產(chǎn)生可泛化到新數(shù)據(jù)的性能估算，建模過程中必須包含可能顯著影響模型有效性的所有步驟。

—第54-55頁，特征工程與選擇，2019年。”

既然我們已經(jīng)熟悉如何應(yīng)用數(shù)據(jù)準(zhǔn)備以避免數(shù)據(jù)泄漏，那么讓我們來看一些可行的示例。準(zhǔn)備訓(xùn)練和測試數(shù)據(jù)集在本節(jié)中，我們利用合成二進制分類數(shù)據(jù)集分出訓(xùn)練集和測試集，并使用這兩個數(shù)據(jù)集評估邏輯回歸模型, 其中輸入變量已歸一化。首先，讓我們定義合成數(shù)據(jù)集。我們將使用make_classification（）函數(shù)創(chuàng)建包含1000行數(shù)據(jù)和20個數(shù)值型特征的數(shù)據(jù)。下面的示例創(chuàng)建了數(shù)據(jù)集并總結(jié)了輸入和輸出變量數(shù)組的形狀。

運行這段代碼會得到一個數(shù)據(jù)集, 數(shù)據(jù)集的輸入部分有1000行20列, 20列對應(yīng)20個輸入變量, 輸出變量包含1000個樣例對應(yīng)輸入數(shù)據(jù),每行一個值。

接下來我們要在縮放后的數(shù)據(jù)上評估我們的模型, 首先從原始或者說錯誤的方法開始。用原始方法進行訓(xùn)練集-測試集評估原始方法首先對整個數(shù)據(jù)集應(yīng)用數(shù)據(jù)準(zhǔn)備方法，其次分割數(shù)據(jù)集，最后評估模型。我們可以使用MinMaxScaler類對輸入變量進行歸一化，該類首先使用默認配置將數(shù)據(jù)縮放到0-1范圍，然后調(diào)用fit_transform（）函數(shù)將變換擬合到數(shù)據(jù)集并同步應(yīng)用于數(shù)據(jù)集。得到歸一化的輸入變量，其中數(shù)組中的每一列都分別進行過歸一化（例如，計算出了自己的最小值和最大值）。

下一步，我們使用train_test_split函數(shù)將數(shù)據(jù)集分成訓(xùn)練集和測試集, 其中67%的數(shù)據(jù)用作訓(xùn)練集,剩下的33%用作測試集。

通過LogisticRegression 類定義邏輯回歸算法，使用默認配置, 并擬合訓(xùn)練數(shù)據(jù)集。

擬合模型可以對測試集的輸入數(shù)據(jù)做出預(yù)測，然后我們可以將預(yù)測值與真實值進行比較，并計算分類準(zhǔn)確度得分。

把上述代碼結(jié)合在一起，下面列出了完整的示例。

運行上述代碼, 首先會將數(shù)據(jù)歸一化, 然后把數(shù)據(jù)分成測試集和訓(xùn)練集,最后擬合并評估模型。由于學(xué)習(xí)算法和評估程序的隨機性，您的具體結(jié)果可能會有所不同。在本例中, 模型在測試集上的準(zhǔn)確率為84.848%

我們已經(jīng)知道上述代碼中存在數(shù)據(jù)泄露的問題, 所以模型的準(zhǔn)確率估算是有誤差的。接下來，讓我們來學(xué)習(xí)如何正確的進行數(shù)據(jù)準(zhǔn)備以避免數(shù)據(jù)泄露。用正確的數(shù)據(jù)準(zhǔn)備方法進行訓(xùn)練集-測試集評估利用訓(xùn)練集-測試集分割評估來執(zhí)行數(shù)據(jù)準(zhǔn)備的正確方法是在訓(xùn)練集上擬合數(shù)據(jù)準(zhǔn)備方法，然后將變換應(yīng)用于訓(xùn)練集和測試集。

這要求我們首先將數(shù)據(jù)分為訓(xùn)練集和測試集。然后，我們可以定義MinMaxScaler并在訓(xùn)練集上調(diào)用fit（）函數(shù)，然后在訓(xùn)練集和測試集上應(yīng)用transform（）函數(shù)來歸一化這兩個數(shù)據(jù)集。

我們只用了訓(xùn)練集而非整個數(shù)據(jù)集中的數(shù)據(jù)來對每個輸入變量計算最大值和最小值, 這樣就可以避免數(shù)據(jù)泄露的風(fēng)險。然后可以按照之前的評估過程對模型評估。整合之后, 完整代碼如下：

運行示例會將數(shù)據(jù)分為訓(xùn)練集和測試集，對數(shù)據(jù)進行正確的歸一化，然后擬合并評估模型。由于學(xué)習(xí)算法和評估程序的隨機性，您的具體結(jié)果可能會有所不同。在本例中，我們可以看到該模型在測試集上預(yù)測準(zhǔn)確率約為85.455％，這比上一節(jié)中由于數(shù)據(jù)泄漏達到84.848％的準(zhǔn)確性更高。我們預(yù)期數(shù)據(jù)泄漏會導(dǎo)致對模型性能的錯誤估計，并以為數(shù)據(jù)泄漏會樂觀估計，例如有更好的性能。然而在示例中，我們可以看到數(shù)據(jù)泄漏導(dǎo)致性能更差了。這可能是由于預(yù)測任務(wù)的難度。

用K折交叉驗證進行數(shù)據(jù)準(zhǔn)備在本節(jié)中，我們將在合成的二分類數(shù)據(jù)集上使用K折交叉驗證評估邏輯回歸模型, 其中輸入變量均已歸一化。您可能還記得k折交叉驗證涉及到將數(shù)據(jù)集分成k個不重疊的數(shù)據(jù)組。然后我們只用一組數(shù)據(jù)作為測試集, 其余的數(shù)據(jù)都作為訓(xùn)練集對模型進行訓(xùn)練。將此過程重復(fù)K次，以便每組數(shù)據(jù)都有機會用作保留測試集。最后輸出所有評估結(jié)果的均值。 k折交叉驗證過程通常比訓(xùn)練測試集劃分更可靠地估計了模型性能，但由于反復(fù)擬合和評估，它在計算成本上更加昂貴。我們首先來看一下使用k折交叉驗證的原始數(shù)據(jù)準(zhǔn)備。用K折交叉驗證進行原始數(shù)據(jù)準(zhǔn)備具有交叉驗證的原始數(shù)據(jù)準(zhǔn)備首先要對數(shù)據(jù)進行變換，然后再進行交叉驗證過程。我們將使用上一節(jié)中準(zhǔn)備的合成數(shù)據(jù)集并直接將數(shù)據(jù)標(biāo)準(zhǔn)化。

首先要定義k折交叉驗證步驟。我們將使用重復(fù)分層的10折交叉驗證，這是分類問題的最佳實踐。重復(fù)是指整個交叉驗證過程要重復(fù)多次，在本例中要重復(fù)三次。分層意味著每組樣本各類別樣本的比例與原始數(shù)據(jù)集中相同。我們將使用k = 10的10折交叉驗證。我們可以使用RepeatedStratifiedKFold（設(shè)置三次重復(fù)以及10折）來實現(xiàn)上述方案，然后使用cross_val_score（）函數(shù)執(zhí)行該過程，傳入定義好的模型，交叉驗證對象和要計算的度量（在本例中使用的是準(zhǔn)確率 )。

然后，我們可以記錄所有重復(fù)和折疊的平均準(zhǔn)確度。綜上，下面列出了使用帶有數(shù)據(jù)泄漏的數(shù)據(jù)準(zhǔn)備進行交叉驗證評估模型的完整示例。

運行上述代碼, 首先對數(shù)據(jù)進行歸一化，然后使用重復(fù)分層交叉驗證對模型進行評估。由于學(xué)習(xí)算法和評估程序的隨機性，您的具體結(jié)果可能會有所不同。在本例中，我們可以看到該模型達到了約85.300％的估計準(zhǔn)確度，由于數(shù)據(jù)準(zhǔn)備過程中存在數(shù)據(jù)泄漏，我們知道該估計準(zhǔn)確度是不正確的。

接下來，讓我們看看如何使用交叉驗證評估模型同時避免數(shù)據(jù)泄漏。具有正確數(shù)據(jù)準(zhǔn)備的交叉驗證評估使用交叉驗證時，沒有數(shù)據(jù)泄漏的數(shù)據(jù)準(zhǔn)備工作更具挑戰(zhàn)性。它要求在訓(xùn)練集上進行數(shù)據(jù)準(zhǔn)備，并在交叉驗證過程中將其應(yīng)用于訓(xùn)練集和測試集，例如行的折疊組。我們可以通過定義一個建模流程來實現(xiàn)此目的，在要擬合和評估的模型中該流程定義了要執(zhí)行的數(shù)據(jù)準(zhǔn)備步驟的順序和結(jié)束條件。 “ 為了提供可靠的方法，我們應(yīng)該限制自己僅在訓(xùn)練集上開發(fā)一系列預(yù)處理技術(shù)，然后將這些技術(shù)應(yīng)用于將來的數(shù)據(jù)（包括測試集）。

—第55頁，特征工程與選擇，2019年?！?/p>

評估過程從錯誤地僅評估模型變?yōu)檎_地將模型和整個數(shù)據(jù)準(zhǔn)備流程作為一個整體單元一起評估。這可以使用Pipeline類來實現(xiàn)。此類使用一個包含定義流程的步驟的列表。列表中的每個步驟都是一個包含兩個元素的元組。第一個元素是步驟的名稱（字符串），第二個元素是步驟的配置對象，例如變換或模型。盡管我們可以在序列中使用任意數(shù)量的轉(zhuǎn)換，但是僅在最后一步才應(yīng)用到模型。

之后我們把配置好的對象傳入cross_val_score()函數(shù)進行評估。

綜上所述，下面列出了使用交叉驗證時正確執(zhí)行數(shù)據(jù)準(zhǔn)備而不會造成數(shù)據(jù)泄漏的完整示例。

運行該示例可在評估過程進行交叉驗證時正確地歸一化數(shù)據(jù)，以避免數(shù)據(jù)泄漏。由于學(xué)習(xí)算法和評估程序的隨機性，您的具體結(jié)果可能會有所不同。本例中，我們可以看到該模型的估計準(zhǔn)確性約為85.433％，而數(shù)據(jù)泄漏方法的準(zhǔn)確性約為85.300％。與上一節(jié)中的訓(xùn)練測試集劃分示例一樣，消除數(shù)據(jù)泄露帶來了性能上的一點提高, 雖然直覺上我們會認為它應(yīng)該會帶來下降, 以為數(shù)據(jù)泄漏會導(dǎo)致對模型性能的樂觀估計。但是，這些示例清楚地表明了數(shù)據(jù)泄漏確實會影響模型性能的估計以及在拆分數(shù)據(jù)后通過正確執(zhí)行數(shù)據(jù)準(zhǔn)備來糾正數(shù)據(jù)泄漏的方法。

總結(jié) 在本教程中，您學(xué)習(xí)了評估機器學(xué)習(xí)模型時如何避免在數(shù)據(jù)準(zhǔn)備期間出現(xiàn)數(shù)據(jù)泄露的問題。具體來說，您了解到：

直接將數(shù)據(jù)準(zhǔn)備方法應(yīng)用于整個數(shù)據(jù)集會導(dǎo)致數(shù)據(jù)泄漏，從而導(dǎo)致對模型性能的錯誤估計。

為了避免數(shù)據(jù)泄漏，必須僅在訓(xùn)練集中進行數(shù)據(jù)準(zhǔn)備。

如何在Python中為訓(xùn)練集-測試集分割和k折交叉驗證實現(xiàn)數(shù)據(jù)準(zhǔn)備而又不會造成數(shù)據(jù)泄漏。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

python

python

+關(guān)注

關(guān)注
56

文章
4827

瀏覽量
86823
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1224

瀏覽量
25462

原文標(biāo)題：準(zhǔn)備數(shù)據(jù)時如何避免數(shù)據(jù)泄漏

文章出處：【微信號：DBDevs，微信公眾號：數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

搜索歷史

如何避免在數(shù)據(jù)準(zhǔn)備過程中的數(shù)據(jù)泄漏

評論