亚洲综合自偷自拍AV无码,97视频精品视频一区二区高清观看,午夜视频无码在线免费看

1、背景

關(guān)于xgboost的原理網(wǎng)絡(luò)上的資源很少，大多數(shù)還停留在應(yīng)用層面，本文通過學(xué)習(xí)陳天奇博士的PPT地址和xgboost導(dǎo)讀和實戰(zhàn)地址，希望對xgboost原理進行深入理解。

2、xgboost vs gbdt

說到xgboost，不得不說gbdt。了解gbdt可以看我這篇文章地址，gbdt無論在理論推導(dǎo)還是在應(yīng)用場景實踐都是相當完美的，但有一個問題：第n顆樹訓(xùn)練時，需要用到第n-1顆樹的（近似）殘差。從這個角度來看，gbdt比較難以實現(xiàn)分布式（ps：雖然難，依然是可以的，換個角度思考就行），而xgboost從下面這個角度著手

通過學(xué)習(xí)PPT地址和xgboost導(dǎo)讀和實戰(zhàn)地址來對xgboost原理和應(yīng)用分析

注：紅色箭頭指向的l即為損失函數(shù)；紅色方框為正則項，包括L1、L2；紅色圓圈為常數(shù)項。利用泰勒展開三項，做一個近似，我們可以很清晰地看到，最終的目標函數(shù)只依賴于每個數(shù)據(jù)點的在誤差函數(shù)上的一階導(dǎo)數(shù)和二階導(dǎo)數(shù)。

3、原理

（1）定義樹的復(fù)雜度對于f的定義做一下細化，把樹拆分成結(jié)構(gòu)部分q和葉子權(quán)重部分w。下圖是一個具體的例子。結(jié)構(gòu)函數(shù)q把輸入映射到葉子的索引號上面去，而w給定了每個索引號對應(yīng)的葉子分數(shù)是什么。通過學(xué)習(xí)PPT地址和xgboost導(dǎo)讀和實戰(zhàn)地址來對xgboost原理和應(yīng)用分析

通過學(xué)習(xí)PPT地址和xgboost導(dǎo)讀和實戰(zhàn)地址來對xgboost原理和應(yīng)用分析

這一個目標包含了TT個相互獨立的單變量二次函數(shù)。我們可以定義

最終公式可以化簡為

通過學(xué)習(xí)PPT地址和xgboost導(dǎo)讀和實戰(zhàn)地址來對xgboost原理和應(yīng)用分析

通過對

然后把

（2）打分函數(shù)計算示例

Obj代表了當我們指定一個樹的結(jié)構(gòu)的時候，我們在目標上面最多減少多少。我們可以把它叫做結(jié)構(gòu)分數(shù)(structure score)

通過學(xué)習(xí)PPT地址和xgboost導(dǎo)讀和實戰(zhàn)地址來對xgboost原理和應(yīng)用分析

（3）枚舉不同樹結(jié)構(gòu)的貪心法

貪心法：每一次嘗試去對已有的葉子加入一個分割

對于每次擴展，我們還是要枚舉所有可能的分割方案，如何高效地枚舉所有的分割呢？我假設(shè)我們要枚舉所有x < a 這樣的條件，對于某個特定的分割a我們要計算a左邊和右邊的導(dǎo)數(shù)和。

我們可以發(fā)現(xiàn)對于所有的a，我們只要做一遍從左到右的掃描就可以枚舉出所有分割的梯度和GL和GR。然后用上面的公式計算每個分割方案的分數(shù)就可以了。

觀察這個目標函數(shù)，大家會發(fā)現(xiàn)第二個值得注意的事情就是引入分割不一定會使得情況變好，因為我們有一個引入新葉子的懲罰項。優(yōu)化這個目標對應(yīng)了樹的剪枝，當引入的分割帶來的增益小于一個閥值的時候，我們可以剪掉這個分割。大家可以發(fā)現(xiàn)，當我們正式地推導(dǎo)目標的時候，像計算分數(shù)和剪枝這樣的策略都會自然地出現(xiàn)，而不再是一種因為heuristic（啟發(fā)式）而進行的操作了。

4、自定義損失函數(shù)

在實際的業(yè)務(wù)場景下，我們往往需要自定義損失函數(shù)。這里給出一個官方的鏈接地址

5、Xgboost調(diào)參

由于Xgboost的參數(shù)過多，使用GridSearch特別費時。這里可以學(xué)習(xí)下這篇文章，教你如何一步一步去調(diào)參。地址

6、python和R對xgboost簡單使用

任務(wù)：二分類，存在樣本不均衡問題（scale_pos_weight可以一定程度上解讀此問題）

通過學(xué)習(xí)PPT地址和xgboost導(dǎo)讀和實戰(zhàn)地址來對xgboost原理和應(yīng)用分析

7、Xgboost中比較重要的參數(shù)介紹

（1）objective [ default=reg:linear ] 定義學(xué)習(xí)任務(wù)及相應(yīng)的學(xué)習(xí)目標，可選的目標函數(shù)如下：

“reg:linear” –線性回歸。
“reg:logistic” –邏輯回歸。
“binary:logistic” –二分類的邏輯回歸問題，輸出為概率。
“binary:logitraw” –二分類的邏輯回歸問題，輸出的結(jié)果為wTx。
“count:poisson” –計數(shù)問題的poisson回歸，輸出結(jié)果為poisson分布。在poisson回歸中，max_delta_step的缺省值為0.7。(used to safeguard optimization)
“multi:softmax” –讓XGBoost采用softmax目標函數(shù)處理多分類問題，同時需要設(shè)置參數(shù)num_class（類別個數(shù)）
“multi:softprob” –和softmax一樣，但是輸出的是ndata * nclass的向量，可以將該向量reshape成ndata行nclass列的矩陣。沒行數(shù)據(jù)表示樣本所屬于每個類別的概率。
“rank:pairwise” –set XGBoost to do ranking task by minimizing the pairwise loss

（2）’eval_metric’ The choices are listed below，評估指標:

“rmse”: root mean square error
“l(fā)ogloss”: negative log-likelihood
“error”: Binary classification error rate. It is calculated as #(wrong cases)/#(all cases). For the predictions, the evaluation will regard the instances with prediction value larger than 0.5 as positive instances, and the others as negative instances.
“merror”: Multiclass classification error rate. It is calculated as #(wrong cases)/#(all cases).
“mlogloss”: Multiclass logloss
“auc”: Area under the curve for ranking evaluation.
“ndcg”:Normalized Discounted Cumulative Gain
“map”:Mean average precision
“ndcg@n”,”map@n”: n can be assigned as an integer to cut off the top positions in the lists for evaluation.
“ndcg-“,”map-“,”ndcg@n-“,”map@n-“: In XGBoost, NDCG and MAP will evaluate the score of a list without any positive samples as 1. By adding “-” in the evaluation metric XGBoost will evaluate these score as 0 to be consistent under some conditions.

（3）lambda [default=0]L2 正則的懲罰系數(shù)

（4）alpha [default=0]L1 正則的懲罰系數(shù)

（5）lambda_bias在偏置上的L2正則。缺省值為0（在L1上沒有偏置項的正則，因為L1時偏置不重要）

（6）eta [default=0.3]為了防止過擬合，更新過程中用到的收縮步長。在每次提升計算之后，算法會直接獲得新特征的權(quán)重。 eta通過縮減特征的權(quán)重使提升計算過程更加保守。缺省值為0.3取值范圍為：[0,1]

（7）max_depth [default=6]數(shù)的最大深度。缺省值為6 ，取值范圍為：[1,∞]

（8）min_child_weight [default=1]孩子節(jié)點中最小的樣本權(quán)重和。如果一個葉子節(jié)點的樣本權(quán)重和小于min_child_weight則拆分過程結(jié)束。在現(xiàn)行回歸模型中，這個參數(shù)是指建立每個模型所需要的最小樣本數(shù)。該成熟越大算法越conservative取值范圍為: [0,∞]

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

python

python

+關(guān)注

關(guān)注
56

文章
4827

瀏覽量
86741
GBDT

GBDT

+關(guān)注

關(guān)注
0

文章
13

瀏覽量
4061

原文標題：數(shù)據(jù)科學(xué)家工具箱|xgboost原理以及應(yīng)用詳解

文章出處：【微信號：DatamingHacker，微信公眾號：深度學(xué)習(xí)與數(shù)據(jù)挖掘?qū)崙?zhàn)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

搜索歷史

通過學(xué)習(xí)PPT地址和xgboost導(dǎo)讀和實戰(zhàn)地址來對xgboost原理和應(yīng)用分析

評論