AI加持下的互聯(lián)網(wǎng)反欺詐
本文將從問題提出的必要性及重要性、通用技術手段及應用場景角度,對專家經(jīng)驗規(guī)則自學習機制,風評模型可解釋性問題作系統(tǒng)全面的介紹,歡迎大家討論交流。
01
專家經(jīng)驗規(guī)則自學習機制
在大數(shù)據(jù)時代背景下,金融犯罪和金融欺詐的新手段層出不窮,日漸趨于科技化、專業(yè)化、規(guī)模化,也更具有隱蔽性,由過去的單兵作戰(zhàn)演變成有規(guī)模、有組織的團伙欺詐,嚴重制約了傳統(tǒng)的專家知識庫、專家經(jīng)驗規(guī)則持續(xù)有效地發(fā)揮作用,亟需解決兩方面問題:
基于數(shù)據(jù)算法驅動,自動化調整的場景規(guī)則集中的閾值和權重,以保障規(guī)則持續(xù)有效性;
從不同維度發(fā)掘時效性強的新風控規(guī)則,以持續(xù)豐富完善反欺詐規(guī)則集。
規(guī)則閾值、權重
規(guī)則閾值、權重學習涉及特征離散化、特征選擇、特征降維、權重參數(shù)回歸等流程。
信息熵:用來評估樣本集合的純度的一個參數(shù),是系統(tǒng)的不確定性、隨機性度量指標。
卡方分箱原理:特征離散化算法,根據(jù)樣本數(shù)據(jù)推斷總體的分布與期望分布是否有顯著性差異, 或者推斷兩個分類變量是否相關或者獨立。
最小熵分箱:特征離散化算法,最小熵分箱是典型的自頂向下分箱方法。最小熵分箱將待分箱特征的所有取值都放到一個箱體里,然后依據(jù)最小熵原則進行箱體分裂。
基尼(gini)系數(shù):特征離散化算法,總體內部包含越混亂,基尼系數(shù)越大;內部純度越高,基尼系數(shù)越小。
特征選擇:特征選擇在于選取對訓練數(shù)據(jù)具有分類能力的特征,提升模型整體預測能力,常用到技術包括lasso回歸、Feature Importance、特征共線性驗證等。
Lasso回歸:使用少量觀測值就能夠完全恢復出非零的系數(shù)。其中不同的是,樣本的數(shù)量需要“足夠大”,否則L1模型的表現(xiàn)會充滿隨機性。
新風控規(guī)則
新欺詐規(guī)則挖掘,根據(jù)規(guī)則中所處理的值類型分為兩類:
如果規(guī)則考慮的關聯(lián)是項的存在與不存在,則它是布爾關聯(lián)規(guī)則;
如果規(guī)則描述的是量化的項或屬性之間的關聯(lián),則它是量化關聯(lián)規(guī)則。
本質是頻繁項集挖掘,常用到算法包括Apriori、FpGrowth。
Apriori算法利用頻繁集的兩個特性,過濾了很多無關的集合,效率提高不少,但是Apriori算法是一個候選消除算法,每一次消除都需要掃描一次所有數(shù)據(jù)記錄,造成整個算法在面臨大數(shù)據(jù)集時顯得無能為力。
FpGrowth算法通過構造一個樹結構來壓縮數(shù)據(jù)記錄,使得挖掘頻繁項集只需要掃描兩次數(shù)據(jù)記錄,而且該算法不需要生成候選集合,所以效率會比較高。
02
風評模型可解釋性問題
人工智能算法模型正在對金融行業(yè)產生重大影響,前提是要了解AI算法的優(yōu)勢和局限性,以及適合在金融領域發(fā)揮作用的場景。當我們在金融業(yè)務中使用AI算法,期望通過可度量的方法對模型結果進行分析、解釋,以期對算法進行優(yōu)化,對業(yè)務進行方向性的指導,確保模型與要解決的業(yè)務問題保持一致,即模型解釋性分析問題。模型的解釋性分析可幫助模型開發(fā)人員及業(yè)務運營人員了解并解釋模型中包含和未包含的特征因素,及特征如何影響模型結果。
廣義上,模型的解釋性分析目的是全局定義特征對模型的影響,同時定義單個特征對模型的個性化影響;更好的理解模型行為,更好的進行相應的業(yè)務決策;通常對機器學習模型分為“白盒”模型和“黑盒”模型:
“白盒”模型
“白盒”模型如線性、Logistic回歸模型,預測能力較弱,但是簡單易理解。線性關系如信貸欺詐與人口統(tǒng)計學特征、經(jīng)濟收入等的相關性。決策樹模型(RandomForest vs XGBoost vs LightGBM)是目前業(yè)內公認可解釋性較好的非線性機器學習算法,模型每作出一個決策都會通過一個決策序列來向我們展示模型的決策依據(jù),決策樹模型自帶的基于信息理論的篩選變量標準也有助于幫助我們理解在模型決策產生的過程中哪些變量起到了顯著的作用;白盒模型特征明確,邏輯簡單,本身具備可解釋性。
針對“白盒”模型,我們可以從數(shù)據(jù)分布圖、特征重要度、Embedding可視化、獨立特征分析(PDP)、全局性分析(SHAP)、局部特征信息(LIME)、特征相關性(相關系數(shù))等維度提供分析技術。
特征重要度:從兩個角度分析“特征收益重要性”和“特征分裂重要性”;特征收益重要性指特征分類的平均訓練損失的減少量,意味著相應的特征對模型的相對貢獻值;特征分裂重要性是指訓練樣本決策分裂的次數(shù),兩者從不同維度度量不同特征在模型訓練中的重要性。
獨立特征分析:我們通過特征重要度得知某個特征對模型的影響度,以及用SHAP來評估全局特征重要性;但如何評估某個單獨的特征,嘗試通過PDP來評估獨立特征,展示單個特征對于模型預測的邊際效益,單個特征是如何影響預測的,通過繪制特征和預測目標之間的一維關系圖或二維關系圖來了解特征與目標之間的關系。多個特征的復雜性,通過單個特征分析,進一步驗證單個特征對模型的影響度。
“黑盒”模型
“黑盒”模型使用復雜的機器學習算法(深度網(wǎng)絡學習)訓練數(shù)據(jù),輸入特征經(jīng)過組合變換,維度變換等特征工程步驟,需要分析及調整數(shù)據(jù)與模型,確保模型結果與要解決的問題保持一致;然而這些模型的內部機制難以理解,也無法估計每個特征對模型預測結果的重要性以解釋模型結果與輸入的特征屬性潛在的關聯(lián)關系,更無法直接理解不同特征之間如何相互工作(數(shù)據(jù)的相關性不等價于因果關系)。
針對“黑盒”模型,我們可以從深度網(wǎng)絡結構分析,風評結果命中團伙關聯(lián)圖譜角度去解釋模型有效性。
關聯(lián)圖譜提供豐富的圖構建、圖查詢、圖分析、圖嵌入、圖挖掘技術,通過社區(qū)檢測、關鍵節(jié)點分析、關聯(lián)分析、異常網(wǎng)絡結構發(fā)現(xiàn)等場景化算法和模型,提供風控和營銷等場景化輔助決策服務。如信用卡養(yǎng)卡套現(xiàn)識別,養(yǎng)卡套現(xiàn)團伙往往都與黑商戶溝通,正常養(yǎng)卡階段,消費的商戶相對固定,而通過遍歷關聯(lián)圖譜的方式,能夠基于上述行為特征建立欺詐關聯(lián)圖譜,識別養(yǎng)卡套現(xiàn)團伙。
風控場景對于數(shù)據(jù)、模型、特征的可解釋性,穩(wěn)定性要求是重點,可解釋性和穩(wěn)定性仍然需要結合業(yè)務和專家經(jīng)驗進行判斷。
責任編輯:xj
原文標題:AI加持下的互聯(lián)網(wǎng)反欺詐 | 反欺詐AI全域治理三部曲(中)
文章出處:【微信公眾號:芯盾時代】歡迎添加關注!文章轉載請注明出處。
-
互聯(lián)網(wǎng)
+關注
關注
55文章
11251瀏覽量
106492 -
AI
+關注
關注
88文章
35168瀏覽量
280154
原文標題:AI加持下的互聯(lián)網(wǎng)反欺詐 | 反欺詐AI全域治理三部曲(中)
文章出處:【微信號:trusfort,微信公眾號:芯盾時代】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
評論