找特征這件事,Andrew Ng在深度學(xué)習(xí)網(wǎng)課中提到過(guò),原課件見(jiàn)第3課結(jié)構(gòu)化機(jī)器學(xué)習(xí)項(xiàng)目中的2.9和2.10兩節(jié),筆記整理如下:
Andrew以Speech Recognition的場(chǎng)景為例,比較了pipeline和end-to-end兩種建模方式中特征工程的差異。
其中pipeline的搭建依賴于人工設(shè)計(jì)的特征,需要依賴于人類可以理解的音節(jié),將一段音頻轉(zhuǎn)化為文字;而end-to-end模型基于大量的音頻素材,自動(dòng)找出語(yǔ)音和文字間的關(guān)系,不依賴于音節(jié)而自動(dòng)翻譯成文字。
總而言之,除去語(yǔ)音和圖像等特定場(chǎng)景,對(duì)于大部分生活中的機(jī)器學(xué)習(xí)項(xiàng)目,由于沒(méi)有足夠的訓(xùn)練數(shù)據(jù)支撐,我們還無(wú)法完全信任算法自動(dòng)生成的特征,因而基于人工經(jīng)驗(yàn)的特征工程依然是目前的主流。
人工經(jīng)驗(yàn)這件事比較虛,加之許多業(yè)界的項(xiàng)目由于隱私性的考慮,很少會(huì)透露底層的入模特征和計(jì)算邏輯,使得目前網(wǎng)絡(luò)上關(guān)于特征工程細(xì)節(jié)的文章少之又少。答主在這里結(jié)合自己這幾年在金融領(lǐng)域的建模經(jīng)驗(yàn),介紹一些常見(jiàn)的數(shù)據(jù)源類型和特征計(jì)算方法,希望可以幫助剛?cè)胄谢蛘呦肴胄械膹臉I(yè)者們開(kāi)開(kāi)腦洞。
(1)支付流水:通常包括支付賬戶、時(shí)間、金額、地點(diǎn)、目的、狀態(tài)等字段,可以反映出客戶的經(jīng)濟(jì)實(shí)力和消費(fèi)習(xí)慣。其中特別的,賬戶間的復(fù)雜交易關(guān)系和異常金額時(shí)間地點(diǎn)的支付行為,都可以在反欺詐場(chǎng)景中應(yīng)用,視為團(tuán)伙作案或者反洗錢(qián)的重要指標(biāo)。
(2)財(cái)富管理:基金理財(cái)類產(chǎn)品的申購(gòu)歷史記錄,體現(xiàn)出客戶的資金儲(chǔ)備和購(gòu)買偏好。對(duì)于風(fēng)險(xiǎn)偏好較低的客戶,我們可以推薦小金庫(kù)這類收益穩(wěn)定、波動(dòng)較小的債券類產(chǎn)品;對(duì)于追求高收益的客戶,我們可以推薦在京東金融app上代銷的各類基金,以及智能投顧產(chǎn)品。
(3)貸款信息:伴隨著近幾年國(guó)內(nèi)現(xiàn)金貸以及場(chǎng)景貸市場(chǎng)的迅速發(fā)展,國(guó)家也在大力推動(dòng)各家資方信貸數(shù)據(jù)的治理與共享?;谝粋€(gè)客戶在各個(gè)平臺(tái)上的貸款申請(qǐng)、提現(xiàn)、還款信息,可以刻畫(huà)出這個(gè)客戶的還款意愿和征信表現(xiàn),從而為其下一次的信貸申請(qǐng)決策提供建議。常見(jiàn)的,多個(gè)平臺(tái)申請(qǐng)和在貸以及當(dāng)前有貸款發(fā)生90天以上逾期的用戶,都會(huì)被其他平臺(tái)列入自動(dòng)拒絕的名單。
(4)App登錄:從SDK埋點(diǎn)獲取的各類app登錄數(shù)據(jù)中,我們可以分析出用戶在每個(gè)app上的停留時(shí)間,從而側(cè)面了解這個(gè)用戶的興趣愛(ài)好,甚至預(yù)測(cè)用戶的年齡和性別。例如京東、阿里等電商app登錄較頻繁的用戶,通常以女性居多,并且消費(fèi)能力較強(qiáng);而抖音、快手等小視頻app停留時(shí)間較長(zhǎng)的,一般為年輕人群體。
(5)電商流水:從電商公司豐富的訂單流水?dāng)?shù)據(jù)中,可以挖掘出較為完整的客戶畫(huà)像??蛻鬉lice近一年內(nèi)購(gòu)買頻繁,但是平均單筆訂單金額較低,通常集中在生活用品以及水果生鮮,可以推斷出Alice應(yīng)該是一位家庭婦女;而客戶Ben消費(fèi)總金額較高,購(gòu)買過(guò)車飾類產(chǎn)品,收貨地址集中在辦公場(chǎng)所,則大概率Ben是有車一族的白領(lǐng)青年。
(6)收貨地址:在信貸風(fēng)控場(chǎng)景中,通常近一年內(nèi)地址數(shù)量較少、地址穩(wěn)定性高的用戶,貸款逾期風(fēng)險(xiǎn)更低;而對(duì)于地址變動(dòng)頻繁或者涉黑的用戶,建議貸前申請(qǐng)直接拒絕,或者把這些收貨地址運(yùn)用到貸后催收之中。
(7)運(yùn)營(yíng)商信息:數(shù)據(jù)市場(chǎng)上比較常見(jiàn)的第三方數(shù)據(jù)源,可以用作各個(gè)場(chǎng)景下的身份證、姓名、手機(jī)號(hào)的三要素核驗(yàn),以及利用在網(wǎng)時(shí)長(zhǎng)和在網(wǎng)狀態(tài)判斷一個(gè)用戶是否有欺詐風(fēng)險(xiǎn)。
除去上面整理的簡(jiǎn)單底層特征,在實(shí)際工作中數(shù)據(jù)分析師和算法工程師們還需要針對(duì)不同的業(yè)務(wù)場(chǎng)景,利用規(guī)則和模型構(gòu)造一些復(fù)雜特征。
舉兩個(gè)實(shí)際的例子:
第一個(gè)例子,為了計(jì)算用戶的年收入,可以利用近一年內(nèi)支付總金額+理財(cái)總余額-信貸總負(fù)債的大公式,通過(guò)線性回歸擬合出三個(gè)指標(biāo)的系數(shù),來(lái)得到每個(gè)用戶預(yù)測(cè)的收入水平;
第二個(gè)例子,給自己在做的模型打個(gè)小廣告,京東金融金融科技業(yè)務(wù)部基于京東集團(tuán)商城、金融和物流三大自有數(shù)據(jù)源以及海量外部數(shù)據(jù)源,利用XGBoost、LightGBM、CatBoost等復(fù)雜集成樹(shù)類算法,計(jì)算得到玉衡分特征,用來(lái)衡量京東客戶在現(xiàn)金貸場(chǎng)景的信用等級(jí),幫助服務(wù)的銀行和小貸公司搭建信貸智能決策系統(tǒng)。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8503瀏覽量
134612
原文標(biāo)題:在機(jī)器學(xué)習(xí)的項(xiàng)目中,特征是如何被找出來(lái)的
文章出處:【微信號(hào):AI_shequ,微信公眾號(hào):人工智能愛(ài)好者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
【書(shū)籍評(píng)測(cè)活動(dòng)NO.61】Yocto項(xiàng)目實(shí)戰(zhàn)教程:高效定制嵌入式Linux系統(tǒng)
《AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》----- 學(xué)習(xí)如何開(kāi)發(fā)視頻應(yīng)用
《AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》第1-2章閱讀心得——理解Agent框架與Coze平臺(tái)的應(yīng)用
傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

cmp在機(jī)器學(xué)習(xí)中的作用 如何使用cmp進(jìn)行數(shù)據(jù)對(duì)比
NPU與機(jī)器學(xué)習(xí)算法的關(guān)系
eda在機(jī)器學(xué)習(xí)中的應(yīng)用
數(shù)據(jù)準(zhǔn)備指南:10種基礎(chǔ)特征工程方法的實(shí)戰(zhàn)教程

特征工程實(shí)施步驟

評(píng)論