99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

訓(xùn)練數(shù)據(jù)的質(zhì)量決定了機(jī)器學(xué)習(xí)算法的上限

TigerGraph ? 來源:TigerGraph ? 作者:TigerGraph ? 2022-11-02 12:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

如今,越來越多的企業(yè)正利用圖分析來增強(qiáng)機(jī)器學(xué)習(xí),今天的隨身聽我們就一起來聊聊圖和機(jī)器學(xué)習(xí)。如果您正從事機(jī)器學(xué)習(xí)相關(guān)的工作,但對圖分析卻不太了解,那么您可以點(diǎn)擊文末的“閱讀原文”,下載完整的《原生并行圖》白皮書,來增強(qiáng)您對圖的了解,從而更好地利用圖來增強(qiáng)機(jī)器學(xué)習(xí)。下面就一起來收聽今天的TigerGraph 隨身聽吧。

我們就以欺詐偵查為例,從許多方面來說,欺詐偵查如同大海撈針。您必須整理并理解海量的數(shù)據(jù),才能找到那根“針”,在本例中是指欺詐者。事實(shí)上,越來越多的組織利用機(jī)器學(xué)習(xí)及圖技術(shù)來防止各種類型的欺詐,包括電話詐騙、信用卡退單、廣告、洗錢等。

訓(xùn)練數(shù)據(jù)的質(zhì)量決定了機(jī)器學(xué)習(xí)算法的上限

在進(jìn)一步探討機(jī)器學(xué)習(xí)與圖技術(shù)這一強(qiáng)大組合的價值之前,我們先看一下當(dāng)前基于機(jī)器學(xué)習(xí)的欺詐者識別是如何錯失目標(biāo)的。

為了偵查某一具體的情況,如從事詐騙的電話或涉嫌洗錢的付款交易,機(jī)器學(xué)習(xí)系統(tǒng)需要足夠數(shù)量的欺詐電話或可能與洗錢相關(guān)的支付交易。下面我們以電話欺詐為例深入分析。

除可能屬于欺詐的電話數(shù)量外,機(jī)器學(xué)習(xí)算法還需要與電話欺詐行為高度相關(guān)的特征或?qū)傩浴?/p>

由于欺詐(與洗錢非常相似)在交易總量中所占的比重不到 0.01% 或萬分之一,因此,存在確認(rèn)欺詐活動的訓(xùn)練數(shù)據(jù)體量非常小。相應(yīng)地,數(shù)量如此之少的訓(xùn)練數(shù)據(jù)將導(dǎo)致機(jī)器學(xué)習(xí)算法的準(zhǔn)確度不佳。

選擇與欺詐相關(guān)的一些特征或?qū)傩允趾唵?。就電話欺詐來說,這些特征或?qū)傩园承╇娫捄艚衅渌W(wǎng)內(nèi)網(wǎng)外電話的歷史記錄、預(yù)付費(fèi) SIM 卡的卡齡、單向呼叫(即被呼叫方未回電)所占的百分比,以及被拒呼叫所占的百分比。同樣,為了查找涉嫌洗錢的付款交易,需要為機(jī)器學(xué)習(xí)系統(tǒng)提供諸如付款交易的規(guī)模和頻率等特征。

但是,由于依賴僅側(cè)重于各個點(diǎn)的特征,導(dǎo)致誤報率居高不下。例如,頻繁進(jìn)行單向呼叫的電話可能屬于銷售代表所有,他們需要致電潛在客戶尋找銷售線索或銷售商品和服務(wù)。這種呼叫也可能涉嫌騷擾,是一方對另一方的惡作劇。大量的誤報會造成浪費(fèi)精力去調(diào)查非欺詐電話,最終降低對欺詐偵查機(jī)器學(xué)習(xí)解決方案的信心。

算法好不如數(shù)據(jù)多

在機(jī)器學(xué)習(xí)領(lǐng)域有一個很流行的說法:“算法好不如數(shù)據(jù)多”。很多機(jī)器學(xué)習(xí)就是因?yàn)槿狈Τ渥愕挠?xùn)練數(shù)據(jù)而失敗的。簡單來說,樣本大小直接影響著預(yù)測的質(zhì)量。與海量的交易相比(訂單、付款、電話呼叫和計算機(jī)訪問日志),諸如欺詐、洗錢或網(wǎng)絡(luò)安全違規(guī)等異常檢測事件的確認(rèn)量很低。

很多大型客戶使用 TigerGraph 來計算機(jī)器學(xué)習(xí)領(lǐng)域所謂的基于圖的屬性或特征。就中國移動來說,TigerGraph 為其 6 億個號碼分別生成 118 項(xiàng)新特征。這將創(chuàng)造超過 700 億項(xiàng)新特征,用于將存在疑似欺詐活動的“壞號碼”與其余屬于普通用戶的“好號碼”區(qū)分開來。這將會有更多訓(xùn)練數(shù)據(jù),供機(jī)器學(xué)習(xí)解決方案提高欺詐偵查的準(zhǔn)確性。

為電話欺詐打造更好的“磁石”

很多現(xiàn)實(shí)生活中的示例不斷證明著圖技術(shù)和機(jī)器學(xué)習(xí)在打擊欺詐方面的價值。目前,知名大型移動運(yùn)營商正使用具備實(shí)時深度關(guān)聯(lián)分析的新一代圖數(shù)據(jù)庫,解決現(xiàn)有機(jī)器學(xué)習(xí)算法訓(xùn)練方法的缺陷。該解決方案分析了 6 億部手機(jī)的超過 150 億通呼叫,最終為每個手機(jī)生成了 118 項(xiàng)特征。這些特征基于對通話記錄的深度分析,范圍不限于直接被呼叫方。

那么圖數(shù)據(jù)庫是如何識別“好”號碼或“壞”號碼呢?圖數(shù)據(jù)庫解決方案又是如何識別疑似欺詐的類型(例如,垃圾郵件廣告、詐騙銷售等),并且在被呼叫人的手機(jī)上顯示警告消息?而且這一切全部都在手機(jī)接通之前完成。

13a6b774-5a67-11ed-a3b6-dac502259ad0.png

其實(shí),簡單來說,文中圖1所示,擁有好號碼的用戶致電其他用戶,大多數(shù)人都會回復(fù)他們的電話。這有助于指示用戶之間的熟悉度或信任關(guān)系。好號碼還會定期(比如,每天或每月)撥打一組其他號碼,這一號碼組在一段時間內(nèi)非常穩(wěn)定(“穩(wěn)定組”)。

表示好號碼行為的另一個特征是,當(dāng)呼叫已經(jīng)入網(wǎng)數(shù)月或數(shù)年的號碼時得到回電。我們還看到,在好號碼、長期聯(lián)系號碼及網(wǎng)內(nèi)與二者頻繁聯(lián)系的其他號碼之間有著大量呼叫。這表明我們的好號碼具有很多組內(nèi)關(guān)聯(lián)。

最后,“好號碼”通常會參與三步式朋友關(guān)聯(lián),意思是我們的好號碼會呼叫另一號碼,即號碼 2,后者將呼叫號碼 3。好號碼還會通過直接呼叫與號碼 3 聯(lián)系。這表示一種三步式朋友關(guān)聯(lián),形成信任和相互關(guān)聯(lián)性圓環(huán)。

通過分析號碼之間的這類呼叫模式,我們的圖解決方案可以輕松識別壞號碼,即可能涉嫌詐騙的號碼。這些號碼會短暫呼叫多個好號碼,但不會收到回電。此外,它們也沒有定期呼叫的穩(wěn)定號碼組(即“空穩(wěn)定組”)。當(dāng)壞號碼呼叫長期網(wǎng)內(nèi)用戶時,對方不會回電。壞號碼的很多呼叫還會被拒絕,而且缺乏三步式朋友關(guān)系。

圖數(shù)據(jù)庫平臺利用超過 100 項(xiàng)圖特征(如穩(wěn)定組),它們與我們使用案例中的 6 億移動號碼各自的好壞號碼行為高度相關(guān)。相應(yīng)地,它可以生成 700 億項(xiàng)新的訓(xùn)練數(shù)據(jù)特征,供機(jī)器學(xué)習(xí)算法使用。最終提高了欺詐偵查機(jī)器學(xué)習(xí)的準(zhǔn)確率,同時減少誤報(即非欺詐號碼被標(biāo)記為潛在欺詐者號碼)和漏報(即未標(biāo)記出參與欺詐的號碼)。

為了了解基于圖的特征如何提高機(jī)器學(xué)習(xí)的準(zhǔn)確率,我們來看一個示例(下圖2),其中使用了以下四位移動用戶的側(cè)寫:Tim、Sarah、Fred 和 John。

13cf180e-5a67-11ed-a3b6-dac502259ad0.png

按照傳統(tǒng)的通話記錄特征,如 SIM 卡齡、單向呼叫的百分比以及被拒絕的呼叫總量百分比),四人中的三人(Tim、Fred 和 John)將被標(biāo)記為疑似或潛在欺詐者,因?yàn)閺倪@些特征來看,他們非常相似。經(jīng)過分析基于圖的特征,以及號碼和用戶之間的深度關(guān)聯(lián)或多步關(guān)系,最終幫助機(jī)器學(xué)習(xí)將 Tim 歸類為愛惡作劇者、John 為銷售人員,而 Fred 則被標(biāo)記為疑似欺詐者。我們來思考一下這個過程。

就 Tim 來說,他有一個“穩(wěn)定組”,這意味著他不太可能是銷售人員,因?yàn)殇N售人員每周都會撥打不同的電話號碼。Tim 沒有很多組內(nèi)關(guān)聯(lián),這意味著他可能經(jīng)常給陌生人打電話。他也沒有任何三步式朋友關(guān)聯(lián),用于確認(rèn)他所呼叫的陌生人不存在關(guān)聯(lián)。根據(jù)這些特征判斷,Tim 很可能是愛惡作劇者。

我們來看一下 John 的情況,他沒有穩(wěn)定組,這意味著他每天都通過電話尋找新的潛在銷售線索。他會給具有很多組內(nèi)關(guān)聯(lián)的人打電話。當(dāng) John 介紹產(chǎn)品或服務(wù)時,如果接聽方對它們感興趣或認(rèn)為與自己相關(guān),則其中一些人很可能會將 John 介紹給其他聯(lián)系人。John 還通過三步式朋友關(guān)系與他人產(chǎn)生關(guān)聯(lián),這表明他作為優(yōu)秀的銷售人員將整個環(huán)鏈閉合,通過在同一組內(nèi)第一次聯(lián)系的人的朋友或同事當(dāng)中遴選,找到最終的買家來購買他的產(chǎn)品或服務(wù)。依據(jù)這些特征的組合,最終將 John 歸類為銷售人員。

就 Fred 來說,他既沒有穩(wěn)定組,也不與具有很多組內(nèi)關(guān)聯(lián)的群體交流。此外,他與所呼叫的人之間也沒有三步式朋友關(guān)系。這使得他非常容易成為電話詐騙或欺詐的調(diào)查對象。

回到我們最初海底撈針的比喻,在本例中,我們可以利用圖分析改善機(jī)器學(xué)習(xí),進(jìn)而提高準(zhǔn)確率,最終找到那根“針”,即潛在的欺詐者 Fred。為此,需要使用圖數(shù)據(jù)庫框架對數(shù)據(jù)進(jìn)行建模,以便能夠識別和考慮更多特征,用于進(jìn)一步分析我們的海量數(shù)據(jù)。相應(yīng)地,計算機(jī)將利用越來越準(zhǔn)確的數(shù)據(jù)進(jìn)行訓(xùn)練,使自己不斷變得聰明,更加成功地識別潛在的詐騙分子和欺詐者。

如果您正從事機(jī)器學(xué)習(xí)相關(guān)的工作,希望利用圖分析來增強(qiáng)機(jī)器學(xué)習(xí),別忘了點(diǎn)擊文末的“閱讀原文”,下載完整的《原生并行圖》白皮書,來增強(qiáng)您對圖的了解,從而更好地將圖應(yīng)用到您的工作中。

另外,您也可以下載使用TigerGraph 機(jī)器學(xué)習(xí)工作臺(ML Workbench),這是一個基于Jupyter的Python開發(fā)框架,可以使數(shù)據(jù)科學(xué)家,人工智能和機(jī)器學(xué)習(xí)的從業(yè)者更容易、也更熟悉地使用圖分析,而無需學(xué)習(xí)很多新的數(shù)據(jù)處理方式。比如數(shù)據(jù)科學(xué)家可以使用TigerGraph 機(jī)器學(xué)習(xí)工作臺(ML Workbench),更快速地構(gòu)建圖神經(jīng)網(wǎng)絡(luò) (GNN) 模型,輕松探索圖神經(jīng)網(wǎng)絡(luò)(GNN)。它提供了 Python 級別強(qiáng)大而高效的數(shù)據(jù)管道,將數(shù)據(jù)從 TigerGraph 流式傳輸?shù)接脩舻臋C(jī)器學(xué)習(xí)系統(tǒng),執(zhí)行常見的數(shù)據(jù)處理任務(wù),例如對圖數(shù)據(jù)集的訓(xùn)練、驗(yàn)證和測試,以及各種子圖采樣方法。詳細(xì)信息,可以點(diǎn)擊文中鏈接查看往期的TigerGraph 隨身聽(Vol.23 TigerGraph機(jī)器學(xué)習(xí)工作臺)。

以上就是我們今天的隨身聽內(nèi)容,如果您對于我們討論的應(yīng)用場景,有任何問題,或者希望和我們進(jìn)行更有針對性的深度探討,歡迎通過文中的聯(lián)系方式和我們聯(lián)系。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4710

    瀏覽量

    95374
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8503

    瀏覽量

    134601

原文標(biāo)題:Vol.33 圖和機(jī)器學(xué)習(xí),為電話欺詐檢測打造更好的“磁石”

文章出處:【微信號:TigerGraph,微信公眾號:TigerGraph】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    k210在線訓(xùn)練算法是yolo5嗎?

    k210在線訓(xùn)練算法是yolo5嗎
    發(fā)表于 06-16 08:25

    【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】視覺實(shí)現(xiàn)的基礎(chǔ)算法的應(yīng)用

    視覺巡線,展示了如何從數(shù)據(jù)采集、模型訓(xùn)練機(jī)器人部署的完整流程。 值得注意的是,深度學(xué)習(xí)模型的實(shí)時性對機(jī)器人計算資源提出了較高要求,優(yōu)化模型
    發(fā)表于 05-03 19:41

    數(shù)據(jù)標(biāo)注服務(wù)—奠定大模型訓(xùn)練數(shù)據(jù)基石

    數(shù)據(jù)標(biāo)注是大模型訓(xùn)練過程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓(xùn)練中,數(shù)據(jù)標(biāo)注承擔(dān)著將原始
    的頭像 發(fā)表于 03-21 10:30 ?770次閱讀

    標(biāo)貝數(shù)據(jù)標(biāo)注服務(wù):奠定大模型訓(xùn)練數(shù)據(jù)基石

    數(shù)據(jù)標(biāo)注是大模型訓(xùn)練過程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓(xùn)練中,數(shù)據(jù)標(biāo)注承擔(dān)著將原始
    的頭像 發(fā)表于 03-21 10:27 ?564次閱讀
    標(biāo)貝<b class='flag-5'>數(shù)據(jù)</b>標(biāo)注服務(wù):奠定大模型<b class='flag-5'>訓(xùn)練</b>的<b class='flag-5'>數(shù)據(jù)</b>基石

    請問STM32部署機(jī)器學(xué)習(xí)算法硬件至少要使用哪個系列的芯片?

    STM32部署機(jī)器學(xué)習(xí)算法硬件至少要使用哪個系列的芯片?
    發(fā)表于 03-13 07:34

    機(jī)器學(xué)習(xí)模型市場前景如何

    當(dāng)今,隨著算法的不斷優(yōu)化、數(shù)據(jù)量的爆炸式增長以及計算能力的飛速提升,機(jī)器學(xué)習(xí)模型的市場前景愈發(fā)廣闊。下面,AI部落小編將探討機(jī)器
    的頭像 發(fā)表于 02-13 09:39 ?359次閱讀

    《具身智能機(jī)器人系統(tǒng)》第10-13章閱讀心得之具身智能機(jī)器人計算挑戰(zhàn)

    章深入分析DNN的安全威脅。逃逸攻擊通過向輸入數(shù)據(jù)添加人眼難以察覺的擾動,誘導(dǎo)模型做出錯誤判斷。投毒攻擊則通過污染訓(xùn)練數(shù)據(jù)集,在模型學(xué)習(xí)
    發(fā)表于 01-04 01:15

    傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    用于開發(fā)生物學(xué)數(shù)據(jù)機(jī)器學(xué)習(xí)方法。盡管深度學(xué)習(xí)(一般指神經(jīng)網(wǎng)絡(luò)算法)是一個強(qiáng)大的工具,目前也非常流行,但它的應(yīng)用領(lǐng)域仍然有限。與深度
    的頭像 發(fā)表于 12-30 09:16 ?1184次閱讀
    傳統(tǒng)<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>方法和應(yīng)用指導(dǎo)

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】1.全書概覽與第一章學(xué)習(xí)

    講解如何構(gòu)造具身智能基礎(chǔ)模型的方法和步驟,包括數(shù)據(jù)采集、預(yù)處理、模型訓(xùn)練和評估等。 在第四部分,介紹具身智能機(jī)器人的計算挑戰(zhàn),包括計算加速、算法
    發(fā)表于 12-27 14:50

    《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型

    的應(yīng)用。MAML算法通過二階優(yōu)化找到對任務(wù)變化敏感的模型參數(shù),實(shí)現(xiàn)快速適應(yīng)。上下文學(xué)習(xí)則引入了注意力機(jī)制,使模型能夠根據(jù)當(dāng)前場景動態(tài)調(diào)整行為策略。在預(yù)訓(xùn)練-微調(diào)范式中,我們要注意任務(wù)
    發(fā)表于 12-24 15:03

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+數(shù)據(jù)在具身人工智能中的價值

    ,數(shù)據(jù)對于訓(xùn)練增強(qiáng)和優(yōu)化機(jī)器人能力的深度學(xué)習(xí)模型至關(guān)重要。 從財務(wù)上講,用戶數(shù)據(jù)對互聯(lián)網(wǎng)公司具有重要價值,估計每個用戶 600 美元,考慮到
    發(fā)表于 12-24 00:33

    NPU與機(jī)器學(xué)習(xí)算法的關(guān)系

    在人工智能領(lǐng)域,機(jī)器學(xué)習(xí)算法是實(shí)現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復(fù)雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度
    的頭像 發(fā)表于 11-15 09:19 ?1214次閱讀

    LLM和傳統(tǒng)機(jī)器學(xué)習(xí)的區(qū)別

    在人工智能領(lǐng)域,LLM(Large Language Models,大型語言模型)和傳統(tǒng)機(jī)器學(xué)習(xí)是兩種不同的技術(shù)路徑,它們在處理數(shù)據(jù)、模型結(jié)構(gòu)、應(yīng)用場景等方面有著顯著的差異。 1. 模型結(jié)構(gòu)
    的頭像 發(fā)表于 11-08 09:25 ?1885次閱讀

    Pytorch深度學(xué)習(xí)訓(xùn)練的方法

    掌握這 17 種方法,用最省力的方式,加速你的 Pytorch 深度學(xué)習(xí)訓(xùn)練
    的頭像 發(fā)表于 10-28 14:05 ?654次閱讀
    Pytorch深度<b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>訓(xùn)練</b>的方法

    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

    鷺島論壇數(shù)據(jù)智能系列講座第4期「預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)」10月30日(周三)20:00精彩開播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報告題目預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)
    的頭像 發(fā)表于 10-18 08:09 ?591次閱讀
    直播預(yù)約 |<b class='flag-5'>數(shù)據(jù)</b>智能系列講座第4期:預(yù)<b class='flag-5'>訓(xùn)練</b>的基礎(chǔ)模型下的持續(xù)<b class='flag-5'>學(xué)習(xí)</b>