99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機器學習的任務:從學術(shù)論文中學習數(shù)據(jù)預處理

如意 ? 來源:百家號 ? 作者: 讀芯術(shù) ? 2020-07-01 09:37 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作為工作中最關(guān)鍵的部分,數(shù)據(jù)預處理同時也是大多數(shù)數(shù)據(jù)科學家耗時最長的項目,他們大約80%的時間花在這上面。

這些任務有怎樣重要性?有哪些學習方法和技巧?本文就將重點介紹來自著名大學和研究團隊在不同培訓數(shù)據(jù)主題上的學術(shù)論文。主題包括人類注釋者的重要性,如何在相對較短的時間內(nèi)創(chuàng)建大型數(shù)據(jù)集,如何安全處理可能包含私人信息的訓練數(shù)據(jù)等等。

1. 人類注釋器(human annotators)是多么重要?

機器學習的任務:從學術(shù)論文中學習數(shù)據(jù)預處理

本文介紹了注釋器質(zhì)量如何極大地影響訓練數(shù)據(jù),進而影響模型的準確性的第一手資料。在這個情緒分類項目里,Joef Stefan研究所的研究人員用多種語言分析了sentiment-annotated tweet的大型數(shù)據(jù)集。

有趣的是,該項目的結(jié)果表明頂級分類模型的性能在統(tǒng)計學上沒有重大差異。相反,人類注釋器的質(zhì)量是決定模型準確性的更大因素。

為了評估他們的注釋器,團隊使用了注釋器之間的認同過程和自我認同過程。研究發(fā)現(xiàn),雖然自我認同是去除表現(xiàn)不佳的注釋器的好方法,但注釋者之間的認同可以用來衡量任務的客觀難度。

研究論文:《多語言Twitter情緒分類:人類注釋器的角色》(MultilingualTwitter Sentiment Classification: The Role of Human Annotators)

作者/供稿人:Igor Mozetic, Miha Grcar, Jasmina Smailovic(所有作者均來自Jozef Stefan研究所)

出版/最后更新日期:2016年5月5日

2.機器學習的數(shù)據(jù)收集調(diào)查

機器學習的任務:從學術(shù)論文中學習數(shù)據(jù)預處理

這篇論文來自韓國先進科學技術(shù)研究所的一個研究團隊,非常適合那些希望更好地了解數(shù)據(jù)收集、管理和注釋的初學者。此外,本文還介紹和解釋了數(shù)據(jù)采集、數(shù)據(jù)擴充和數(shù)據(jù)生成的過程。

對于剛接觸機器學習的人來說,這篇文章是一個很好的資源,可以幫助你了解許多常見的技術(shù),這些技術(shù)可以用來創(chuàng)建高質(zhì)量的數(shù)據(jù)集。

研究論文:《機器學習的數(shù)據(jù)收集調(diào)查》(A Survey on Data Collection for MachineLearning)

作者/供稿人: Yuji Roh, Geon Heo, Steven Euijong Whang (所有作者均來自韓國科學技術(shù)院)

出版/最后更新日期:2019年8月12日

3.用于半監(jiān)督式學習和遷移學習的高級數(shù)據(jù)增強技術(shù)

機器學習的任務:從學術(shù)論文中學習數(shù)據(jù)預處理

目前數(shù)據(jù)科學家面臨的最大問題之一就是獲得訓練數(shù)據(jù)。也可以說,深度學習所面臨最大的問題之一,是大多數(shù)模型都需要大量的標簽數(shù)據(jù)才能以較高的精度發(fā)揮作用。

為了解決這些問題,來自谷歌和卡內(nèi)基·梅隆大學的研究人員提出了一個在大幅降低數(shù)據(jù)量的情況下訓練模型的框架。該團隊提出使用先進的數(shù)據(jù)增強方法來有效地將噪音添加到半監(jiān)督式學習模型中使用的未標記數(shù)據(jù)樣本中,這個框架能夠取得令人難以置信的結(jié)果。

該團隊表示,在IMDB文本分類數(shù)據(jù)集上,他們的方法只需在20個標記樣本上進行訓練,就能夠超越最先進的模型。此外,在CIFAR-10基準上,他們的方法表現(xiàn)優(yōu)于此前所有的方法。

論文題目:《用于一致性訓練的無監(jiān)督數(shù)據(jù)增強》(UnsupervisedData Augmentation for Consistency Training)

作者/供稿人:Qizhe Xie (1,2), Zihang Dai (1,2), Eduard Hovy (2),Minh-Thang Luong (1), Quoc V. Le (1) (1 – Google研究院,谷歌大腦團隊, 2 – 卡耐基·梅隆大學)

發(fā)布日期 / 最后更新:2019年9月30日

4.利用弱監(jiān)督對大量數(shù)據(jù)進行標注

對于許多機器學習項目來說,獲取和注釋大型數(shù)據(jù)集需要花費大量的時間。在這篇論文中,來自斯坦福大學的研究人員提出了一個通過稱為“數(shù)據(jù)編程”的過程自動創(chuàng)建數(shù)據(jù)集的系統(tǒng)。

機器學習的任務:從學術(shù)論文中學習數(shù)據(jù)預處理

上表是直接從論文中提取的,使用數(shù)據(jù)編程(DP)顯示了與遠程監(jiān)督的ITR方法相比的精度、召回率和F1得分。

該系統(tǒng)采用弱監(jiān)管策略來標注數(shù)據(jù)子集。產(chǎn)生的標簽和數(shù)據(jù)可能會有一定程度的噪音。然而,該團隊隨后通過將訓練過程表示為生成模型,從數(shù)據(jù)中去除噪音,并提出了修改損失函數(shù)的方法,以確保它對“噪音感知”。

研究論文:《數(shù)據(jù)編程:快速創(chuàng)建大型訓練集》(DataProgramming: Creating Large Training Sets, Quickly)

作者/供稿人:Alexander Ratner, Christopher De Sa, Sen Wu, DanielSelsam, Christopher Re(作者均來自斯坦福大學)

發(fā)布/最后更新日期:2017年1月8日

5.如何使用半監(jiān)督式知識轉(zhuǎn)移來處理個人身份信息(PII)

機器學習的任務:從學術(shù)論文中學習數(shù)據(jù)預處理

來自谷歌和賓夕法尼亞州立大學的研究人員介紹了一種處理敏感數(shù)據(jù)的方法,例如病歷和用戶隱私信息。這種方法被稱為教師集合私有化(PATE),可以應用于任何模型,并且能夠在MNIST和SVHN數(shù)據(jù)集上實現(xiàn)最先進的隱私/效用權(quán)衡。

然而,正如數(shù)據(jù)科學家Alejandro Aristizabal在文章中所說,PATE所設(shè)計的一個主要問題為該框架要求學生模型與教師模型共享其數(shù)據(jù)。在這個過程中,隱私得不到保障。

為此Aristizabal提出了一個額外的步驟,為學生模型的數(shù)據(jù)集加密。你可以在他的文章Making PATEBidirectionally Private中讀到這個過程,但一定要先閱讀其原始研究論文。

論文題目:《從隱私訓練數(shù)據(jù)進行深度學習的半監(jiān)督式知識轉(zhuǎn)移》(Semi-SupervisedKnowledge Transfer for Deep Learning From Private Training Data)

作者/供稿人:Nicolas Papernot(賓夕法尼亞州立大學)、Martin Abadi(谷歌大腦)、Ulfar Erlingsson(谷歌)、Ian Goodfellow(谷歌大腦)、Kunal Talwar(谷歌大腦)。

發(fā)布日期 / 最后更新:2017年3月3日

閱讀頂尖學術(shù)論文是了解學術(shù)前沿的不二法門,同時也是從他人實踐中內(nèi)化重要知識、學習優(yōu)秀研究方法的好辦法,多讀讀論文絕對會對你有幫助。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器學習
    +關(guān)注

    關(guān)注

    66

    文章

    8502

    瀏覽量

    134592
  • 論文
    +關(guān)注

    關(guān)注

    1

    文章

    103

    瀏覽量

    15210
  • 數(shù)據(jù)預處理

    關(guān)注

    1

    文章

    20

    瀏覽量

    2887
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    FPGA在機器學習中的具體應用

    隨著機器學習和人工智能技術(shù)的迅猛發(fā)展,傳統(tǒng)的中央處理單元(CPU)和圖形處理單元(GPU)已經(jīng)無法滿足高效處理大規(guī)模
    的頭像 發(fā)表于 07-16 15:34 ?221次閱讀

    嵌入式AI技術(shù)之深度學習數(shù)據(jù)樣本預處理過程中使用合適的特征變換對深度學習的意義

    ? 作者:蘇勇Andrew 使用神經(jīng)網(wǎng)絡實現(xiàn)機器學習,網(wǎng)絡的每個層都將對輸入的數(shù)據(jù)做一次抽象,多層神經(jīng)網(wǎng)絡構(gòu)成深度學習的框架,可以深度理解數(shù)據(jù)
    的頭像 發(fā)表于 04-02 18:21 ?881次閱讀

    機器學習模型市場前景如何

    當今,隨著算法的不斷優(yōu)化、數(shù)據(jù)量的爆炸式增長以及計算能力的飛速提升,機器學習模型的市場前景愈發(fā)廣闊。下面,AI部落小編將探討機器學習模型市場
    的頭像 發(fā)表于 02-13 09:39 ?359次閱讀

    傳統(tǒng)機器學習方法和應用指導

    在上一篇文章中,我們介紹了機器學習的關(guān)鍵概念術(shù)語。在本文中,我們會介紹傳統(tǒng)機器學習的基礎(chǔ)知識和多種算法特征,供各位老師選擇。 01 傳統(tǒng)
    的頭像 發(fā)表于 12-30 09:16 ?1184次閱讀
    傳統(tǒng)<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法和應用指導

    《具身智能機器人系統(tǒng)》第7-9章閱讀心得之具身智能機器人與大模型

    學習任務、上下文長度、記憶和隱藏狀態(tài)提高適應性。 任務適應 依賴數(shù)據(jù)采集和微調(diào),可能效率較低。 利用復雜指令并自動多樣的上下
    發(fā)表于 12-24 15:03

    【「具身智能機器人系統(tǒng)」閱讀體驗】+數(shù)據(jù)在具身人工智能中的價值

    出現(xiàn)重大問題。此外,機器人在不同環(huán)境中適應和泛化的能力取決于它處理數(shù)據(jù)的多樣性。例如,家庭服務機器人必須適應各種家庭環(huán)境和任務,要求它們
    發(fā)表于 12-24 00:33

    自然語言處理機器學習的關(guān)系 自然語言處理的基本概念及步驟

    Learning,簡稱ML)是人工智能的一個核心領(lǐng)域,它使計算機能夠數(shù)據(jù)中學習并做出預測或決策。自然語言處理機器
    的頭像 發(fā)表于 12-05 15:21 ?1981次閱讀

    Minitab 數(shù)據(jù)清理與預處理技巧

    Minitab是一款功能強大的統(tǒng)計分析和質(zhì)量管理軟件,在數(shù)據(jù)分析過程中,數(shù)據(jù)清理與預處理是至關(guān)重要的環(huán)節(jié)。以下是一些在Minitab中進行數(shù)據(jù)清理與
    的頭像 發(fā)表于 12-02 16:06 ?1554次閱讀

    什么是機器學習?通過機器學習方法能解決哪些問題?

    計算機系統(tǒng)自身的性能”。事實上,由于“經(jīng)驗”在計算機系統(tǒng)中主要以數(shù)據(jù)的形式存在,因此機器學習需要設(shè)法對數(shù)據(jù)進行分析學習,這就使得它逐漸成為智
    的頭像 發(fā)表于 11-16 01:07 ?963次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學習</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法能解決哪些問題?

    NPU與機器學習算法的關(guān)系

    在人工智能領(lǐng)域,機器學習算法是實現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學習
    的頭像 發(fā)表于 11-15 09:19 ?1214次閱讀

    eda在機器學習中的應用

    機器學習項目中,數(shù)據(jù)預處理和理解是成功構(gòu)建模型的關(guān)鍵。探索性數(shù)據(jù)分析(EDA)是這一過程中不可或缺的一部分。 1.
    的頭像 發(fā)表于 11-13 10:42 ?891次閱讀

    LLM和傳統(tǒng)機器學習的區(qū)別

    在人工智能領(lǐng)域,LLM(Large Language Models,大型語言模型)和傳統(tǒng)機器學習是兩種不同的技術(shù)路徑,它們在處理數(shù)據(jù)、模型結(jié)構(gòu)、應用場景等方面有著顯著的差異。 1. 模
    的頭像 發(fā)表于 11-08 09:25 ?1881次閱讀

    人工智能、機器學習和深度學習存在什么區(qū)別

    人工智能指的是在某種程度上顯示出類似人類智能的設(shè)備。AI有很多技術(shù),但其中一個很大的子集是機器學習——讓算法數(shù)據(jù)中學習。
    發(fā)表于 10-24 17:22 ?2976次閱讀
    人工智能、<b class='flag-5'>機器</b><b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b>存在什么區(qū)別

    【「時間序列與機器學習」閱讀體驗】時間序列的信息提取

    個重要環(huán)節(jié),目標是給定的時間序列數(shù)據(jù)中提取出有用的信息和特征,以支持后續(xù)的分析和預測任務。 特征工程(Feature Engineering)是將數(shù)據(jù)轉(zhuǎn)換為更好地表示潛在問題的特征,
    發(fā)表于 08-17 21:12

    【《時間序列與機器學習》閱讀體驗】+ 時間序列的信息提取

    本人有些機器學習的基礎(chǔ),理解起來一點也不輕松,加油。 作者首先說明了時間序列的信息提取是時間序列分析的一個重要環(huán)節(jié),目標是給定的時間序列數(shù)據(jù)中提取出有用的信息和特征,以支持后續(xù)的分析
    發(fā)表于 08-14 18:00