99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

“機器學習”術語的誕生并不是為了區(qū)分統(tǒng)計學

倩倩 ? 來源:雷鋒網(wǎng) ? 2020-04-15 16:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

統(tǒng)計學和機器學習之間是否涇渭分明一直學界爭論的焦點。

有的學者認為機器學習只是統(tǒng)計學披了一層光鮮的外衣。而另一些討論則認為涉及使用邏輯回歸或者廣義線性模型(GLM)的可以稱作機器學習;否則就不是。

還有一些觀點認為:是否執(zhí)行元分析或許是區(qū)分兩個領域的一個標準。

但,爭論兩者之間的邊界,真的有意義嗎?如果對這個問題進行嚴肅地思考,或許我們會發(fā)現(xiàn),答案是否定的。

麻省理工Sam Finlayson 博士指出“過去關于機器學習和統(tǒng)計學之間的討論很大程度上沒有切中要害,因為這些討論要么忽略了歷史背景、要么‘回歸方法’歸屬模棱兩可”,因此這種爭論事實上毫無意義。

1、歷史背景的忽略:“機器學習”術語的誕生并不是為了區(qū)分統(tǒng)計學

達特茅斯會議期間合影 數(shù)千年來,研究者們一直夢想建造“智能”設備,但“人工智能”一詞卻是到1956年才出現(xiàn)。John McCarthy 在當時的達特茅斯會議上提出這個術語,并將人工智能定義為:制造智能機器的科學和工程。

至此之后,人工之智能術語使用并流行到了今天。

而McCarthy能在會議上說服參會者使用這一術語很大程度上因為這個定義本身就是非常模糊的。

在那個年代,致力于“智能”的科學家們的研究視角還未轉(zhuǎn)向“數(shù)據(jù)驅(qū)動”,而是專注于自動機理論、形式邏輯和控制論等東西。

也就 是說McCarthy當時想要創(chuàng)造一個術語來容納所有這些范式,而不是傾向于任何特定的方法。

正是在這種情況下,Arthur Samuel(達特茅斯會議的與會者之一)在1959年提出了“機器學習”一詞,并將其定義為一種研究領域,即不進行顯式編程就可讓計算機進行學習的研究領域。

之所以有此定義是因為Samuels和他的同事們希望通過讓計算機擁有識別能力,并隨著時間的推移不斷改進這種能力來使得計算機變得更加“智能”。

在今天看來,這種研究方法似乎并不陌生,但先驅(qū)們卻花費了數(shù)十年才讓其成為AI研究的主導范式。

從當時研究者的意圖來看,機器學習是為了描述計算機的設計過程而創(chuàng)建的,該過程利用統(tǒng)計方法來改善性能。 也就是說該術語是旨在與構(gòu)建智能機器的非數(shù)據(jù)驅(qū)動方法形成對比,不是為了與統(tǒng)計學形成對比。

畢竟統(tǒng)計學重點使用數(shù)據(jù)驅(qū)動的方法為人類提供有效信息。

另一個被普遍認可的機器學習的定義來自于Tom M.Mitchell 在 1997年出版的教科書,他在書中提到:“機器學習領域涉及如何讓計算機程序通過經(jīng)驗而自動改進的一類問題”。

另外,書中還有一個半正式定義: 對于某類任務 T 和性能度量 P,計算機程序從經(jīng)驗 E 中學習,然后它在任務 T 中的性能 P 隨著經(jīng)驗 E 的提高而提高。

2、關于誰“擁有”回歸的爭論沒有抓住重點

當前許多人試圖在統(tǒng)計方法和機器方法之間用二分法強硬的劃定界限,但這顯然是一種獨裁的專制。

有的人特別執(zhí)著的認為:回歸驅(qū)動的研究方法是統(tǒng)計學專屬,無論如何不能稱作機器學習。

此類觀點其實比目前“邏輯回歸等于計量經(jīng)濟學”的觀點還要愚蠢,兩者同樣挑起了激烈的爭論。

六十年來機器學習社區(qū)一直在致力于“更好的計算機”,而并不關心是奇妙的方法還是統(tǒng)計數(shù)據(jù)哪個更優(yōu)。

這也是為什么大多數(shù)教授在機器學習課程教學的時候,花大精力來教授廣義線性模型及其變體。

所以說統(tǒng)計學在機器學習和人工智能的研究背景下是非常有意義的,機器學習術語涉及不同的方法,并致力于讓“程序”變得智能。 坦率地說,任何段位的統(tǒng)計學家都不能斷言“脫離實際研究背景的統(tǒng)計學方法是有用的”。

回歸方法歸屬之爭其實在很大程度上同時低估了機器學習和統(tǒng)計,原因大致可以歸納為以下四個:

1.限制了經(jīng)典統(tǒng)計方法在構(gòu)建計算機程序方面所能發(fā)揮的核心作用;2.忽略了機器學習對統(tǒng)計學的影響,實際上人工智能和計算機學科很大程度促進了統(tǒng)計學的復興。例如Judea Pearl的因果關系開辟了新的統(tǒng)計學范式;3.統(tǒng)計學和機器學習之間“強硬”的二分法在一定程度上弱化了建模決策中的重要信息,并且這種分類有時候毫無意義。4.當前機器學習和統(tǒng)計學的頂級研究學者大多同時屬于這兩個領域。

其實,當前有很多研究都突出了統(tǒng)計學家與機器學習研究人員的豐富互動,例如著名學者Rob Tibshirani和Trevor Hastie沒有糾結(jié)于方法論的邊界線,而是利用機器學習研究人員開發(fā)的工具,從而幫助完善統(tǒng)計學領域的研究。并不是說Hastie和Tibs發(fā)明了新方法,而是意味著這些方法已經(jīng)影響了統(tǒng)計學家和機器學習研究人員的日常工作。

3、許多“爭論”在開始之前就已注定失敗

目標的不同導致了方法和文化的差異,這也是為什么“機器學習”一詞的含義自誕生以來發(fā)生了如此大的變化。

語言中的脫節(jié)讓許多“爭論”在開始之前就已注定失敗。

如上文所述,機器學習這一研究領域之所以得以創(chuàng)立,便是由于計算機科學家試圖創(chuàng)建和理解智能計算機系統(tǒng),至今依舊如此。

主要的機器學習應用包括語音識別、計算機視覺、機器人/自動系統(tǒng)、計算廣告、監(jiān)控、聊天機器人等等。在嘗試解決這些問題的過程中,機器學習研究者基本總是先從嘗試經(jīng)典的統(tǒng)計學方法開始,例如相對簡單的廣義線性模型(GLM)。

當然,長年累月,計算機科學家也不斷提出了新的方法,讓機器學習這一工具日益強大。

與其他任意背景下的進化一樣,用于機器學習的統(tǒng)計學方法,其進化史也是在“物競天擇”的壓力下所形成的。 與統(tǒng)計學家相比,機器學習研究者往往很少關注:理解算法背后所執(zhí)行的所有具體動作。這一點其實非常重要,并且越來越重要。

他們通常最關注的是模型誤差。這樣就導致機器學習研究者開發(fā)的方法往往會更加靈活,甚至不惜以犧牲可解釋性為代價來實現(xiàn)更高的靈活性。 這種離散式的進化,就很容易讓機器學習和完全基于方法的統(tǒng)計學研究之間的界限變得模糊。

此外,也導致不少統(tǒng)計學家并不了解機器學習的歷史。因此毫不驚訝地,他們會熱衷于采用任何其他的術語來定義機器學習領域,即便這種做法毫無必要。 出于同樣的道理,基于“使用”的嚴格劃分現(xiàn)在變得非常復雜,實際上現(xiàn)在很多機器學習從業(yè)者,即便當他們僅僅是在應用機器學習方法來做純粹的數(shù)據(jù)分析,而不是驅(qū)動計算機程序時,他們依舊會稱他們是在做機器學習。

雖然從嚴格的歷史意義上而言,這種說法并不對,但是我認為也無需指責這種做法,因為這可能是出于習慣、文化背景或者“認為這種說法聽起來來很酷”的綜合影響。

所以在現(xiàn)實中,人們用到“機器學習”這個術語時,往往指的與機器學習本身非常不同的其他事情。 人們可能用它來表達:“我正在用統(tǒng)計學方法來讓我設計的程序?qū)W習”或者“我正在設計可以部署到自動化系統(tǒng)中的數(shù)據(jù)分析”。

又或者表達的意思是:“我正在使用一個最初由機器學習社區(qū)開發(fā)的方法,如隨機森林,來做統(tǒng)計學數(shù)據(jù)分析”。 而更普遍的情況是,他們使用這個詞是在說:“我自己是一個機器學習研究者,我就是在使用數(shù)據(jù)做機器學習研究,我怎么高興就怎么說?!?/p>

實際上,這一術語的不同用法并不令人驚訝也不成問題,因而這僅僅是由于語言的進化而導致的結(jié)果。然而當另一群人——數(shù)據(jù)科學家群起而辯“一個特定的項目是否能純粹地冠之以機器學習或者統(tǒng)計學,二者選其一”時,就非?;?。

在我看來,“數(shù)據(jù)科學家”這一術語原本就是由機器學習和統(tǒng)計學交匯而成的。 而當這一爭論發(fā)生時,大家往往都帶著各不相同、定義模糊、并且表達不清的假設參與爭論,一開場便是爭論這些詞的意思。而隨后他們幾乎不會花時間去了解這些詞的出處或者聽對方真正要表達的是什么,而僅僅是相互之間隔空喊話,聲音大然而卻并不清晰。

4、這整場“爭論”差不多就是在浪費時間

現(xiàn)在,讓我們將這些真實的問題擺在桌面上來談:如今有很多機器學習研究者(或者至少是機器學習愛好者)對統(tǒng)計學的理解尚有不足。有一部分人確實就是一位機器學習研究者,然而也有許多專業(yè)的統(tǒng)計學家有時候也會認為自己是機器學習研究者。

而更嚴重的現(xiàn)實情況是,機器學習研究的發(fā)展走得如此之快,并且常常在文化上與統(tǒng)計學領域脫節(jié)得如此之遠,以至于我認為對于即便是非常杰出的機器學習研究者而言,對統(tǒng)計學的某些部分“重新發(fā)現(xiàn)”或者“重新發(fā)明”都非常普遍。

這是個問題,也是種浪費! 最后,由于大量第三方應用研究者非常喜歡用“機器學習”這個術語:為了讓論文顯得更時髦而在論文中大量應用這一術語,即便現(xiàn)實中他們所謂的“機器學習”既不是構(gòu)建自動化系統(tǒng)也沒有使用機器學習領域提出的方法。

(雷鋒網(wǎng))我認為,所有這些問題的解決方法,就是讓人們更多地意識到:大多數(shù)機器學習的數(shù)據(jù)方法實際上就存在于統(tǒng)計學中。無論這些方法是用到了數(shù)據(jù)分析中還是設計智能系統(tǒng)中,我們的首要任務是培養(yǎng)對統(tǒng)計學原理的深刻理解,而不是執(zhí)拗于機器學習和統(tǒng)計學領域的劃分是正確還是錯誤。

關于很多工作是機器學習還是統(tǒng)計學的無休止的爭論,最終只會分散人們的注意力,讓他們無法花更多精力來進行“如何通過正確匹配問題和特定的工具來很好地完成工作”的必要對話和交流——相對而言,這才是更重要的事。 與此同時,人們固執(zhí)己見地對統(tǒng)計學和機器學習方法錯誤的二分法,會讓很多研究者進一步養(yǎng)成沒有必要就不使用復雜方法的習慣,僅僅是為了讓自己感覺像是在做“真正的機器學習”。

這也會直接導致,人們會為了讓自己的工作在方法論上聽起來更時髦,就肆無忌憚地把自己的工作稱作機器學習。

統(tǒng)計計算的黃金時代,正在推動機器學習和統(tǒng)計學領域變得空前的緊密。當然,機器學習研究誕生于計算機科學體系,而當代的統(tǒng)計學家越來越多地依賴于計算機科學界幾十年來開創(chuàng)的算法和軟件棧。他們也越來越多地發(fā)現(xiàn)機器學習研究者所提出的方法的用處,例如高維度回歸,這一點尤其體現(xiàn)在計算生物學領域。

另一方面,機器學習社區(qū)也越來越多地關注可解釋性、公平性、可驗證的魯棒性等主題,這也讓很多研究者優(yōu)先考慮讓機器學習輸出的數(shù)值更直接地與傳統(tǒng)的統(tǒng)計值一致。至少,即便是在盡可能地使用最復雜的架構(gòu)來部署系統(tǒng)時,人們也普遍意識到,使用經(jīng)典的統(tǒng)計學來測量和評估機器學習模型的性能很有必要。

5、總結(jié)

總而言之,學界關于機器學習和統(tǒng)計學的爭論是錯誤的,人們對于相關術語的使用也是超載的,方法論的二分法也并不正確,機器學習研究者越來越多地關注統(tǒng)計學,而統(tǒng)計學家們也越來越依賴于計算機科學和機器學習社區(qū)。

根本就不存在回歸和兼并陰謀論。

現(xiàn)在出現(xiàn)了很多炒作現(xiàn)象,但并不能改變的一個事實是:當其他人使用的術語與你不同時,那是因為他們來自不同的背景、有著不同的目標,而不是因為他們不誠實或者愚蠢。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3517

    瀏覽量

    50391
  • 機器學習
    +關注

    關注

    66

    文章

    8501

    瀏覽量

    134567
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    機器學習賦能的智能光子器件系統(tǒng)研究與應用

    騰訊會議---六月直播 1.機器學習賦能的智能光子器件系統(tǒng)研究與應用 2.COMSOL聲學多物理場仿真技術與應用 3.超表面逆向設計及前沿應用(從基礎入門到論文復現(xiàn)) 4.智能光學計算成像技術
    的頭像 發(fā)表于 06-04 17:59 ?167次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>賦能的智能光子<b class='flag-5'>學</b>器件系統(tǒng)研究與應用

    在STM32L431上使用內(nèi)部RTC,時間運行到23:59:59秒后,變?yōu)榱?4:00:00并不是00:00:00,為什么?

    大家好,我在STM32L431上使用內(nèi)部RTC,時間運行到23:59:59秒后,變?yōu)榱?4:00:00,并不是00:00:00,并且weekday也沒有加一,這是為什么呢?
    發(fā)表于 03-11 06:32

    示波器的性能術語(上)

    現(xiàn)要求的信號完整性的能力。學習新技能通常要學習新的術語表,在學習怎樣使用示波器時也不例外。本節(jié)介紹了部分實用的測量和示波器性能術語。這些
    的頭像 發(fā)表于 03-03 11:52 ?446次閱讀
    示波器的性能<b class='flag-5'>術語</b>(上)

    傳統(tǒng)機器學習方法和應用指導

    在上一篇文章中,我們介紹了機器學習的關鍵概念術語。在本文中,我們會介紹傳統(tǒng)機器學習的基礎知識和多種算法特征,供各位老師選擇。 01 傳統(tǒng)
    的頭像 發(fā)表于 12-30 09:16 ?1180次閱讀
    傳統(tǒng)<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法和應用指導

    zeta在機器學習中的應用 zeta的優(yōu)缺點分析

    的應用(基于低功耗廣域物聯(lián)網(wǎng)技術ZETA) ZETA作為一種低功耗廣域物聯(lián)網(wǎng)(LPWAN)技術,雖然其直接應用于機器學習的場景可能并不常見,但它可以通過提供高效、穩(wěn)定的物聯(lián)網(wǎng)通信支持,間接促進
    的頭像 發(fā)表于 12-20 09:11 ?1120次閱讀

    cmp在機器學習中的作用 如何使用cmp進行數(shù)據(jù)對比

    機器學習領域,"cmp"這個術語可能并不是一個常見的術語,它可能是指"比較"(comparison)的縮寫。 比較在
    的頭像 發(fā)表于 12-17 09:35 ?869次閱讀

    用ADS1299-FE評估版測試時,在測試的時候VREFP是-2.45,并不是設計所說的4.5v,為什么?

    在用ADS1299-FE評估版測試時 采用內(nèi)部參考,雙電源供電模式 ,-2.5-2.5,但是在測試的時候 VREFP是-2.45,并不是設計所說的4.5v? 在提供的LABview測試時總得不到想看到的結(jié)果,想請問一下是什么問題呢? 是10uF電容擊穿了?
    發(fā)表于 12-16 06:43

    LMP90100將寄存器配置為通道掃描模式3的時候,CHO-CH3并不是逐次掃描的,為什么?

    大家好,我用了LMP90100四個差分通道 配置CH0--CH3,現(xiàn)在發(fā)現(xiàn)將寄存器配置為通道掃描模式3的時候,CHO-CH3并不是逐次掃描的 結(jié)果就是CH0數(shù)據(jù)采集了5次,CH1可能采集3次,CH可能采集1次,CH3通道還是0次,請問是怎么回事
    發(fā)表于 12-02 07:56

    不是,電容ESR寄生電阻并不是越低越好!

    、電源硬件文章精選華為海思軟硬件開發(fā)資料 原文標題:不是,電容ESR寄生電阻并不是越低越好
    的頭像 發(fā)表于 11-20 15:27 ?974次閱讀

    在FPGA接收ADC的DCLKP和DCLKM引腳,DCLK信號會出現(xiàn)規(guī)律性持續(xù)為0,在有DCLK信號時波形并不是恒定的,為什么?

    你好,我在FPGA接收ADC的DCLKP和DCLKM引腳(也即接收DCLK信號),用ILA抓出來的波形如下圖所示,可以發(fā)現(xiàn)DCLK信號會出現(xiàn)規(guī)律性持續(xù)為0,且在有DCLK信號的時候,他的波形并不是
    發(fā)表于 11-19 08:08

    什么是機器學習?通過機器學習方法能解決哪些問題?

    來源:Master編程樹“機器學習”最初的研究動機是讓計算機系統(tǒng)具有人的學習能力以便實現(xiàn)人工智能。因為沒有學習能力的系統(tǒng)很難被認為是具有智能的。目前被廣泛采用的
    的頭像 發(fā)表于 11-16 01:07 ?959次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學習</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法能解決哪些問題?

    ADS1299將CLKSEL拉為高電平,CONFIG1中的CLK_EN位設置為1,示波器上顯示的頻率并不是2.048MHz,為什么?

    我將CLKSEL拉為高電平,CONFIG1中的CLK_EN位設置為1,示波器上顯示的頻率并不是2.048MHz,這會是什么原因造成的呢?
    發(fā)表于 11-14 06:58

    【「時間序列與機器學習」閱讀體驗】時間序列的信息提取

    個重要環(huán)節(jié),目標是從給定的時間序列數(shù)據(jù)中提取出有用的信息和特征,以支持后續(xù)的分析和預測任務。 特征工程(Feature Engineering)是將數(shù)據(jù)轉(zhuǎn)換為更好地表示潛在問題的特征,從而提高機器學習
    發(fā)表于 08-17 21:12

    INA333輸出為一紋波電壓,并不是平滑的電壓,為什么?

    我最近在歐時購買了TI的INA333芯片,輸入的差分電壓為32MV,共模電壓為2.5V,VREF為2.5V,供電電壓為5V,增益設置為60,輸出為一紋波電壓,并不是平滑的電壓,不知道是為什么。
    發(fā)表于 08-13 07:57

    【「時間序列與機器學習」閱讀體驗】全書概覽與時間序列概述

    本帖最后由 1653149838.791300 于 2024-8-12 20:18 編輯 [/td] [td]收到《時間序列與機器學習》這本書,很是欣喜,書籍內(nèi)容很詳實也是自己很感興趣
    發(fā)表于 08-07 23:03