機器學(xué)習是人工智能的一個子集,它通過示例和經(jīng)驗教會計算機執(zhí)行任務(wù),是研究和開發(fā)的熱門領(lǐng)域。我們每天使用的許多應(yīng)用程序都使用機器學(xué)習算法,包括AI助手,Web搜索和機器翻譯。
您的社交媒體新聞提要由機器學(xué)習算法提供支持。您看到的推薦視頻是機器學(xué)習模型的結(jié)果。Spotify的“發(fā)現(xiàn)周刊”利用機器學(xué)習算法的強大功能來創(chuàng)建符合您喜好的歌曲列表。
但是機器學(xué)習有許多不同的風格。在這篇文章中,我們將探討有監(jiān)督和無監(jiān)督學(xué)習,這是機器學(xué)習算法的兩個主要類別。每個子集由許多適合各種任務(wù)的不同算法組成。
關(guān)于機器學(xué)習的快速筆記
在深入研究有監(jiān)督和無監(jiān)督學(xué)習之前,我們先來了解一下什么是機器學(xué)習。當今的AI系統(tǒng)以最簡單的形式將輸入轉(zhuǎn)換為輸出。例如,圖像分類器將圖像或視頻幀作為輸入,并輸出圖像中包含的對象的種類。欺詐檢測算法將支付數(shù)據(jù)作為輸入,并輸出交易欺詐的可能性。下棋的AI將棋盤的當前狀態(tài)作為輸入并輸出下一個動作。
開發(fā)智能系統(tǒng)的經(jīng)典方法稱為符號人工智能,要求程序員明確指定將輸入映射到輸出的規(guī)則。盡管符號AI有很多好處,但在輸入可以以多種形式出現(xiàn)的領(lǐng)域中使用有限,例如計算機視覺,語音識別和自然語言處理。
相反,機器學(xué)習使用不同的方法來發(fā)展行為。在創(chuàng)建ML系統(tǒng)時,開發(fā)人員會創(chuàng)建一個通用結(jié)構(gòu),并在許多示例中進行培訓(xùn)。這些示例可以是帶有相應(yīng)圖像的圖片,國際象棋游戲數(shù)據(jù),客戶購買的物品,用戶聽過的歌曲或與AI模型要解決的問題有關(guān)的任何其他數(shù)據(jù)。在分析了訓(xùn)練數(shù)據(jù)之后,機器學(xué)習算法對其內(nèi)部參數(shù)進行了調(diào)整,以能夠處理新的輸入數(shù)據(jù)。
監(jiān)督學(xué)習
Logistic回歸是一種有監(jiān)督的機器學(xué)習算法,可以將輸入分類為不同的類
如果您關(guān)注人工智能新聞,您可能已經(jīng)聽說過AI算法需要很多人工標記的示例。這些故事指的是監(jiān)督學(xué)習,這是機器學(xué)習算法中比較流行的類別。監(jiān)督式機器學(xué)習適用于您知道輸入數(shù)據(jù)結(jié)果的情況。假設(shè)您要創(chuàng)建一個圖像分類機器學(xué)習算法,該算法可以檢測貓,狗和馬的圖像。
要訓(xùn)練AI模型,您必須收集貓,狗和馬照片的大型數(shù)據(jù)集。但是在將它們輸入機器學(xué)習算法之前,您必須使用它們各自類的名稱對其進行注釋。批注可能包括使用文件命名約定將每個類的圖像放在單獨的文件夾中,或?qū)⒃獢?shù)據(jù)附加到圖像文件中。這是費力的手動任務(wù),在提到AI血汗工廠的故事中經(jīng)常提到。
標記數(shù)據(jù)后,機器學(xué)習算法(例如卷積神經(jīng)網(wǎng)絡(luò)或支持向量機)將處理這些示例并開發(fā)可將每個圖像映射到其正確類別的數(shù)學(xué)模型。如果對AI模型進行足夠的帶標簽的示例訓(xùn)練,它將能夠準確地檢測出包含貓,狗,馬的新圖像類別。
監(jiān)督機器學(xué)習解決了兩種類型的問題:分類和回歸。上面說明的示例是一個分類問題,其中機器學(xué)習模型必須將輸入放入特定的存儲桶或類別中。分類問題的另一個示例是語音識別。
回歸機器學(xué)習模型不限于特定類別。它們可以具有連續(xù)的無限值,例如客戶將為產(chǎn)品支付多少費用或明天下雨的可能性。
一些常見的監(jiān)督學(xué)習算法包括:
· 線性和邏輯回歸
· 樸素貝葉斯
· 支持向量機
· 決策樹和隨機森林
· 人工神經(jīng)網(wǎng)絡(luò)
· 無監(jiān)督學(xué)習
假設(shè)您是一個電子商務(wù)零售企業(yè)所有者,他擁有成千上萬的客戶銷售記錄。您想找出哪些客戶有共同的購買習慣,以便您可以使用該信息向他們提出相關(guān)建議并改善您的追加銷售政策。問題是您沒有預(yù)定義的類別將客戶劃分為多個類別。因此,您不能訓(xùn)練監(jiān)督式機器學(xué)習模型來對客戶進行分類。
這是一個聚類問題,主要用于無監(jiān)督機器學(xué)習。與監(jiān)督學(xué)習不同,無監(jiān)督機器學(xué)習不需要標記數(shù)據(jù)。它仔細研究了訓(xùn)練示例,并根據(jù)它們的共同特征將它們分為幾類。訓(xùn)練有素的無監(jiān)督機器學(xué)習算法會將您的客戶劃分為相關(guān)的集群。這將幫助您根據(jù)客戶與集群中其他人的共同偏好來預(yù)測客戶將購買的產(chǎn)品。
K-means是眾所周知的無監(jiān)督聚類機器學(xué)習算法。使用k均值的挑戰(zhàn)之一是知道將數(shù)據(jù)劃分為多少個群集。太少的包會打包不太相似的數(shù)據(jù),而太多的簇只會使您的模型復(fù)雜且不準確。除了聚類之外,無監(jiān)督學(xué)習還可以執(zhí)行降維。當數(shù)據(jù)集具有太多特征時,可以使用降維。假設(shè)您有一個有關(guān)客戶的信息表,該表有100列。擁有有關(guān)您的客戶的大量數(shù)據(jù)可能聽起來很有趣。但實際上并非如此。
隨著數(shù)據(jù)中功能數(shù)量的增加,您還將需要更大的樣本集來訓(xùn)練準確的機器學(xué)習模型。您可能沒有足夠的樣本來訓(xùn)練100列模型。太多的功能也增加了過度擬合的機會,這實際上意味著您的AI模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,而在其他數(shù)據(jù)上表現(xiàn)不佳。
無監(jiān)督的機器學(xué)習算法可以分析數(shù)據(jù)并找到不相關(guān)的特征,可以將其刪除以簡化模型而不會失去寶貴的見解。例如,對于我們的客戶表,通過降維算法運行它之后,我們可能會發(fā)現(xiàn)與客戶的年齡和家庭住址相關(guān)的功能幾乎沒有關(guān)聯(lián),因此可以將其刪除。
主成分分析(PCA)是一種流行的降維機器學(xué)習算法。一些安全分析師還使用無監(jiān)督的機器學(xué)習進行異常檢測,以識別組織網(wǎng)絡(luò)中的惡意活動。
無監(jiān)督學(xué)習的好處之一是,它不需要監(jiān)督學(xué)習必須經(jīng)歷的費力的數(shù)據(jù)標記過程。但是,要權(quán)衡的是,評估其性能的有效性也非常困難。相反,通過將監(jiān)督學(xué)習算法的輸出與測試數(shù)據(jù)的實際標簽進行比較,可以很容易地衡量監(jiān)督學(xué)習算法的準確性。
責任編輯:tzh
-
AI
+關(guān)注
關(guān)注
88文章
34839瀏覽量
277356 -
人工智能
+關(guān)注
關(guān)注
1805文章
48922瀏覽量
248132 -
機器學(xué)習
+關(guān)注
關(guān)注
66文章
8499瀏覽量
134361
發(fā)布評論請先 登錄
機器學(xué)習異常檢測實戰(zhàn):用Isolation Forest快速構(gòu)建無標簽異常檢測系統(tǒng)

使用MATLAB進行無監(jiān)督學(xué)習

傳統(tǒng)機器學(xué)習方法和應(yīng)用指導(dǎo)

時空引導(dǎo)下的時間序列自監(jiān)督學(xué)習框架

NPU與機器學(xué)習算法的關(guān)系
人工智能、機器學(xué)習和深度學(xué)習存在什么區(qū)別

AI大模型與傳統(tǒng)機器學(xué)習的區(qū)別
【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習
【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)篇
旗晟機器人人員行為監(jiān)督AI智慧算法

評論