電子發(fā)燒友網(wǎng)>電子資料下載>電子資料>PyTorch教程4.1之Softmax回歸

PyTorch教程4.1之Softmax回歸

2512987 2023-06-05 | pdf | 0.23 MB | 次下載 | 免費

資料介紹

在3.1 節(jié)中，我們介紹了線性回歸，在 3.4 節(jié)中從頭開始實現(xiàn) ，并在3.5 節(jié)中再次使用深度學習框架的高級 API來完成繁重的工作。

回歸是我們想回答多少的時候伸手去拿的錘子？ 或者有多少？問題。如果你想預測房子的售價（價格），或者一支棒球隊可能獲勝的次數(shù)，或者病人出院前住院的天數(shù)，那么你可能是尋找回歸模型。然而，即使在回歸模型中，也存在重要的區(qū)別。例如，房屋的價格永遠不會是負數(shù)，并且變化可能通常與其基準價格有關。因此，對價格的對數(shù)進行回歸可能更有效。同樣，患者住院的天數(shù)是 離散的非負數(shù)隨機變量。因此，最小均方可能也不是理想的方法。這種時間-事件建模伴隨著許多其他并發(fā)癥，這些并發(fā)癥在稱為生存建模的專門子領域中處理。

這里的重點不是要讓你不知所措，而只是讓你知道，除了簡單地最小化平方誤差之外，還有很多東西需要估計。更廣泛地說，監(jiān)督學習比回歸要多得多。在這一節(jié)中，我們重點關注分類問題，我們擱置了多少？問題，而是關注哪個類別？問題。

這封電子郵件屬于垃圾郵件文件夾還是收件箱？
該客戶是否更有可能注冊或不注冊訂閱服務？
這個圖像描繪的是驢、狗、貓還是公雞？
阿斯頓接下來最有可能看哪部電影？
您接下來要閱讀本書的哪一部分？

通俗地說，機器學習從業(yè)者重載了單詞分類來描述兩個細微不同的問題：（i）那些我們只對將示例硬分配給類別（類）感興趣的問題；(ii) 那些我們希望進行軟分配的地方，即評估每個類別適用的概率。這種區(qū)別往往會變得模糊，部分原因是，即使我們只關心硬分配，我們?nèi)匀唤?jīng)常使用進行軟分配的模型。

更重要的是，在某些情況下，不止一個標簽可能是真實的。例如，一篇新聞文章可能同時涵蓋娛樂、商業(yè)和太空飛行等主題，但不會涵蓋醫(yī)學或體育主題。因此，將其單獨歸入上述類別之一并不是很有用。這個問題通常被稱為多標簽分類。參見Tsoumakas 和 Katakis ( 2007 )的概述和 Huang等人。( 2015 )用于標記圖像時的有效算法。

4.1.1. 分類

讓我們先從一個簡單的圖像分類問題開始。這里，每個輸入包含一個2×2灰度圖像。我們可以用一個標量表示每個像素值，給我們四個特征x1,x2,x3,x4. 此外，假設每個圖像屬于類別“貓”、“雞”和“狗”中的一個。

接下來，我們必須選擇如何表示標簽。我們有兩個明顯的選擇。也許最自然的沖動是選擇 y∈{1,2,3}，其中整數(shù)代表 {dog,cat,chicken}分別。這是在計算機上存儲此類信息的好方法。如果類別之間有一些自然順序，比如說我們是否試圖預測 {baby,toddler,adolescent,young adult,adult,geriatric}，那么將其轉(zhuǎn)換為有序回歸問題并以這種格式保留標簽甚至可能是有意義的。參見 Moon等人。( 2010 )概述了不同類型的排名損失函數(shù)和Beutel等人。( 2014 ) 用于解決具有多個模式的響應的貝葉斯方法。

一般而言，分類問題并不伴隨著類別之間的自然排序。幸運的是，統(tǒng)計學家很久以前就發(fā)明了一種表示分類數(shù)據(jù)的簡單方法：one-hot encoding。one-hot 編碼是一個向量，其分量與我們的類別一樣多。對應于特定實例類別的組件設置為 1，所有其他組件設置為 0。在我們的例子中，標簽y 將是一個三維向量，具有(1,0,0) 對應“貓”，(0,1,0)到“雞”，和 (0,0,1)對“狗”：

(4.1.1)y∈{(1,0,0),(0,1,0),(0,0,1)}.

4.1.1.1. 線性模型

為了估計與所有可能類別相關的條件概率，我們需要一個具有多個輸出的模型，每個類別一個。為了解決線性模型的分類問題，我們需要與輸出一樣多的仿射函數(shù)。嚴格來說，我們只需要少一個，因為最后一類必須是 1和其他類別的總和，但出于對稱的原因，我們使用了稍微冗余的參數(shù)化。每個輸出對應于它自己的仿射函數(shù)。在我們的例子中，由于我們有 4 個特征和 3 個可能的輸出類別，我們需要 12 個標量來表示權重（w帶下標）和 3 個標量來表示偏差（b帶下標）。這產(chǎn)生：