在3.1 節(jié)中,我們介紹了線性回歸,在3.4 節(jié)中從頭開始實現(xiàn) ,并在3.5 節(jié)中再次使用深度學習框架的高級 API來完成繁重的工作。
回歸是我們想回答多少的時候伸手去拿的錘子? 或者有多少?問題。如果你想預測房子的售價(價格),或者一支棒球隊可能獲勝的次數(shù),或者病人出院前住院的天數(shù),那么你可能是尋找回歸模型。然而,即使在回歸模型中,也存在重要的區(qū)別。例如,房屋的價格永遠不會是負數(shù),并且變化可能通常與其基準價格有關。因此,對價格的對數(shù)進行回歸可能更有效。同樣,患者住院的天數(shù)是 離散的非負數(shù)隨機變量。因此,最小均方可能也不是理想的方法。這種時間-事件建模伴隨著許多其他并發(fā)癥,這些并發(fā)癥在稱為生存建模的專門子領域中處理。
這里的重點不是要讓你不知所措,而只是讓你知道,除了簡單地最小化平方誤差之外,還有很多東西需要估計。更廣泛地說,監(jiān)督學習比回歸要多得多。在這一節(jié)中,我們重點關注分類問題,我們擱置了多少?問題,而是關注哪個類別?問題。
-
這封電子郵件屬于垃圾郵件文件夾還是收件箱?
-
該客戶是否更有可能注冊或不注冊訂閱服務?
-
這個圖像描繪的是驢、狗、貓還是公雞?
-
阿斯頓接下來最有可能看哪部電影?
-
您接下來要閱讀本書的哪一部分?
通俗地說,機器學習從業(yè)者重載了單詞 分類來描述兩個細微不同的問題:(i)那些我們只對將示例硬分配給類別(類)感興趣的問題;(ii) 那些我們希望進行軟分配的地方,即評估每個類別適用的概率。這種區(qū)別往往會變得模糊,部分原因是,即使我們只關心硬分配,我們?nèi)匀唤?jīng)常使用進行軟分配的模型。
更重要的是,在某些情況下,不止一個標簽可能是真實的。例如,一篇新聞文章可能同時涵蓋娛樂、商業(yè)和太空飛行等主題,但不會涵蓋醫(yī)學或體育主題。因此,將其單獨歸入上述類別之一并不是很有用。這個問題通常被稱為多標簽分類。參見Tsoumakas 和 Katakis ( 2007 )的概述和 Huang等人。( 2015 )用于標記圖像時的有效算法。
4.1.1. 分類
讓我們先從一個簡單的圖像分類問題開始。這里,每個輸入包含一個2×2灰度圖像。我們可以用一個標量表示每個像素值,給我們四個特征x1,x2,x3,x4. 此外,假設每個圖像屬于類別“貓”、“雞”和“狗”中的一個。
接下來,我們必須選擇如何表示標簽。我們有兩個明顯的選擇。也許最自然的沖動是選擇 y∈{1,2,3},其中整數(shù)代表 {dog,cat,chicken}分別。這是在計算機上存儲此類信息的好方法。如果類別之間有一些自然順序,比如說我們是否試圖預測 {baby,toddler,adolescent,young adult,adult,geriatric},那么將其轉(zhuǎn)換為有序回歸問題并以這種格式保留標簽甚至可能是有意義的。參見 Moon等人。( 2010 )概述了不同類型的排名損失函數(shù)和Beutel等人。( 2014 ) 用于解決具有多個模式的響應的貝葉斯方法。
一般而言,分類問題并不伴隨著類別之間的自然排序。幸運的是,統(tǒng)計學家很久以前就發(fā)明了一種表示分類數(shù)據(jù)的簡單方法:one-hot encoding。one-hot 編碼是一個向量,其分量與我們的類別一樣多。對應于特定實例類別的組件設置為 1,所有其他組件設置為 0。在我們的例子中,標簽y 將是一個三維向量,具有(1,0,0) 對應“貓”,(0,1,0)到“雞”,和 (0,0,1)對“狗”:
4.1.1.1. 線性模型
為了估計與所有可能類別相關的條件概率,我們需要一個具有多個輸出的模型,每個類別一個。為了解決線性模型的分類問題,我們需要與輸出一樣多的仿射函數(shù)。嚴格來說,我們只需要少一個,因為最后一類必須是 1和其他類別的總和,但出于對稱的原因,我們使用了稍微冗余的參數(shù)化。每個輸出對應于它自己的仿射函數(shù)。在我們的例子中,由于我們有 4 個特征和 3 個可能的輸出類別,我們需要 12 個標量來表示權重(w帶下標)和 3 個標量來表示偏差(b帶下標)。這產(chǎn)生:
評論