我們了解神經(jīng)網(wǎng)絡(luò)以及它們從數(shù)據(jù)科學(xué)到計(jì)算機(jī)視覺的多個(gè)領(lǐng)域中的無數(shù)成就。眾所周知,它們?cè)诮鉀Q有關(guān)泛化性方面的復(fù)雜任務(wù)中表現(xiàn)良好。從數(shù)學(xué)上講,他們非常擅長(zhǎng)近似任何的復(fù)雜函數(shù)。讓我們形象化地理解這種近似概念,而不是前向和后向傳播方法中的最小化預(yù)測(cè)誤差。假設(shè)你了解前向和后向傳播的一點(diǎn)基礎(chǔ),其旨在借助梯度和網(wǎng)絡(luò)中的錯(cuò)誤傳播來近似函數(shù)。讓我們通過另一種視覺解釋來理解神經(jīng)網(wǎng)絡(luò)的近似能力。其中涉及基礎(chǔ)數(shù)學(xué)和圖形分析。
在數(shù)學(xué)上,我們將研究給定神經(jīng)網(wǎng)絡(luò)的表征能力,以便提供近似的函數(shù)。
表征能力與神經(jīng)網(wǎng)絡(luò)的能力相關(guān),神經(jīng)網(wǎng)絡(luò)會(huì)為特定實(shí)例分配適當(dāng)標(biāo)簽并為該類創(chuàng)建明確定義的準(zhǔn)確決策邊界。在本文中,我們將探索一種視覺方法,用于更多地了解神經(jīng)網(wǎng)絡(luò)的近似特性,這與神經(jīng)網(wǎng)絡(luò)的表征能力直接相關(guān)。
旅程
它始于MP 神經(jīng)元模型,它是一個(gè)非常簡(jiǎn)化的神經(jīng)元模型。通過非常簡(jiǎn)單地概念,神經(jīng)元激活與否取決于某一閾值,即只有當(dāng)其輸入總和大于給定函數(shù)的閾值時(shí),神經(jīng)元才被激活,否則神經(jīng)元不會(huì)發(fā)生輸出信號(hào)。為了檢查它的表征能力,讓我們看它的幾何解釋。首先進(jìn)行2-D分析,使用2個(gè)輸入來近似OR函數(shù),然后使用3個(gè)輸入進(jìn)行3-D分析。
對(duì)于二維坐標(biāo)系中的分離,需要一條分類直線。神經(jīng)元會(huì)向直線右側(cè)的點(diǎn)發(fā)射信號(hào)。因此,就創(chuàng)建出了分離邊界。
對(duì)于三維坐標(biāo)系中的分離,需要一個(gè)分類面。神經(jīng)元會(huì)向這個(gè)面上方的所有的點(diǎn)發(fā)射信號(hào)。
因此,M-P神經(jīng)元模型可用于表示任何線性可分的布爾函數(shù)。此外,我們可以看到一個(gè)嚴(yán)格的分界規(guī)則,而不是一個(gè)漸進(jìn)的決策邊界,任何略高于分離邊界的為1,下面的正好為0。神經(jīng)元觸發(fā)了和階梯函數(shù)一樣的行為。感知器的每個(gè)輸入都帶有權(quán)重,但仍然存在嚴(yán)格的劃分,從而實(shí)現(xiàn)了更大的靈活性。但是,上述機(jī)制不能處理非線性可分函數(shù)。一個(gè)非常簡(jiǎn)單的例子比如異或(XOR,兩個(gè)輸入如果相同,輸出為0;兩個(gè)輸入如果是不同,輸出為1),就無法用一條直線來分割開來,想象一下在這個(gè)函數(shù)的2維平面上繪制一條分離線。讓感知器處理異或這樣線性不可分問題,它就無能為力了。大多數(shù)數(shù)據(jù)與異或非常相似,本質(zhì)上是線性不可分的。
因此,需要先進(jìn)的計(jì)算模型,如當(dāng)前需要為這些函數(shù)創(chuàng)建分離邊界的神經(jīng)網(wǎng)絡(luò)。只需看一個(gè)包含一個(gè)隱藏層和一些復(fù)制異或函數(shù)的預(yù)定義權(quán)重的基本圖。
圖:紅線表示權(quán)重為-1,藍(lán)色表示權(quán)重為+1
異或函數(shù)實(shí)現(xiàn)的條件:w1
記住:具有n個(gè)輸入的任何布爾函數(shù)都可以由感知器網(wǎng)絡(luò)表示,感知器網(wǎng)絡(luò)包含具有2 ^ n個(gè)感知器的1個(gè)隱藏層和包含1個(gè)感知器的1個(gè)輸出層。這是充分不必要條件。
通過我們對(duì)具有階梯函數(shù)(如近似)的單個(gè)隱藏層網(wǎng)絡(luò)的分析。它的嚴(yán)格判斷標(biāo)準(zhǔn)與階梯函數(shù)一樣具有局限性。讓我們深入研究具有S形非線性逼近函數(shù)的多層深度網(wǎng)絡(luò)。
時(shí)過境遷
經(jīng)過sigmoid激活的神經(jīng)元具有非常強(qiáng)的表征能力。具有一個(gè)單隱層的多層神經(jīng)元網(wǎng)絡(luò)可以近似任意連續(xù)函數(shù),并達(dá)到任何想達(dá)到的精度。
數(shù)學(xué)上,可以得到這樣的證明:對(duì)于任意函數(shù)f(x):R(n)→ R(m),我們總可以找到一個(gè)擁有(單或多)隱層的神經(jīng)網(wǎng)絡(luò),其輸出g(x)滿足 |g(x)-f(x)| 《 Θ。
上述的說法在自然界中是非常的。因?yàn)樗馕吨覀兛梢杂靡粋€(gè)給定的神經(jīng)網(wǎng)絡(luò)去近似任意函數(shù)。從數(shù)學(xué)角度來講,萬能近似定理(universal approximation theorem)指出,在對(duì)激活函數(shù)溫和的假設(shè)下,一個(gè)包含有限神經(jīng)元的單隱層自編碼網(wǎng)絡(luò)可以近似R(n)緊致子集上的任意連續(xù)函數(shù)。這個(gè)理論因此也就說明,在給定合適參數(shù)下,簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)可以代表各種各樣的函數(shù)。然而,它并沒有涉及到那些參數(shù)的算法收斂性。收斂是和前饋、后饋算法相關(guān)的。下面讓我們通過一種直觀的解釋方式來理解上述理論,它是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的基礎(chǔ)。
對(duì)函數(shù)近似的幾何解釋。是數(shù)值近似中一種經(jīng)典的數(shù)學(xué)方式。
結(jié)束游戲:Sigmoids的塔
繼續(xù)上述與神經(jīng)網(wǎng)絡(luò)近似函數(shù)的對(duì)話。只需看下面的圖表并自行決定。可以通過疊加多個(gè)塔功能來近似函數(shù)。該過程將形成與給定函數(shù)等效的形狀,其中與一些小的近似誤差是近似的?,F(xiàn)在,上面對(duì)通用近似定理的解釋告訴我們,我們用于近似的更多塔數(shù)是近似行為。因此,調(diào)整在Sigmoid激活函數(shù)中參數(shù),目的是創(chuàng)建這樣的近似塔。從理論上講,根據(jù)這種解釋,對(duì)神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確性沒有限制。
顯然,塔的數(shù)量越多,近似效果越好,近似誤差越小。
讓我們更深入地探討這個(gè)解釋過程。所有這些“tower”功能都是相似的,只是它們?cè)趚軸上的高度和位置不同?,F(xiàn)在,我們必須看看這些Towers是如何用sigmoid激活函數(shù)創(chuàng)建的。
我們的目標(biāo)是找出用于塔式結(jié)構(gòu)的黑匣子塔式制造機(jī)。
典型的邏輯sigmoid激活函數(shù)方程如下。
w:代表權(quán)重 b:代表偏置
隨著w的增加,函數(shù)變得像階梯函數(shù)更陡峭。b的更正值將曲線從原始曲線向左移動(dòng)。
因此,通過改變這些值,我們可以創(chuàng)建不同版本的sigmoids激活函數(shù),我們可以相互疊加以獲得塔狀結(jié)構(gòu)。為了在二維坐標(biāo)系中創(chuàng)建塔,減去兩個(gè)曲線不同的偏置值。
左曲線的偏置值b具有更大的正值。因此,上面的隨機(jī)曲線可以用多個(gè)這樣的塔近似或表示。
我們可以將此操作擴(kuò)展到神經(jīng)網(wǎng)絡(luò)的隱藏層,以構(gòu)建模擬這種曲線減法方法的神經(jīng)網(wǎng)絡(luò)。因此,神經(jīng)網(wǎng)絡(luò)可以表示任何具有權(quán)重和偏置的參數(shù)值的這樣的函數(shù),我們使用我們的前向和后向傳播算法不斷的確定這些參數(shù)值直到收斂標(biāo)準(zhǔn)。
現(xiàn)在,可以通過疊加這樣的塔來近似上述功能的隨機(jī)曲線。
案例研究
考慮具有多個(gè)輸入的場(chǎng)景。假設(shè)我們?cè)诤4驳奶囟ㄎ恢檬欠駮?huì)找到石油這個(gè)問題試圖做出決策。此外,假設(shè)我們的決策基于兩個(gè)因素:鹽度(x1)和壓力(x2)。一些數(shù)據(jù)已經(jīng)給了我們, y(有油|無油) 似乎是一個(gè)x1和x2的復(fù)合函數(shù)。我們想要一個(gè)神經(jīng)網(wǎng)絡(luò)來近似這個(gè)函數(shù)。
上面的插圖繪制了上述場(chǎng)景。顯然,我們需要三維塔近似這個(gè)分布函數(shù)。
按照我們的理解,需要在三維坐標(biāo)系中制作這樣的三維閉合塔。如果我們繼續(xù)使用上述類似的方法,在三維空間中,兩個(gè)有不同偏置值的sigmoids激活函數(shù)相減。我們將得到以下的等效曲線。
我們?nèi)匀粵]有得到一個(gè)封閉的塔。
但是,我們可以看到,如果我們采用另一個(gè)水平垂直的塔架到現(xiàn)在組合的曲線上。在疊加這兩個(gè)水平垂直的開放式塔時(shí),我們就可以得到封閉的塔。
我們可以通過另一個(gè)組合的sigmoid激活函數(shù)來傳遞上面的輸出, 從而能得到一個(gè)最近似的合適的塔。
我們現(xiàn)在可以通過總結(jié)許多這樣的塔來近似任何的函數(shù)。
上述案例研究中的復(fù)雜分布函數(shù)可以借助多個(gè)這樣的塔來重建。在這里,我們看一個(gè)神經(jīng)網(wǎng)絡(luò)來表示上述過程。
我們可以通過另一個(gè)組合的sigmoid激活函數(shù)來傳遞上面的輸出, 這意味著我們可以有一個(gè)神經(jīng)網(wǎng)絡(luò),它可以準(zhǔn)確地分離出像上面的案例研究中提到的分布。對(duì)神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確性沒有理論上的限制。
我們有興趣將藍(lán)點(diǎn)與紅點(diǎn)分開。單個(gè)S形神經(jīng)元存在明顯的誤差。但是,通過兩個(gè)隱藏層,我們可以通過塔的總和來近似上述函數(shù)。我們可以有一個(gè)神經(jīng)網(wǎng)絡(luò),它可以準(zhǔn)確地將藍(lán)點(diǎn)與紅點(diǎn)分開!
評(píng)論