引言
時空數(shù)據(jù)是復雜而又多樣化的數(shù)據(jù),分析時空數(shù)據(jù)能為人類天氣預測(如華為盤古大模型)、地質(zhì)起伏預測、太陽黑子預測、紅綠燈優(yōu)化調(diào)度、共享單車投放規(guī)劃等方面帶來重大影響。然而時空數(shù)據(jù)又是復雜的,體現(xiàn)在其數(shù)據(jù)的時空變換和空間異質(zhì),而其數(shù)據(jù)分布也極其極端 -- 存在大量的零值,以及數(shù)據(jù)體現(xiàn)長尾分布。
今天要介紹的便是通過引入Tweedie分布和Zero-inflated負二項分布去捕捉零膨脹效應和長尾效應的復雜時空數(shù)據(jù),結合時空圖神經(jīng)網(wǎng)絡,來衡量預測的不確定性。
01
介紹
1.1
不確定性衡量
Uncertainty Qualification
想象一下,當我們踏入人工智能這片廣袤領域,仿佛邁入一片神秘森林,其中充滿了機器智能和前沿科技的奧秘。在這充滿活力的領域中,存在一個至關重要的概念,需要我們一同深入探索,那便是不確定性衡量。或許你正在引導一臺智能計算機學會識別各種動物,像是讓它分辨狗、貓、大象等。但是,當它面對一張全新的動物圖片時,需要做的不僅是做出判斷,還有告訴我們它對自己的判斷有多有信心,這個信心便是——不確定性。
這個過程引發(fā)了一個有趣的問題:在計算機模型做出預測時,如何讓我們知道它有多確信這個預測是準確的呢?這涉及到一個核心概念,即模型的不確定性。模型的不確定性涉及它在進行預測時可能出現(xiàn)錯誤或產(chǎn)生不確定結果的程度。這種不確定性可能來源于兩個方面,一個是模型接觸到的數(shù)據(jù)有限,另一個是模型自身的復雜性導致它無法始終做出準確預測。
首先,我們來考慮模型所面臨的數(shù)據(jù)不確定性。就如同當你只看過幾張貓和狗的照片后,被要求辨認一種你從未見過的奇特動物一樣,模型也可能在面對全新、未曾接觸過的數(shù)據(jù)時感到困惑。畢竟,模型所了解的知識來自于它在訓練時接觸到的數(shù)據(jù),它難以直接將這些知識應用于陌生情境。這就好比你只見過黑色和白色的狗,突然間面對一只藍色的狗,你也會感到困惑吧?
其次,還有模型本身的不確定性,也就是模型的局限性。假設你要教計算機區(qū)分貓和狗,你指示它關注尾巴的長度、耳朵的形狀等特征。但是,如果你給它一張模糊的圖片,它可能無法精確判斷。因為模型并不能像人類一樣從模糊的線索中推斷出合理結論,它可能因為信息不足而做出錯誤預測。
為了克服這些不確定性,研究者們提出了一些方法,使我們能更好地理解模型的預測。例如,模型可以輸出一個預測的置信度,就好像是它告訴你“我對這個預測很有信心”或者“我對這個預測不太確定”。另一種方法是,模型可以輸出一個預測的分布,顯示每個可能結果的概率。這種方法類似于擲骰子,你了解每個面的概率,從而更好地預測結果。
通過這些方法,我們可以更清晰地理解模型預測時的不確定性,就像是在未知的森林中多了一張地圖,幫助我們更自信地踏出每一步。這一概念在醫(yī)學、交通、金融等領域都有廣泛應用,讓我們能更明智地利用模型的預測,做出更可靠的決策。
1.2
時空圖神經(jīng)網(wǎng)絡
Spatial-Temporal Graph Neural Network
時空圖神經(jīng)網(wǎng)絡是近年來在深度學習領域異軍突起的一項強大工具,為我們理解和處理涉及時空關系的數(shù)據(jù)開辟了嶄新視角。比方說,我們想分析城市中的交通流量變化,或者預測未來氣象的演變,這些任務涉及到時間和空間的錯綜復雜聯(lián)系。時空圖神經(jīng)網(wǎng)絡就如同一把鑰匙,為我們敞開了探索時空數(shù)據(jù)的大門。
首先,我們來解釋一下時空數(shù)據(jù)是什么。時空數(shù)據(jù)包括了時間和空間信息,比如在不同時間和地點的溫度、交通流量、人口分布等。而時空圖則是一種用來展示時空數(shù)據(jù)中關系和相互作用的圖結構。在這個圖中,節(jié)點代表不同的地點或物體,邊代表它們之間的關聯(lián)。
時空圖神經(jīng)網(wǎng)絡是專為處理時空圖數(shù)據(jù)而設計的深度學習模型。它結合了圖神經(jīng)網(wǎng)絡和時間序列預測的思想,能夠幫助我們從復雜的時空數(shù)據(jù)中提取有價值的信息。這些網(wǎng)絡可以捕捉地點之間的關系,同時也能追蹤隨時間變化的模式,這樣我們就能更準確地預測未來、分析趨勢,甚至優(yōu)化決策。
舉個例子來說,想象一個城市的交通系統(tǒng)。每個路口可以被視為一個節(jié)點,而車輛在不同時刻穿越這些路口則形成了邊。時空圖神經(jīng)網(wǎng)絡可以學習交通流量在不同路口、不同時間之間的變化規(guī)律,這有助于城市規(guī)劃者更好地優(yōu)化交通流動,減少擁堵。
這種網(wǎng)絡結構在很多領域都有廣泛應用。在氣象學中,時空圖神經(jīng)網(wǎng)絡可以分析全球各地的氣象數(shù)據(jù),幫助氣象學家更精準地預測氣候變化。在醫(yī)療領域,它可以處理醫(yī)療設備產(chǎn)生的時空數(shù)據(jù),用于疾病預測和診斷。在金融領域,它可以分析不同市場之間的關系,幫助投資者做出更明智的決策。
1.3
概率模型
在數(shù)據(jù)分析的舞臺上,我們時常會面對一些特殊情況,這些情況使得傳統(tǒng)統(tǒng)計方法不再足夠。其中兩種常見情形分別是長尾數(shù)據(jù)和零膨脹數(shù)據(jù)。這些數(shù)據(jù)背后隱藏著復雜的分布特征,傳統(tǒng)統(tǒng)計模型可能難以妥善應對。而此時,概率模型如 Zero-inflated負二項分布 和 Tweedie分布 就發(fā)揮了關鍵作用。
長尾數(shù)據(jù)意味著數(shù)據(jù)分布中存在著許多數(shù)值較小但數(shù)量龐大的極端值,這些值往往對模型產(chǎn)生重大影響。比如,分析社交媒體上的點贊數(shù)或銷售數(shù)據(jù)中的銷售量時,傳統(tǒng)的均值和方差等統(tǒng)計量可能無法完全揭示分布的特性。
零膨脹數(shù)據(jù)則是數(shù)據(jù)中零值的數(shù)量遠超預期的情況。舉例而言,當我們分析醫(yī)療保險索賠數(shù)據(jù)時,大部分人可能沒有提出索賠,導致數(shù)據(jù)中有大量的零值。然而,傳統(tǒng)模型可能因為其假設與實際情況不符而表現(xiàn)不佳。
長尾和零膨脹效應在時空數(shù)據(jù)上體現(xiàn)極為明顯,以 O-D flows數(shù)據(jù)(任意兩地在任意事件的車流量值)為例:
可以看到在SLD_60min, SLD_15min, SLD_5min這三個數(shù)據(jù)集上,零值幾乎占據(jù)了大多數(shù),而大于2的情況所占比例非常少,又明顯體現(xiàn)了“長尾”的特點。
為了更好地解決這些問題,Zero-inflated負二項分布 和 Tweedie分布應運而生。
Zero-inflated 負二項分布可以看作是兩種分布的結合體:負二項分布(用于計數(shù)數(shù)據(jù)的離散分布)和零膨脹分布(用于描述數(shù)據(jù)中零值較多的情況)。這種分布適用于數(shù)據(jù)中不僅存在大量零值,還可能出現(xiàn)較大值的情形。利用這個模型,我們能夠更精確地捕捉數(shù)據(jù)分布的特點,從而更好地進行預測和分析。
Tweedie 分布則屬于廣義線性模型中的概率分布,適用于處理長尾數(shù)據(jù)和零膨脹數(shù)據(jù)。其特點之一是廣泛適用范圍,能夠應對連續(xù)數(shù)據(jù)、離散數(shù)據(jù)、混合數(shù)據(jù)等多種情況。通過調(diào)整Tweedie分布的參數(shù),我們可以更好地擬合實際數(shù)據(jù)的分布。
這些概率模型在解決長尾數(shù)據(jù)和零膨脹數(shù)據(jù)問題上發(fā)揮了重要作用。它們不僅有助于更精確地描述和理解特殊類型數(shù)據(jù),還為數(shù)據(jù)分析和預測提供了更強大的工具。醫(yī)療、金融、社會科學等領域都廣泛應用這些模型,為數(shù)據(jù)分析帶來了更多可能性。
02
算法介紹
2.1
分布介紹
負二項分布(Negative Binomial Distribution)
負二項分布是統(tǒng)計學上一種離散概率分布,用于描述在重復試驗中獲得固定數(shù)量的成功所需的獨立失敗次數(shù)的分布。這個分布經(jīng)常用來描述不定次數(shù)的成功事件,例如在多次投擲硬幣直到獲得一定數(shù)量的正面朝上為止。
與二項分布不同,二項分布描述的是進行固定次數(shù)試驗中成功次數(shù)的分布,而負二項分布則關注在獲得固定數(shù)量成功之前所需的試驗次數(shù)。負二項分布在許多實際場景中都有應用,比如在金融中用于分析投資成功前的失敗次數(shù),或者在生物學中用于研究實驗成功前需要多少次不成功的嘗試。這個分布提供了一種數(shù)學工具,幫助我們理解和解釋各種隨機事件中的概率分布。
滿足以下條件的稱為負二項分布:實驗包含一系列獨立的實驗,每個實驗都有成功、失敗兩種結果,成功的概率是恒定的,實驗持續(xù)到n次不成功,n為正整數(shù)。切換到我們的時空數(shù)據(jù)中,成功即數(shù)據(jù)非0,失敗即數(shù)據(jù)為0。
其概率分布如下:
這里的 n 和 p 是模型參數(shù),分別表示成功的次數(shù)和單次失敗的概率。
零膨脹負二項分布(Zero-InflatedNegative
Binomial Distribution)
然而,現(xiàn)實世界中的數(shù)據(jù)通常會出現(xiàn)許多零觀測值。零值的激增加劇了負二項分布參數(shù)的學習。因此,引入了一個新的參數(shù)來學習零值膨脹率,從而得到了零膨脹負二項分布。
零膨脹負二項分布(Zero-Inflated Negative Binomial Distribution,簡稱ZINB 分布)是一種概率統(tǒng)計學中的概率分布,用于處理數(shù)據(jù)中存在大量零值的情況,同時考慮了負二項分布的特性。
在現(xiàn)實世界的數(shù)據(jù)中,往往會有很多零值的存在,這可能是因為某些特定原因?qū)е碌?。例如,在社交媒體上的點贊數(shù)量中,很多帖子可能沒有被點贊,導致數(shù)據(jù)中存在許多零值。然而,傳統(tǒng)的負二項分布在處理這種情況時可能表現(xiàn)不佳,因為它無法很好地捕捉到數(shù)據(jù)中的零值特征。
ZINB 分布的引入就是為了更好地處理這種零值問題。它結合了兩個部分:一個用于描述零值的部分,另一個用于描述非零值的部分。具體而言,ZINB分布中引入了一個額外的參數(shù),用于表示數(shù)據(jù)中零值的膨脹程度。在生成數(shù)據(jù)時,有的概率產(chǎn)生零值,而有的概率遵循負二項分布生成非零值。這樣,ZINB分布能夠更準確地刻畫存在零值的數(shù)據(jù)特征,并在建模和分析過程中更加適用。
其概率分布如下:
在負二項分布的基礎上,考慮了零值的加權。這里的pi即為零膨脹系數(shù)。
ZINB 分布在許多領域的數(shù)據(jù)分析中都有應用,特別是在處理存在大量零值的數(shù)據(jù)集時,如社交媒體數(shù)據(jù)、醫(yī)療數(shù)據(jù)等。通過引入零膨脹參數(shù),ZINB 分布幫助我們更好地理解和解釋這些特殊類型的數(shù)據(jù),并提供了更準確的分析工具。
Tweedie 分布
負二項分布是對零值做了一定的處理,但不能適用于極度零值的情況;因此通過引入新參數(shù)來對零值做加權,加強了模型魯棒性。然而,有過多零值的出現(xiàn),就一定會有長尾效應的產(chǎn)生,因此如何建模長尾效應也是一個值的考慮的問題 —— Tweedie 分布。
圖源知乎用戶:一直學習一直爽
Tweedie分布是一種概率統(tǒng)計學中的廣義線性模型,用于建模和分析具有復雜分布特征的正數(shù)數(shù)據(jù)。這種分布在描述連續(xù)、離散和混合數(shù)據(jù)等多種數(shù)據(jù)類型時都具有應用價值。Tweedie分布由一系列的特殊情況組成,包括正態(tài)分布、伽馬分布、泊松分布等。它的靈活性使得它能夠適應各種數(shù)據(jù)分布的特點,而不需要對每種特定情況進行單獨的建模。Tweedie分布的參數(shù)化形式取決于兩個主要參數(shù):指數(shù)參數(shù)和離散參數(shù)。指數(shù)參數(shù)決定了數(shù)據(jù)的分布形狀,離散參數(shù)則控制了數(shù)據(jù)的離散程度。通過適當?shù)剡x擇這些參數(shù),可以使Tweedie分布擬合多種數(shù)據(jù)類型,包括長尾數(shù)據(jù)和零膨脹數(shù)據(jù)。
Tweedie分布的概率密度函數(shù)如下:
這里一共有三個參數(shù):離散系數(shù), 指數(shù)系數(shù)和模型均值。
在實際應用中,Tweedie分布廣泛用于處理存在多樣性和復雜性的數(shù)據(jù)集,如保險索賠數(shù)據(jù)、金融時間序列數(shù)據(jù)、生態(tài)學數(shù)據(jù)等。通過使用Tweedie分布,我們能夠更好地捕捉和解釋數(shù)據(jù)的分布特征,從而進行更精確的分析、建模和預測。
綜上所述,為了更好地建模時空圖的某一個時間點的某一個地理點的數(shù)據(jù)以及其不確定性,我們采用二參數(shù)模型(NB),三參數(shù)模型(ZINB和Tweedie)來計算模型的不確定性。
2.2
時空圖神經(jīng)網(wǎng)絡介紹
如何建模每個分布的參數(shù)成為了一個棘手的問題,但在時空數(shù)據(jù)上,我們可以采用時空圖神經(jīng)網(wǎng)絡來建模。
而為了學習這些參數(shù),我們使用了時空圖神經(jīng)網(wǎng)絡(STGNN)——這個神經(jīng)網(wǎng)絡的設計有點像是在解謎,它通過一個時間編碼器和一個空間編碼器來學習參數(shù)的值。
具體而言:時間編碼器使用了一種叫做門控循環(huán)單元(GRU)的技術,類似于人類大腦中的一些運作方式,來處理數(shù)據(jù)中的時間信息。
GRU 計算公式
而空間編碼器則使用了圖注意力網(wǎng)絡(GAT),就好像在數(shù)據(jù)之間建立了一種連接關系,幫助我們更好地理解數(shù)據(jù)之間的關聯(lián)性。
GAT 計算公式
其STGNN網(wǎng)絡框架如下:
圖來自知乎用戶:Lucia
通過這個特殊的時空圖神經(jīng)網(wǎng)絡,我們能夠更準確地學習數(shù)據(jù)模型中的參數(shù)(二參數(shù)、三參數(shù)等),基于該參數(shù)構建結果分布,從而更好地分析數(shù)據(jù),做出更可靠的預測。這就像是在解謎一樣,不斷優(yōu)化網(wǎng)絡,讓我們的數(shù)據(jù)分析變得更加精準和有用。
2.3
模型訓練指導函數(shù)
作者采用最大似然函數(shù)方法來指導模型訓練。
最大化似然函數(shù)是一種在統(tǒng)計學和概率論中常用的方法,用于找到最適合數(shù)據(jù)的參數(shù)值,以便使得數(shù)據(jù)出現(xiàn)的概率最大化。
讓我們用一個簡單的例子來解釋這個概念。假設你有一堆骰子擲出的數(shù)據(jù),你想要找出這個骰子是均勻的還是有偏的。你知道這個骰子有6個面,但你不知道每個面出現(xiàn)的概率。你可以用一個參數(shù)來表示每個面出現(xiàn)的概率,然后構建一個概率模型。
現(xiàn)在,你有了一些實際擲骰子得到的數(shù)據(jù),比如說你投了100次骰子,記錄下每次的結果。你的目標是找到一個參數(shù),使得在這個參數(shù)下,投出這100次骰子的概率最大化。
這就是最大化似然函數(shù)的思想。似然函數(shù)表示的是,在給定參數(shù)的情況下,觀察到實際數(shù)據(jù)的概率。你要做的就是調(diào)整參數(shù),使得這個概率最大化,也就是讓觀察到的數(shù)據(jù)在模型下出現(xiàn)的概率最大化。
最大化似然函數(shù)是一種尋找最優(yōu)參數(shù)的方法,它在許多領域都有應用,從機器學習到統(tǒng)計分析。通過找到最適合數(shù)據(jù)的參數(shù),我們能夠更好地理解數(shù)據(jù)的規(guī)律,從而做出更準確的預測和決策。這個方法就像是在拼圖,我們不斷嘗試不同的拼法,以找到最符合實際情況的模型。
ZINB 最大似然函數(shù)
其中, , 均為通過STGNN學習所得,不斷得優(yōu)化該函數(shù),能達到模型的訓練目的。
Tweedie 最大似然函數(shù)
其中, , 均為通過STGNN學習所得,不斷得優(yōu)化該函數(shù),能達到模型的訓練目的。
審核編輯:劉清
-
處理器
+關注
關注
68文章
19899瀏覽量
235407 -
編碼器
+關注
關注
45文章
3811瀏覽量
138131 -
神經(jīng)網(wǎng)絡
+關注
關注
42文章
4814瀏覽量
103707 -
人工智能
+關注
關注
1807文章
49035瀏覽量
249739 -
Gru
+關注
關注
0文章
12瀏覽量
7649
原文標題:基于時空圖概率模型的不確定性衡量
文章出處:【微信號:bdtdsj,微信公眾號:中科院半導體所】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
評論