分布式存儲系統(tǒng)憑借優(yōu)秀的可擴展性、可用性、可靠性、易管理性、高性能和低成本等優(yōu)勢,在網(wǎng)絡應用的構建中,獲得了廣泛的認可。分布式存儲系統(tǒng)中存儲了海量的數(shù)據(jù),這些數(shù)據(jù)中存在著大量的冗余,將冗余數(shù)據(jù)刪除技術應用到分布式存儲系統(tǒng)當中,用來發(fā)現(xiàn)并去除數(shù)據(jù)中的冗余,可以有效的提高存儲空間以及網(wǎng)絡帶寬的利用率。本文設計并實現(xiàn)了廣域網(wǎng)環(huán)境下的分布式冗余刪除存儲系統(tǒng)AegeanStore,在冗余數(shù)據(jù)被上傳到AegeanStore之前將其去除,達到提高存儲資源和網(wǎng)絡資源利用率的目的,并且進一步的降低存儲系統(tǒng)的成本,在保持分布式系統(tǒng)固有的容災特性同時,提高了存儲系統(tǒng)的可擴展性和整體性能
本文提出一種在廣域網(wǎng)環(huán)境下的采用冗余數(shù)據(jù)刪除技術的分布式存儲系統(tǒng)原型——AegeanStore。在AegeanStore中采用客戶端相關的冗余數(shù)據(jù)刪除技術。該技術通過客戶端和服務器端的合作,不僅可提高存儲設備的利用率,而且可減輕客戶端和服務器之間的網(wǎng)絡負載壓力,從而進一步提高存儲系統(tǒng)的可擴展性和整體性能并且進一步降低其成本。
1 冗余數(shù)據(jù)刪除技術
冗余數(shù)據(jù)就是一個數(shù)據(jù)表中,這個表中的行包含了一些相同的值,這些值理論上來說應該是唯一的(這些值一般來說能確定一條記錄)例如,像社會保險號,姓與名的集合。那么我們把這么含有相同信息的行中包含的數(shù)據(jù)叫做冗余數(shù)據(jù),現(xiàn)在所有的數(shù)據(jù)庫表中都有主鍵約束,主鍵中記錄了一行記錄中的唯一值,從數(shù)據(jù)庫的角度來看,每一行都是唯一的,但是從我們用戶角度看來,這些記錄都是相同的記錄,因為它們都包含相同的鍵值(FirstName+LastName),即使他們有不同的主鍵
冗余數(shù)據(jù)刪除技術是將數(shù)據(jù)集中的冗余數(shù)據(jù)發(fā)現(xiàn)并去除的應用技術,可以分為兩大類:相同數(shù)據(jù)刪除和相似數(shù)據(jù)刪除。
1.1 相同數(shù)據(jù)刪除技術
相同數(shù)據(jù)刪除技術首先將數(shù)據(jù)劃分為數(shù)據(jù)塊,然后使用具有抗碰撞特性[3]的哈希函數(shù)計算每一個數(shù)據(jù)塊的哈希值作為該數(shù)據(jù)塊的數(shù)字指紋,再通過比較數(shù)據(jù)塊的數(shù)字指紋來發(fā)現(xiàn)相同的數(shù)據(jù)塊。目前,最常用的相同數(shù)據(jù)刪除技術是基于內容的劃塊(CDC)算法,其流程如圖1所示。
CDC算法存在3個參數(shù),一是目標可變數(shù)據(jù)塊的預期大小S,二是滑動窗口的大小W,三是一個小于S的自然數(shù)M。當使用CDC算法處理一個文件時,從文件頭開始以每次一字節(jié)的步長向后滑動窗口,使用哈希函數(shù)計算滑動窗口內部的哈希值H;將H mod S與M進行比較,如果不同,則滑動窗口;如果相同,則發(fā)現(xiàn)數(shù)據(jù)塊邊界,然后用具有抗碰撞特性的哈希函數(shù)計算該數(shù)據(jù)塊的數(shù)字指紋;最后,將獲得的數(shù)字指紋到索引中查找,如果存在則發(fā)現(xiàn)冗余數(shù)據(jù)塊,否則說明該數(shù)據(jù)塊是新的,需要存儲到系統(tǒng)當中。
1.2 相似數(shù)據(jù)刪除技術
相似數(shù)據(jù)刪除技術分為兩個階段,相似數(shù)據(jù)檢測和相似數(shù)據(jù)編碼:
(1)相似數(shù)據(jù)檢測,首先要定義數(shù)據(jù)的特征值,該特征值的特點是保證具有相同或相似的特征值的數(shù)據(jù)具有相同或相似的內容。在提取數(shù)據(jù)的特征值之后,通過特征值的比較獲得相似的數(shù)據(jù)。常用的相似數(shù)據(jù)檢測技術包括基于Shingle的檢測技術。
(2)相似數(shù)據(jù)編碼是在使用相似數(shù)據(jù)檢測,獲得具有相似性的數(shù)據(jù)集之后,在該數(shù)據(jù)集上采用的編碼技術,用于減小該數(shù)據(jù)集所占用的存儲空間。常用的相似數(shù)據(jù)編碼技術包括基于Diff的相似編碼技術等。
2 AegeanStore的體系結構
AegeanStore體系結構如圖2所示。AegeanStore由客戶端、應用服務、文件系統(tǒng)服務、索引服務和數(shù)據(jù)塊服務5個部分組成。
當客戶端需要將文件數(shù)據(jù)存儲到應用服務時,首先調用本地冗余數(shù)據(jù)刪除工具,運行數(shù)據(jù)塊劃分算法,將要上傳的文件分成數(shù)據(jù)塊,并計算每個數(shù)據(jù)塊的數(shù)字指紋,然后將這些數(shù)字指紋發(fā)送給應用服務;客戶端按照返回結果,只將未出現(xiàn)在數(shù)據(jù)塊服務中的數(shù)據(jù)塊上傳;最后,當所有新數(shù)據(jù)塊都存儲到數(shù)據(jù)塊服務中之后,文件服務將新數(shù)據(jù)塊的信息更新到索引服務當中。下面將分別介紹5個部分的設計與實現(xiàn)。
2.1 客戶端
客戶端是為某個應用服務開發(fā),運行在使用該應用服務的用戶的網(wǎng)絡終端上的程序。程序通過響應用戶輸入并且同該應用服務進行消息交換,使用戶能夠使用該應用服務提供的服務。AegeanStore的客戶端除了完成傳統(tǒng)網(wǎng)絡應用的客戶端的響應用戶輸入、網(wǎng)絡消息交換、身份驗證、數(shù)據(jù)傳輸?shù)热蝿罩?,還要在冗余數(shù)據(jù)刪除技術中,完成重要的任務:因在獲得需要上傳文件的所有數(shù)據(jù)塊的數(shù)字指紋后,通過應用服務提供的網(wǎng)絡接口,查詢這些文件塊是否已經(jīng)在AegeanStore中存在,然后將新的數(shù)據(jù)塊上傳到數(shù)據(jù)塊服務部分,完成數(shù)據(jù)上傳過程;同時,客戶端需要管理已經(jīng)存儲在本地的數(shù)據(jù)塊的數(shù)字指紋,用于下載時減少冗余數(shù)據(jù)傳輸。
2.2 應用服務
應用服務是以AegeanStore提供的存儲服務、開發(fā)框架和功能組件為基礎,構建而成的網(wǎng)絡應用服務。AegeanStore作為網(wǎng)絡應用開發(fā)的基礎平臺,為了方便應用服務的開發(fā),提供了應用服務的開發(fā)框架,使得應用服務的開發(fā)可以忽略網(wǎng)絡應用中網(wǎng)絡端口監(jiān)聽、工作進程派生、負載均衡和調度等問題,專心解決應用服務的事務邏輯,使應用服務的開發(fā)工作更加方便快捷。除此之外,AegeanStore還為應用服務的開發(fā)者提供用戶管理、網(wǎng)絡消息交換等常用的功能組件,從而提高在AegeanStore上開發(fā)應用服務效率,降低應用服務的開發(fā)和運營成本。
2.3 分布式系統(tǒng)
分布式軟件系統(tǒng)(Distributed Software Systems)是支持分布式處理的軟件系統(tǒng),是在由通信網(wǎng)絡互聯(lián)的多處理機體系結構上執(zhí)行任務的系統(tǒng)。它包括分布式操作系統(tǒng)、分布式程序設計語言及其編譯(解釋)系統(tǒng)、分布式文件系統(tǒng)和分布式數(shù)據(jù)庫系統(tǒng)等。
分布式操作系統(tǒng)負責管理分布式處理系統(tǒng)資源和控制分布式程序運行。它和集中式操作系統(tǒng)的區(qū)別在于資源管理、進程通信和系統(tǒng)結構等方面。
分布式程序設計語言用于編寫運行于分布式計算機系統(tǒng)上的分布式程序。一個分布式程序由若干個可以獨立執(zhí)行的程序模塊組成,它們分布于一個分布式處理系統(tǒng)的多臺計算機上被同時執(zhí)行。它與集中式的程序設計語言相比有三個特點:分布性、通信性和穩(wěn)健性。
2.4 文件系統(tǒng)服務
文件系統(tǒng)服務為AegeanStore提供文件系統(tǒng)視圖和文件管理接口。目前常用的提供公共存儲服務的分布式存儲系統(tǒng)當中,普遍使用的應用程序接口是Key/Value式的。雖然這種接口在開發(fā)應用服務時使用比較方便,但是與用戶習慣的基于目錄結構的文件系統(tǒng)式接口差異較大,導致大多數(shù)構建在Key/Value接口上的應用服務都要開發(fā)功能相似的文件系統(tǒng)視圖。所以,AegeanStore為應用服務開發(fā)提供的接口是文件系統(tǒng)式的,以提高應用服務的開發(fā)效率,避免重復開發(fā),并通過使用分布式B樹、網(wǎng)絡就近訪問、代理訪問等優(yōu)化技術,提高存儲系統(tǒng)的吞吐量。
2.5 索引服務
索引服務中存儲了AegeanStore中所有數(shù)據(jù)塊的數(shù)字指紋的索引,并提供網(wǎng)絡查詢索引接口,用來判斷數(shù)字指紋所對應的數(shù)據(jù)塊是否已經(jīng)存在于AegeanStore當中。由于AegeanStore存儲系統(tǒng)具有良好的可擴展性,其數(shù)據(jù)規(guī)??梢赃_到數(shù)百太字節(jié)甚至拍字節(jié)級,所以索引服務應該支持太字節(jié)級別的索引存儲。
2.6 數(shù)據(jù)塊服務
AegeanStore的數(shù)據(jù)塊服務提供分布式的基于內容定位的存儲系統(tǒng)[7],其提供的接口是Key/Value形式的。數(shù)據(jù)塊服務由接口、一跳分布式哈希表(DHT)[8]和數(shù)據(jù)塊存儲節(jié)點3部分組成:當用戶存儲數(shù)據(jù)塊時,以該數(shù)據(jù)塊的數(shù)字指紋作為Key進行存儲;首先到一跳分布式哈希表中,查找該數(shù)字指紋,因為數(shù)字指紋由數(shù)據(jù)塊的內容決定,所以,如果該數(shù)字指紋已經(jīng)存在于分布式哈希表當中,說明該數(shù)據(jù)塊已經(jīng)存在于數(shù)據(jù)塊服務當中,無需再次存儲;如果不存在,將數(shù)據(jù)塊存入數(shù)據(jù)塊存儲節(jié)點,將數(shù)字指紋和所存儲的位置信息存入一跳分布式哈希表作為索引。塊存儲服務從分布式哈希表中查找是否存在這個數(shù)字指紋,如果存在則根據(jù)在其中獲得的數(shù)據(jù)塊位置從存儲節(jié)點讀取相應數(shù)據(jù)塊并返回給用戶,否則返回空。
3 冗余刪除技術的優(yōu)化
將冗余數(shù)據(jù)刪除技術應用于分布式存儲系統(tǒng)將遇到兩個問題。
(1)由于CDC算法開銷過大,無法滿足廣域網(wǎng)環(huán)境中的分布式存儲系統(tǒng)的客戶端的異構性帶來的計算性能瓶頸。
(2)由于分布式存儲系統(tǒng)的高可擴展性,造成索引服務中數(shù)字指紋索引過大,從而帶來的數(shù)字指紋索引查詢的性能瓶頸。
3.1 CDC算法的優(yōu)化
CDC算法中,無論在計算滑動窗口內的哈希值,還是獲得數(shù)據(jù)塊劃分之后計算數(shù)據(jù)塊的數(shù)字指紋都是計算密集型工作。在手機或上網(wǎng)本等運算能力較差的設備上,由于存在著性能瓶頸,制約了客戶端相關的冗余數(shù)據(jù)刪除技術的有效應用。
首先,在AegeanStore的客戶端中,為了優(yōu)化CDC算法的運行效率,在計算滑動窗口的哈希值時,采用了Rabin’s Fingerprinting哈希函數(shù)進行計算。因Rabin’s Fingerprinting哈希函數(shù)具有可迭代計算的特性,滑動窗口時,只需要通過將滑動前哈希值、滑入字節(jié)值和滑出字節(jié)值進行復雜度為O的計算,即可獲得滑動后的窗口內部字節(jié)數(shù)組的哈希值。因為每個字節(jié)的數(shù)值最多有256種可能,可以通過預先的計算,將滑入和滑出字節(jié)相關的計算制成表格,之后,只需要通過查表和簡單的位移操作和加減操作即可獲得滑動后的哈希值,大大提高了CDC算法的運算效率。
3.2 索引服務的優(yōu)化
AegeanStore的索引服務通過采用3種優(yōu)化方法,改進索引服務的數(shù)字指紋查詢效率,以提高冗余數(shù)據(jù)刪除技術在分布式存儲系統(tǒng)中的性能。
(1)基于文件的批量數(shù)字指紋查詢
AegeanStore提出了基于文件的批量數(shù)字指紋查詢協(xié)議,將相同文件的數(shù)據(jù)指紋列表,連同該文件的路徑、大小等元數(shù)據(jù)信息,組織到同一個文件上傳請求當中。并且,讓索引服務一次可以處理很多個數(shù)字指紋的索引查詢,增加了索引服務的吞吐量;更重要的是,使同一個文件的數(shù)據(jù)塊的數(shù)字指紋之間所存在的局部性得以保持,為索引服務進行預取和緩存等進一步優(yōu)化創(chuàng)造了條件。
(2)基于Bloom filter的快速新數(shù)據(jù)塊過濾
Bloom filter[11]是一種高效的利用有限的內存空間,以一定錯誤肯定率為代價,用于快速的判斷某一個元素是否在一個集合中的概率性數(shù)據(jù)結構。在AegeanStore的索引服務當中,使用一臺性能較好、內存空間較大的服務器來運行快速新數(shù)據(jù)過濾模塊。一個存于內存中的Bloom filter作為該模塊的核心數(shù)據(jù)結構。如果為一定不存在,則將這個數(shù)字指紋標記為新數(shù)據(jù)塊;將標記后的數(shù)字指紋列表,返回給請求節(jié)點;最后,當數(shù)據(jù)塊被成功上傳到數(shù)據(jù)塊服務之后,將其對應的數(shù)字指紋加入到Bloom filter當中。
(3)基于文件局部性的緩存和預取
文件局部性是指出現(xiàn)在相同文件中的數(shù)據(jù)塊,再次出現(xiàn)在相同文件中的概率會比較高。緩存和預取節(jié)點中的緩存的數(shù)據(jù)結構提供Key/Value式的接口,同樣以數(shù)字指紋作為Key,以其局部性列表作為Value。當索引查找的數(shù)字指紋列表被分配到某個緩存和預取節(jié)點后,處理流程如下:對于每一個沒有被標記為新的數(shù)字指紋,首先到緩存中查找該數(shù)字指紋,如果命中,說明該數(shù)據(jù)塊已經(jīng)存在于AegeanStore當中,將文件的數(shù)字指紋列表和緩存中局部性列表合并,并在結果中標記該塊為存在;若未命中,則到DHT中進行查找,如果命中,將DHT中存儲的局部性列表加入緩存當中,完成預取工作,之后的處理和緩存命中時相同;如果未命中,即該數(shù)據(jù)塊不存在于AegeanStore當中,在快速過濾模塊當中出現(xiàn)了錯誤的情況。
4 結束語
本文提出了廣域網(wǎng)環(huán)境下的分布式存儲系統(tǒng)原型AegeanStore。AegeanStore在提供互聯(lián)網(wǎng)上的存儲服務的同時,還為網(wǎng)絡應用的開發(fā)提供了框架和通用的功能模塊,以提高網(wǎng)絡應用開發(fā)和運營的效率,并降低其成本。分布式存儲系統(tǒng)中普遍存在的冗余數(shù)據(jù),不僅浪費了存儲系統(tǒng)的資源,而且造成了存儲系統(tǒng)的性能損失。AegeanStore通過采用客戶端相關的冗余數(shù)據(jù)刪除技術,可提高對存儲資源以及網(wǎng)絡資源的利用率,降低運營成本,提高可擴展性以及整體性能,給公司帶來豐厚的利潤。
-
存儲
+關注
關注
13文章
4533瀏覽量
87480 -
服務器
+關注
關注
13文章
9796瀏覽量
88016 -
存儲系統(tǒng)
+關注
關注
2文章
423瀏覽量
41381
發(fā)布評論請先 登錄

分布式存儲架構:第三節(jié) 分布式文件模型?#分布式架構??#分布式存儲系統(tǒng)?#分布式系統(tǒng)?#硬聲創(chuàng)作季
存儲分布式系統(tǒng)中如何從CAP轉到PACELC

集群環(huán)境下分布式索引的實現(xiàn)

關于騰訊的開源分布式存儲系統(tǒng)DCache
廣域網(wǎng)的特點是什么_廣域網(wǎng)的通信方式
盤點分布式存儲系統(tǒng)的主流框架
分布式文件存儲系統(tǒng)GFS的基礎知識

評論