背景
近年來,隨著寬帶接入技術、移動通信技術的發(fā)展,互聯(lián)網業(yè)務應用迅速擴張,其中移網和固網的網絡與業(yè)務發(fā)展更為迅猛。工信部印發(fā)的《上網日志留存規(guī)范》通知明確要求,全量數(shù)據(jù)的留存元素包括:NAT后用戶公網IP地址、NAT后源端口、用戶私網IP地址、WLAN上網帳號、用戶訪問URL、目的IP、目的端口、訪問時間等。根據(jù)相關的政策法規(guī),中國移動河南分公司率先開始了日志溯源技術措施的建設,不僅實現(xiàn)了全網范圍內上網用戶的日志查詢、內容審計功能,同時滿足大量相關需求。
| 舊挑戰(zhàn),新思路
在最初的日志建設中,方向是重存儲,輕分析。采用以Hadoop技術體系為主,整合MR+Hive SQL+HDFS+Flum的傳統(tǒng)架構方案進行支撐:
這一策略帶來了三個顯著問題:首先由于存儲的數(shù)據(jù)激增帶來數(shù)據(jù)有效利用率降低的問題,數(shù)據(jù)存儲的成本持續(xù)升高 ; 其次,因為計算能力和存儲緊密的耦合,系統(tǒng)無法靈活擴容存儲空間,集群架構的數(shù)據(jù)分析能力較弱,從而導致應用端無法實現(xiàn)多種數(shù)據(jù)融合分析,且多并發(fā)能力不足、查詢效率不高;最后,存儲訪問也存在較大瓶頸,無法支持海量數(shù)據(jù)按需擴展,產生的運維和建設成本難以滿足海量日志分析需求。
面臨多重挑戰(zhàn),中國移動河南分公司明確了新建設思路:按照集中化的方式建設日志留存系統(tǒng),在滿足相關政策和業(yè)務的前提下應考慮后期的系統(tǒng)擴展,將采集數(shù)據(jù)統(tǒng)一上報至省日志留存平臺,完成省日志數(shù)據(jù)的統(tǒng)一存儲、數(shù)據(jù)關聯(lián)分析、以及匯聚分發(fā)等功能,按需向各種應用提供各類數(shù)據(jù)服務。
新的思路對架構重構提出了更高的目標,希望實現(xiàn)以下四個能力:
1. 滿足數(shù)據(jù)量大,可采集匯總現(xiàn)網用戶網絡行為數(shù)據(jù);
2. 實時性強,數(shù)據(jù)處理以批處理和準實時處理為主,數(shù)據(jù)可持續(xù)不斷的接入匯總 ;
3. 數(shù)據(jù)查詢處理以SQL查詢?yōu)橹鳎嘧侄侮P聯(lián)查詢需求多,單表大;
同時面向多個應用系統(tǒng)或者數(shù)據(jù)需求方,具備高處理性能和資源隔離性。
| 高可用、高彈性、高擴展性的新一代HashData架構方案
為實現(xiàn)這一目標,HashData以對象存儲為基礎,計算集群和存儲集群分離,集群擴容業(yè)務不停,產品架構如下:
在確保計算單元與數(shù)據(jù)存儲有著明確的邏輯對應關系和集群I/O吞吐不下降的前提下,通過巧妙的緩存策略設計可以享受計算存儲分離帶來的好處,包括高可用性、多維度彈性、高擴展性等。
其中獨立元數(shù)據(jù)服務是完全創(chuàng)新性的云原生架構,元數(shù)據(jù)狀態(tài)從計算節(jié)點中消除,使得計算節(jié)點變得完全沒有狀態(tài)(新型的shared-everything MPP架構與傳統(tǒng)的shared-nothing架構對應) 。盡管每個計算節(jié)點都沒有狀態(tài),但面臨需要增加節(jié)點數(shù)量時,仍可以訪問到系統(tǒng)中的任何數(shù)據(jù)與任何元數(shù)據(jù)。
新架構的主要策略是在滿足數(shù)據(jù)快速增長的情況下實現(xiàn)“存儲資源虛擬化,計算資源最大化”,對日志留存平臺的數(shù)據(jù)轉發(fā)和數(shù)據(jù)分析提供最大限度的支撐。
| 節(jié)省 40% 的集群規(guī)模,降本提效
HashData產品使用了自帶ETL工具代替Flume,對象存儲代替HDFS;計算包含Hadoop方案中的清洗+計算, 通過自定義函數(shù)UDF代替Hadoop方案中的清洗和計算,自帶有向無環(huán)圖的數(shù)據(jù)結構和算法以方便替換;同時標準SQL和自定義函數(shù)UDF代替MR,產品實現(xiàn)日志留存功能技術路徑如下:
綜上所述,在計算和存儲分離的產品架構中,獨立擴展的計算和存儲表現(xiàn)更加靈活,可顯著降低存儲成本。HashData整體實現(xiàn)了日志留存系統(tǒng),在保證和原Hadoop體系存儲數(shù)據(jù)相同的情況下僅使用原集群規(guī)模的40%左右,應用開發(fā)周期縮短了50%,查詢性能提升了一個數(shù)量級,充分實現(xiàn)了降本提效的目的。
| 小結
HashData融合了MPP數(shù)據(jù)庫的高性能與豐富的分析功能、大數(shù)據(jù)平臺的擴展性和靈活性,以及云計算的彈性和敏捷性等優(yōu)勢。在此項目的建設中為中國移動河南分公司構筑了新一代企業(yè)級云端數(shù)據(jù)倉庫,真正實現(xiàn)了降本提效,未來雙方將在共筑通信技術的數(shù)字化之路上繼續(xù)攜手前行!
責任編輯:lq
-
互聯(lián)網
+關注
關注
55文章
11249瀏覽量
106369 -
移動通信技術
+關注
關注
0文章
46瀏覽量
13661 -
數(shù)據(jù)分析
+關注
關注
2文章
1472瀏覽量
35024
發(fā)布評論請先 登錄
評論