阿里妹導讀:打開一篇篇 IT 技術文章,你總能夠看到“大規(guī)?!薄ⅰ昂A空埱蟆边@些字眼。這些功能強大的互聯(lián)網(wǎng)應用,都運行在大規(guī)模數(shù)據(jù)中心上。數(shù)據(jù)中心每個機器的運行情況如何?運行著什么樣的應用?應用有什么特點?除了少數(shù)資深從業(yè)者之外,普通學生和企業(yè)的研究者很難了解其中細節(jié)。
今天,阿里巴巴再度開放一份計算機集群的真實數(shù)據(jù)集(Alibaba Cluster Data V2018)。該數(shù)據(jù)集中記錄了某個生產(chǎn)集群中服務器以及運行任務的詳細情況。我們希望這波數(shù)據(jù)的發(fā)布可以拉近我們與學術研究、業(yè)界同行之間的距離,推動產(chǎn)業(yè)的進一步發(fā)展。
下面,阿里系統(tǒng)軟件事業(yè)部的技術專家臨石,為大家深入介紹這份獨特的數(shù)據(jù)集。
2015 年,我們嘗試在阿里巴巴的數(shù)據(jù)中心,將延遲不敏感的批量離線計算任務和延遲敏感的在線服務部署到同一批機器上運行,讓在線服務用不完的資源充分被離線使用以提高機器的整體利用率。
經(jīng)過 3 年多的試驗論證、架構調整和資源隔離優(yōu)化,目前這個方案已經(jīng)走向大規(guī)模生產(chǎn)。我們通過混部技術將集群平均資源利用率從 10% 大幅度提高到 45%。另外,通過各種優(yōu)化手段,可以讓更多任務運行在數(shù)據(jù)中心,將“雙11”平均每萬筆交易成本下降了 17%。
那么,實施了一系列優(yōu)化手段之后的計算機集群究竟是什么樣子?混部的情況究竟如何?
為了讓有興趣的學生以及相關研究人員,可以從數(shù)據(jù)上更加深入地理解大規(guī)模數(shù)據(jù)中心,我們特別發(fā)布了這份數(shù)據(jù)集(Alibaba Cluster Data V2018)。數(shù)據(jù)集中記錄了某個生產(chǎn)集群中服務器以及運行任務的詳細情況。我們希望這波數(shù)據(jù)的發(fā)布可以拉近我們與學術研究、業(yè)界同行之間的距離。
在數(shù)據(jù)集中,你可以詳細了解到我們是如何通過混部把資源利用率提高到 45%;我們每天到底運行了多少任務;以及業(yè)務的資源需求有什么特點。如何使用這份數(shù)據(jù)集,完全取決于你的需要。
這個數(shù)據(jù)可以做什么?
這份 Alibaba Cluster Data V2018 包含 6 個文件,壓縮后大小近 50GB(壓縮前270+GB),里面包含了 4000 臺服務器、相應的在線應用容器和離線計算任務長達 8 天的運行情況。
通過這份數(shù)據(jù),你可以:
了解當代先進數(shù)據(jù)中心的服務器以及任務運行特點;
試驗你的調度、運籌等各種任務管理和集群優(yōu)化方面的各種算法并撰寫論文;
利用這份數(shù)據(jù)學習如何進行數(shù)據(jù)分析,揭示更多我們自己都未曾發(fā)現(xiàn)的規(guī)律。
上面這幾點,沒有接觸過類似數(shù)據(jù)的朋友,可能對于這份數(shù)據(jù)的用處并沒有直觀的印象,下面我舉幾個簡單的例子:
電商業(yè)務在白天和晚上面臨的壓力不同,我們如何在業(yè)務存在波峰波谷的情況下提高整體資源利用率?
你知道我們最長的 DAG 有多少依賴嗎?
一個典型的容器存在時間是多久?
一個計算型任務的典型存在時間是多少?一個 Task 的多個 Instance 理論上彼此很相似,但是它們運行的時間都一樣嗎?
實際上,學者們甚至可以用這些數(shù)據(jù)作出更加精彩的分析。2017年,我們開放的第一波數(shù)據(jù)(Alibaba Cluster Data V2017),已經(jīng)產(chǎn)生了多篇優(yōu)秀的學術成果。
以下是學者們在論文中引用數(shù)據(jù)(Alibaba Cluster Data V2017)的例子,其中不乏被 OSDI 這樣頂級學術會議收錄的優(yōu)秀文章。我們期待,未來你也能與我們共同分享你用這份數(shù)據(jù)產(chǎn)生的成果!
"LegoOS: A Disseminated, Distributed OS for Hardware Resource Disaggregation, Yizhou Shan, Yutong Huang, Yilun Chen, and Yiying Zhang, Purdue University. OSDI'18"(Best paper award!)
"Imbalance in the Cloud: an Analysis on Alibaba Cluster Trace, Chengzhi Lu et al. BIGDATA 2017"
"CharacterizingCo-located Datacenter Workloads: An Alibaba Case Study, Yue Cheng, Zheng Chai,Ali Anwar. APSys2018"
"The Elasticity and Plasticity in Semi-Containerized Co-locating Cloud Workload: aView from Alibaba Trace, Qixiao Liu and Zhibin Yu. SoCC2018"
Cluster Data V2018 更出色
新版本 V2018 與 V2017 存在兩個最大的區(qū)別:
DAG 信息加入
我們加入了離線任務的 DAG 任務信息,據(jù)了解,這是目前來自實際生產(chǎn)環(huán)境最大的 DAG 數(shù)據(jù)。
究竟什么是 DAG?離線計算任務,例如 Map Reduce、Hadoop、Spark、Flink 中常用的任務,都是以有向無環(huán)圖(Directed Acyclic Graph,DAG)的形式進行編排的,其中涉及到任務之間的并行、依賴等方面。下面是一個 DAG 的例子。
規(guī)模更大
上一版數(shù)據(jù)包含了約 1300 臺機器在約 24 小時的內容數(shù)據(jù),而新版 Cluster Data V2018 中包括了 4000 臺機器 8 天的數(shù)據(jù)。
我們建立了一個關于Cluster Data V2018的交流釘釘群。使用釘釘搜索群號:23112775,即可加入。點擊文末“閱讀原文”,可填寫調查問卷。
想看到更多數(shù)據(jù)?我們長期招收研究型實習生,與我們一起發(fā)現(xiàn)問題、解決問題,挑戰(zhàn)世界級技術問題,歡迎投遞簡歷:haiyang.dhy@alibaba-inc.com
-
服務器
+關注
關注
13文章
9795瀏覽量
87966 -
阿里巴巴
+關注
關注
7文章
1638瀏覽量
48240 -
數(shù)據(jù)集
+關注
關注
4文章
1224瀏覽量
25446
原文標題:阿里重磅開源!4000臺服務器真實數(shù)據(jù)集,揭秘世界級數(shù)據(jù)中心
文章出處:【微信號:AI_Career,微信公眾號:人工智能見聞】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
評論