99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

為什么阿里云要做Apache Flink

算法與數(shù)據(jù)結(jié)構(gòu) ? 來(lái)源:算法與數(shù)據(jù)結(jié)構(gòu) ? 作者: 蔡芳芳 ? 2021-01-04 14:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

流批一體已經(jīng)從理論走向?qū)嵺`,并在 2020 年迎來(lái)落地元年。

短短 5 年,Apache Flink(下稱 Flink)從一個(gè)突然出現(xiàn)在大數(shù)據(jù)舞臺(tái)的“萌新”系統(tǒng),迅速成長(zhǎng)為人人皆知的流計(jì)算引擎。

在伴隨 Flink 發(fā)展掀起的這波實(shí)時(shí)計(jì)算浪潮里,阿里是國(guó)內(nèi)走得最前、做得也最多的一個(gè),“流批一體”是它的新賽道。今年雙 11, Flink 流批一體開(kāi)始在阿里最核心的數(shù)據(jù)業(yè)務(wù)場(chǎng)景嶄露頭角,并抗住了 40 億條/秒的實(shí)時(shí)計(jì)算峰值。

這是第一次有互聯(lián)網(wǎng)超級(jí)大廠真正在核心數(shù)據(jù)業(yè)務(wù)上規(guī)模化落地流批一體技術(shù)。同時(shí),這也意味著 Flink 在阿里的發(fā)展已經(jīng)進(jìn)入第二個(gè)階段,從全鏈路實(shí)時(shí)化進(jìn)階到全鏈路流批一體化。

恰逢 2020 年 Flink Forward Asia 大會(huì)召開(kāi)之際,InfoQ 對(duì) Apache Flink 中文社區(qū)發(fā)起人及阿里云實(shí)時(shí)計(jì)算負(fù)責(zé)人王峰(花名莫問(wèn))、阿里云實(shí)時(shí)計(jì)算團(tuán)隊(duì)資深技術(shù)專(zhuān)家楊克特(花名魯尼)、天貓大數(shù)據(jù)負(fù)責(zé)人黃曉鋒進(jìn)行了獨(dú)家專(zhuān)訪,希望從多個(gè)角度更完整地還原 Flink 流批一體在阿里落地的過(guò)程和背后的技術(shù)挑戰(zhàn),并深入探討這個(gè)新賽道對(duì)于阿里云的價(jià)值和未來(lái)發(fā)展方向。

1 從理論到落地

流批一體的技術(shù)理念最早提出于 2015 年,它的初衷是讓開(kāi)發(fā)人員能夠用同一套接口實(shí)現(xiàn)大數(shù)據(jù)的流計(jì)算和批計(jì)算,進(jìn)而保證處理過(guò)程與結(jié)果的一致性。隨后,大數(shù)據(jù)廠商 / 框架們?nèi)?Spark、Flink、Beam 等,都陸續(xù)提出了自己的解決方案,雖然實(shí)現(xiàn)方式各不相同,但在一定程度上說(shuō)明流批一體的思想已經(jīng)在業(yè)界得到廣泛認(rèn)可。

然而,流批一體要真正從理論走到落地,尤其是在企業(yè)的核心數(shù)據(jù)業(yè)務(wù)場(chǎng)景規(guī)?;涞?,往往面臨技術(shù)和業(yè)務(wù)的雙重挑戰(zhàn)。在莫問(wèn)看來(lái),這也是為什么流批一體出現(xiàn)的很早,廠商落地案例卻不多見(jiàn)。

從技術(shù)層面來(lái)看,流計(jì)算和批計(jì)算從計(jì)算方式、支撐模塊、資源調(diào)度策略到流程規(guī)劃等都存在差異,不管是批流一體還是流批一體,都有不少技術(shù)問(wèn)題要解決。這其中關(guān)乎研發(fā)資源投入,但大前提是需要有一個(gè)統(tǒng)一的計(jì)算引擎。雖然 Spark 是最早提出流批一體理念的計(jì)算引擎之一,但由于其本質(zhì)還是基于批(mini-batch)來(lái)實(shí)現(xiàn)流,在流計(jì)算語(yǔ)義和延遲上存在硬傷,難以滿足復(fù)雜、大規(guī)模實(shí)時(shí)計(jì)算場(chǎng)景的極致需求,因此目前很多廠商的數(shù)據(jù)業(yè)務(wù)還是選擇將流和批分開(kāi)來(lái)做,流用 Flink、批用 Spark。這就導(dǎo)致前面說(shuō)的大前提無(wú)法滿足,在核心場(chǎng)景落地流批一體更加無(wú)從談起。

從業(yè)務(wù)層面來(lái)看,如果企業(yè)有非常重的歷史包袱或者在流批一體架構(gòu)下不能取得足夠多業(yè)務(wù)價(jià)值,那它也不會(huì)有足夠的動(dòng)力去做流批一體的改造和落地。

但對(duì)于阿里來(lái)說(shuō),恰恰是在技術(shù)和業(yè)務(wù)兩個(gè)因素共同推動(dòng)之下,流批一體才得以在雙 11 核心業(yè)務(wù)場(chǎng)景正式亮相。

技術(shù)上,阿里 2019 年收購(gòu) Flink 的創(chuàng)始公司 Ververica 后,投入近百名工程師到 Flink 技術(shù)研發(fā)和社區(qū)工作中,在 Flink 基于流實(shí)現(xiàn)批計(jì)算的能力上做了非常多工作,其中有一些特性優(yōu)先在雙 11 落地,后續(xù)也會(huì)全部推進(jìn)到社區(qū)里。

業(yè)務(wù)上,今年大促期曾經(jīng)面臨離線和實(shí)時(shí)數(shù)據(jù)統(tǒng)計(jì)口徑不一致的問(wèn)題,這類(lèi)潛在問(wèn)題會(huì)影響廣告、商務(wù)甚至公司運(yùn)營(yíng)決策,這是真正的“秒秒鐘幾百萬(wàn)上下”,強(qiáng)電商屬性和大業(yè)務(wù)體量倒逼著流批一體技術(shù)必須在阿里核心業(yè)務(wù)落地,方能解決痛點(diǎn)。

莫問(wèn)提到,當(dāng)前流批一體已經(jīng)在許多業(yè)務(wù)場(chǎng)景成為剛需,而不是一個(gè)技術(shù)噱頭。這次雙十一就像一場(chǎng)“轉(zhuǎn)正”考試,意味著在阿里巴巴業(yè)務(wù)場(chǎng)景中流批一體技術(shù)從理論走向落地,同時(shí)也標(biāo)記著 Flink 在阿里開(kāi)始從全鏈路實(shí)時(shí)化步入全鏈路流批一體化的新階段。

2 路走對(duì)了,就不怕遠(yuǎn)

2015 年,針對(duì)搜索推薦業(yè)務(wù)做新的大數(shù)據(jù)計(jì)算引擎選型時(shí),阿里云實(shí)時(shí)計(jì)算團(tuán)隊(duì)對(duì)流批一體的技術(shù)方向就已經(jīng)有初步設(shè)想。

在經(jīng)過(guò)深度調(diào)研、可行性驗(yàn)證和對(duì)未來(lái)可能遇到的問(wèn)題進(jìn)行推演之后,團(tuán)隊(duì)最終決定引入 Flink。魯尼表示,雖然當(dāng)時(shí) Flink 整個(gè)系統(tǒng)還不是特別成熟,但團(tuán)隊(duì)認(rèn)為 Flink 以流計(jì)算為核心的設(shè)計(jì)理念更符合未來(lái)數(shù)據(jù)計(jì)算實(shí)時(shí)化發(fā)展的大趨勢(shì)。在阿里內(nèi)部有一句土話,叫“路走對(duì)了,就不怕遠(yuǎn)”,從后續(xù)這幾年的發(fā)展情況來(lái)看,F(xiàn)link 確實(shí)進(jìn)展順利,甚至超過(guò)團(tuán)隊(duì)當(dāng)時(shí)的預(yù)期。

當(dāng)然,從初步設(shè)想到實(shí)現(xiàn)相對(duì)完善的流批一體能力,需要一個(gè)循序漸進(jìn)的過(guò)程。

從技術(shù)本身演化的角度來(lái)看,F(xiàn)link 經(jīng)歷了流批一體 API 從無(wú)到有、從有到更優(yōu)兩個(gè)階段。在早期的 Flink 版本中,F(xiàn)link 的流和批無(wú)論在 API 還是在 Runtime 上都沒(méi)有達(dá)到徹底的統(tǒng)一。但從 1.9 版本開(kāi)始,F(xiàn)link 加速在流批一體上進(jìn)行完善和升級(jí),F(xiàn)link SQL 作為用戶使用的最主流 API,率先實(shí)現(xiàn)了流批一體語(yǔ)義,用戶只需學(xué)習(xí)使用一套 SQL 就可以基于 Flink 進(jìn)行流批一體的開(kāi)發(fā),降低了開(kāi)發(fā)的門(mén)檻。

最初 SQL 實(shí)現(xiàn)流批一體的做法是將流作業(yè)和批作業(yè)分別翻譯成 Flink 底層的兩個(gè)原生 API,包括處理流計(jì)算需求的 DataStream 和處理批計(jì)算需求的 DataSet,相對(duì)來(lái)說(shuō)有些簡(jiǎn)單粗暴,當(dāng)時(shí)也引發(fā)了一系列問(wèn)題,包括開(kāi)發(fā)鏈路過(guò)長(zhǎng)導(dǎo)致迭代效率不高等。因此 Flink 社區(qū)又對(duì)底層架構(gòu)做了一些重構(gòu),并引出了 DAG API,F(xiàn)link 分布式運(yùn)行層針對(duì) DAG 做了一系列優(yōu)化,包括增加流批一體的調(diào)度器、可插拔的 Shuffle 插件等。這樣一來(lái),F(xiàn)link 的分布式運(yùn)行層也開(kāi)始逐漸形成了流批一體的 DAG 描述能力和調(diào)度執(zhí)行能力。

87e9e1d0-4423-11eb-8b86-12bb97331649.png

目前 Flink 的流批一體方案仍然在持續(xù)改進(jìn)當(dāng)中。雖然現(xiàn)在開(kāi)發(fā)者已經(jīng)可以很方便地基于 SQL API 來(lái)執(zhí)行流批一體作業(yè),但 SQL 并不能解決所有需求。一些邏輯特別復(fù)雜或定制化程度較高的作業(yè)還是需要繼續(xù)使用 DataStream API。DataStream API 雖然能更加靈活地應(yīng)對(duì)流計(jì)算場(chǎng)景的各種需求,但卻缺乏對(duì)批處理的高效支持。

因此,F(xiàn)link 社區(qū)在完成 SQL 流批一體升級(jí)之后,從 1.11 版本開(kāi)始投入大量精力完善 DataStream API 的流批一體能力,在 DataSteam API 上增加批處理的語(yǔ)義,同時(shí)結(jié)合流批一體 Connector 的設(shè)計(jì),讓 DataStream API 能夠在流批融合場(chǎng)景下對(duì)接 Kafka 和 HDFS 等不同類(lèi)型流批數(shù)據(jù)源。在剛剛發(fā)布的 1.12 版本中,大家就可以體驗(yàn)到 DataStream 流批一體的原生支持。接下來(lái)流批一體的迭代計(jì)算 API 也將被引入到 DataStream 中,進(jìn)一步解鎖一系列機(jī)器學(xué)習(xí)場(chǎng)景。

此外,在當(dāng)前 Flink 主版本中,不管是 SQL 還是 DataStream API,在流批一體概念上都還是流計(jì)算和批計(jì)算功能的結(jié)合體。用戶雖然只需要編寫(xiě)一套代碼,但需要在代碼中選擇使用流的方式跑,還是批的方式跑,執(zhí)行模式比較單一。但有些業(yè)務(wù)場(chǎng)景已經(jīng)提出更高的要求,即流批混合,需要在批和流之間自動(dòng)切換,F(xiàn)link 也將在后續(xù)支持更加智能的流批融合場(chǎng)景和動(dòng)態(tài)切換能力。

當(dāng)然,流批一體不只是一個(gè)技術(shù)問(wèn)題,最終還是業(yè)務(wù)落地的問(wèn)題,F(xiàn)link 的流批一體能力也是通過(guò)大規(guī)模業(yè)務(wù)鍛造出來(lái)的。

雖然選型之初,阿里云的技術(shù)團(tuán)隊(duì)看中的就是 Flink 優(yōu)秀的流計(jì)算能力,但當(dāng)時(shí)這個(gè)能力并未經(jīng)過(guò)大規(guī)模線上業(yè)務(wù)驗(yàn)證。為了快速試錯(cuò),團(tuán)隊(duì)決定開(kāi)辟一個(gè) Flink 的內(nèi)部分支(即后來(lái)為大家熟知的 Blink),最大目的是快速增加當(dāng)時(shí)急缺的功能并在線上業(yè)務(wù)驗(yàn)證,這也是在業(yè)務(wù)早期的選擇。

經(jīng)過(guò)團(tuán)隊(duì)一年的努力,基于 Flink 的搜索推薦實(shí)時(shí)計(jì)算平臺(tái)成功支持了 2016 年的搜索雙 11,保證了搜索推薦全鏈路實(shí)時(shí)化。在這之后,F(xiàn)link 開(kāi)始在阿里集團(tuán)內(nèi)部服務(wù)于更多實(shí)時(shí)數(shù)據(jù)業(yè)務(wù),在更大規(guī)模的業(yè)務(wù)場(chǎng)景驗(yàn)證并優(yōu)化其流計(jì)算能力和穩(wěn)定性。2017 年,F(xiàn)link 成功支持了全集團(tuán)雙 11 的實(shí)時(shí)數(shù)據(jù)業(yè)務(wù),包括 GMV 大屏等最核心的數(shù)據(jù)業(yè)務(wù)場(chǎng)景。

在實(shí)時(shí)計(jì)算能力經(jīng)過(guò)充分驗(yàn)證之后,團(tuán)隊(duì)開(kāi)始補(bǔ)充和完善 Flink 的批計(jì)算能力,并在搜索推薦的索引構(gòu)建、機(jī)器學(xué)習(xí)特征工程和樣本生成等業(yè)務(wù)場(chǎng)景中進(jìn)行驗(yàn)證。

經(jīng)過(guò)大規(guī)模作業(yè)驗(yàn)證之后,團(tuán)隊(duì)對(duì) Flink 的流批一體能力更加有底,也是在這個(gè)時(shí)候,團(tuán)隊(duì)開(kāi)始醞釀 Blink 的開(kāi)源。后面的進(jìn)展很多人都已經(jīng)有所了解:2018 年 12 月阿里宣布開(kāi)源 Flink 的內(nèi)部分支 Blink;2019 年 1 月起,阿里逐步將內(nèi)部在 Blink 沉淀的能力推回 Flink 開(kāi)源社區(qū);到 2019 年 11 月發(fā)布的 Flink 1.10 版本前瞻,Blink 全部功能都已經(jīng)進(jìn)入 Flink。2020 年雙 11 天貓營(yíng)銷(xiāo)決策核心系統(tǒng)的這場(chǎng)“大考”,F(xiàn)link 流批一體技術(shù)又得到了更進(jìn)一步的錘煉。

3 流批一體的雙 11“大考”

在莫問(wèn)看來(lái),F(xiàn)link 流批一體技術(shù)從最初應(yīng)用于搜索推薦場(chǎng)景,到今年雙 11 在天貓核心數(shù)據(jù)業(yè)務(wù)落地,升級(jí)的是業(yè)務(wù)的重要程度,而不是簡(jiǎn)單的計(jì)算規(guī)模。

在流計(jì)算場(chǎng)景上,天貓大數(shù)據(jù)團(tuán)隊(duì)已經(jīng)跟實(shí)時(shí)計(jì)算團(tuán)隊(duì)配合了很多年,但之前一直沒(méi)有在批計(jì)算場(chǎng)景上線。魯尼透露,天貓的批處理作業(yè)優(yōu)先級(jí)在集團(tuán)內(nèi)屬于級(jí)別最高的那一檔,因此在架構(gòu)升級(jí)上會(huì)更慎重。

天貓分析場(chǎng)景下的報(bào)表大部分分為實(shí)時(shí)和離線兩種,商家、小二、管理層通過(guò)實(shí)時(shí)數(shù)據(jù)和歷史數(shù)據(jù)進(jìn)行不同維度、不同時(shí)間周期的比對(duì),從而對(duì)當(dāng)前的活動(dòng)情況作出判斷,這些數(shù)據(jù)是業(yè)務(wù)決策的重要判斷依據(jù)。

以前天貓整體的數(shù)據(jù)架構(gòu)使用的是 Lambda 架構(gòu),數(shù)據(jù)分析需求基于流、批兩套計(jì)算引擎產(chǎn)出,這種分離的架構(gòu)不僅會(huì)帶來(lái)兩套開(kāi)發(fā)成本,也導(dǎo)致數(shù)據(jù)邏輯和口徑難以對(duì)齊。另外,產(chǎn)品搭建數(shù)據(jù)報(bào)表的時(shí)候,過(guò)程繁瑣,容易出現(xiàn)問(wèn)題。這些痛點(diǎn)促使天貓大數(shù)據(jù)團(tuán)隊(duì)開(kāi)始調(diào)研流批一體的技術(shù)方案。

流批一體的技術(shù)方案主要分兩種,一種是跨引擎的流批一體,比如更早以前 Storm 和 Spark 結(jié)合使用,批交給 Spark 執(zhí)行,流交給 Storm 執(zhí)行;另一種就是一個(gè)引擎本身就具備流批一體的能力,比如 Spark 和 Spark streaming、Flink 等。鑒于 Flink 的流計(jì)算能力已經(jīng)在阿里集團(tuán)內(nèi)部經(jīng)過(guò)大規(guī)模業(yè)務(wù)應(yīng)用的驗(yàn)證,以及 Flink 流批一體技術(shù)的不斷成熟,天貓大數(shù)據(jù)團(tuán)隊(duì)決定嘗試基于 Flink 的流批一體能力升級(jí)技術(shù)架構(gòu)。

8854f1be-4423-11eb-8b86-12bb97331649.png

8888b648-4423-11eb-8b86-12bb97331649.png

除了計(jì)算層,團(tuán)隊(duì)也調(diào)研了存儲(chǔ)層的流批一體方案,最終確定云原生實(shí)時(shí)數(shù)倉(cāng) Hologres 可以滿足天貓點(diǎn)查和 OLAP 分析這兩個(gè)場(chǎng)景的需求。團(tuán)隊(duì)首先設(shè)計(jì)了一個(gè) POC 流程對(duì)整套方案進(jìn)行可行性驗(yàn)證,發(fā)現(xiàn)這套方案是 work 的,的確能對(duì)研發(fā)效能和數(shù)據(jù)質(zhì)量帶來(lái)了比較大的提升。

黃曉鋒告訴 InfoQ,從決定在雙 11 大促中規(guī)?;褂?Flink 流批一體到最終落地,天貓大數(shù)據(jù)團(tuán)隊(duì)和實(shí)時(shí)計(jì)算團(tuán)隊(duì)并肩作戰(zhàn)了 5 個(gè)月,整個(gè)改造過(guò)程大致可以劃分為四個(gè)關(guān)鍵階段。

第一個(gè)階段是設(shè)計(jì)。首先需要拆解和梳理天貓實(shí)際情況,完成流批一體模型的統(tǒng)一。然后需要在平臺(tái)這一側(cè)把源數(shù)據(jù)打通,實(shí)現(xiàn)用戶只寫(xiě)一套代碼,平臺(tái)自動(dòng)翻譯成 Flink Batch 任務(wù)和 Flink Stream 任務(wù),同時(shí)寫(xiě)到一張 Holo 表,完成計(jì)算層表達(dá)的統(tǒng)一。

第二個(gè)階段是落地。流批一體需要依賴離線的調(diào)度,因此需要對(duì) MaxCompute平臺(tái)做一定程度的打通。

第三個(gè)階段是優(yōu)化。包括語(yǔ)義層表達(dá)的優(yōu)化,比如以前寫(xiě)的趨勢(shì)圖邏輯可能針對(duì)流場(chǎng)景做了針對(duì)性優(yōu)化,但在批上面不起作用甚至可能存在問(wèn)題,這些特殊場(chǎng)景需要做語(yǔ)義對(duì)齊;也包括性能的優(yōu)化,以保證在雙 11 可以達(dá)到性能目標(biāo)。

第四階段是穩(wěn)定性。由于整條鏈路改動(dòng)比較大,雙 11 場(chǎng)景對(duì)穩(wěn)定性的要求又特別高,因此團(tuán)隊(duì)重點(diǎn)展開(kāi)了數(shù)據(jù)全鏈路的壓測(cè),以保證 Flink 本身流批計(jì)算性能、Hologres 的查詢性能和上層 BI 層的查詢性能,都能夠滿足雙 11 的 QPS 訴求。

在整個(gè)過(guò)程中,團(tuán)隊(duì)也遇到了幾個(gè)核心挑戰(zhàn)。

其中一個(gè)挑戰(zhàn)來(lái)自性能。這是流批一體第一次大規(guī)模使用,不同系統(tǒng)的數(shù)據(jù)打通做的還不是非常完備。比如 MaxCompute 和 Flink 之間的數(shù)據(jù)中轉(zhuǎn)是通過(guò) Tunnel 管道的方式來(lái)做的,但在規(guī)?;瘧?yīng)用的過(guò)程中才發(fā)現(xiàn) Tunnel 有連接數(shù)的限制,會(huì)極大地影響規(guī)?;茝V。后來(lái)團(tuán)隊(duì)通過(guò)在 Flink 這一層做相應(yīng)的優(yōu)化,先一次性讀取再在 Flink 內(nèi)部做分發(fā),極大地降低了連接數(shù)并優(yōu)化了讀取性能,問(wèn)題得以解決。

另一個(gè)挑戰(zhàn)來(lái)自流批一體的語(yǔ)義統(tǒng)一。在某些場(chǎng)景下,開(kāi)發(fā)人員對(duì)流批語(yǔ)義的理解和 Flink Runtime 翻譯出來(lái)的流批一體語(yǔ)義之間存在差異,可能會(huì)導(dǎo)致同一套 SQL 跑出來(lái)的流批結(jié)果跟業(yè)務(wù)理解的不一樣,比如對(duì)于 Index Join 和 Primarykey Join 的處理方式在流批上面的差異。后來(lái)兩個(gè)團(tuán)隊(duì)聯(lián)合修復(fù)了這個(gè)問(wèn)題。

除此之外,天貓大數(shù)據(jù)團(tuán)隊(duì)也聯(lián)合 Hologres 開(kāi)發(fā)團(tuán)隊(duì)對(duì) Hologres 進(jìn)行了非常深度的優(yōu)化,包括優(yōu)化器、排隊(duì)機(jī)制、數(shù)據(jù) Shard 的劃分規(guī)則、計(jì)算層的數(shù)據(jù) shuffle 機(jī)制都做了針對(duì)性的優(yōu)化。

事實(shí)上,F(xiàn)link 流批一體成功落地雙 11 天貓核心數(shù)據(jù)場(chǎng)景,不僅更好地提升了開(kāi)發(fā)團(tuán)隊(duì)成員的技術(shù)能力,在業(yè)務(wù)上的實(shí)踐效果也非常喜人。

時(shí)效性上,面對(duì) 58.3 萬(wàn)筆 / 秒的交易峰值和上億 / 秒的無(wú)線流量洪峰,天貓的所有任務(wù)都達(dá)到了秒級(jí)延時(shí),整個(gè)實(shí)時(shí)計(jì)算集群峰值 TPS 達(dá)到 40 億條 / 秒。同時(shí),集群資源利用率也得到了大幅提升,批任務(wù)可以錯(cuò)峰執(zhí)行。

準(zhǔn)確性上,流批任務(wù)的業(yè)務(wù)口徑做到了完全一致,數(shù)據(jù)質(zhì)量問(wèn)題不復(fù)存在,成為大促期間重要的業(yè)務(wù)雷達(dá)。流批模型也實(shí)現(xiàn)了完全統(tǒng)一,產(chǎn)品搭建效率提升 400%。

靈活性上,流批一體實(shí)現(xiàn)了多個(gè)計(jì)算處理模式也只需要撰寫(xiě)一套代碼,需求迭代效率提升 2 倍,大促當(dāng)天緊急需求承接效率提升 5 倍。同時(shí),實(shí)時(shí)數(shù)倉(cāng) +OLAP 場(chǎng)景結(jié)合,也使得變更成本大幅下降,能更好地滿足分析師按需取數(shù)場(chǎng)景的需要。

在黃曉鋒的整體規(guī)劃里,F(xiàn)link 流批一體成功落地雙 11 天貓核心數(shù)據(jù)場(chǎng)景,僅僅只是走出了陽(yáng)光大道的第一步。接下來(lái),天貓大數(shù)據(jù)團(tuán)隊(duì)計(jì)劃繼續(xù)探索存儲(chǔ)層的流批一體,而在更長(zhǎng)遠(yuǎn)的未來(lái),團(tuán)隊(duì)希望推動(dòng)流批一體往“湖倉(cāng)一體”方向去演進(jìn),并把經(jīng)過(guò)內(nèi)部打磨的技術(shù)架構(gòu)和平臺(tái),如 DataPhin、QuickBI、Flink、Hologres 整合的場(chǎng)景,輸出到云上服務(wù)更多外部用戶。

4 下一個(gè)規(guī)模化落地場(chǎng)景什么時(shí)候到來(lái)?

阿里在核心數(shù)據(jù)業(yè)務(wù)上真正規(guī)模化落地“流批一體”無(wú)疑給業(yè)界開(kāi)了個(gè)好頭。

近幾年,大數(shù)據(jù)領(lǐng)域逐漸開(kāi)始擁抱“融合”(或所謂“一體化”)演進(jìn)的新方向,不管是今年剛成為熱議話題的“湖倉(cāng)一體”,還是更早提出的“流批一體”,其實(shí)都是這一思路的階段性成果。對(duì)于新的技術(shù)思路,大眾在一開(kāi)始肯定會(huì)有質(zhì)疑和觀望情緒。莫問(wèn)表示,團(tuán)隊(duì)希望通過(guò)這次成功打樣的案例向業(yè)界證明,F(xiàn)link 流批一體是真正能夠落地核心業(yè)務(wù)并為業(yè)務(wù)創(chuàng)造價(jià)值的。這或許能讓更多企業(yè)和團(tuán)隊(duì)打消觀望情緒,并使 2020 年成為流批一體落地的元年。

在黃曉鋒看來(lái),流批一體將成為阿里集團(tuán)內(nèi)部數(shù)據(jù)技術(shù)升級(jí)的新賽道。因?yàn)樘熵埖臉I(yè)務(wù)體量和業(yè)務(wù)場(chǎng)景的復(fù)雜度,在整個(gè)集團(tuán)里非常具有代表性,F(xiàn)link 流批一體在天貓業(yè)務(wù)上的成功應(yīng)用,會(huì)推動(dòng)整個(gè)集團(tuán)在流批一體這個(gè)賽道上的投入,也會(huì)推動(dòng)更多業(yè)務(wù)去升級(jí)到流批一體架構(gòu),以解決業(yè)務(wù)上的痛點(diǎn)。

除了在阿里內(nèi)部推動(dòng)更多業(yè)務(wù)落地 Flink 流批一體,莫問(wèn)提到,未來(lái)還會(huì)將更多精力和焦點(diǎn)放在開(kāi)源社區(qū)。下一步,阿里云實(shí)時(shí)計(jì)算團(tuán)隊(duì)會(huì)把在阿里業(yè)務(wù)場(chǎng)景下打磨出來(lái)的核心技術(shù)積累,在 Flink 未來(lái)的 1 到 2 個(gè)版本中逐步推回開(kāi)源社區(qū),讓更多企業(yè)都能夠用上 Flink 流批一體的能力。

當(dāng)然,在 Flink 流批一體推廣和大規(guī)模落地的道路上也充滿挑戰(zhàn)。

流批一體技術(shù)本身的挑戰(zhàn)在于,原來(lái)是一個(gè)單一引擎解決單一問(wèn)題(批或者流),現(xiàn)在需要一個(gè)引擎同時(shí)解決流 + 批的問(wèn)題,如果未來(lái)流和批的概念逐漸淡化,那么引擎本身就需要具備針對(duì)不同場(chǎng)景和需求智能化選擇流批模式的能力,這在技術(shù)上是非常大的挑戰(zhàn)。不過(guò)魯尼認(rèn)為,機(jī)遇和挑戰(zhàn)是一并存在的,如果用戶能夠把更多精力從選擇引擎、維護(hù)引擎中解放出來(lái),就可以更專(zhuān)注于業(yè)務(wù)本身,既能加快迭代效率也能利用流批一體引擎的靈活性解鎖更多有價(jià)值的業(yè)務(wù)場(chǎng)景。

另一個(gè)挑戰(zhàn)在于改變用戶的心智,莫問(wèn)表示,流批一體需要用戶轉(zhuǎn)變?cè)瓉?lái)固有的流批分離的思維模式,這并不是一件簡(jiǎn)單的事情,企業(yè)在做相關(guān)的決策時(shí)肯定會(huì)更加謹(jǐn)慎,需要逐步試點(diǎn)和推進(jìn)。另外,當(dāng)前很多互聯(lián)網(wǎng)公司離線計(jì)算團(tuán)隊(duì)和實(shí)時(shí)計(jì)算團(tuán)隊(duì)是兩個(gè)獨(dú)立的團(tuán)隊(duì)、兩套獨(dú)立的體系,如果要做流批一體,就需要兩個(gè)團(tuán)隊(duì)密切合作和共建,組織架構(gòu)上的挑戰(zhàn)不亞于技術(shù)上的挑戰(zhàn)。但莫問(wèn)相信,只要方向?qū)α?,一切只是時(shí)間問(wèn)題。

據(jù)了解,目前 Flink 社區(qū)中字節(jié)跳動(dòng)、快手、小米等幾家頭部公司都已經(jīng)開(kāi)始探索基于 Flink 的流批一體架構(gòu),或正在規(guī)劃當(dāng)中。

展望 2021 年,F(xiàn)link 流批一體或?qū)⒂瓉?lái)快速發(fā)展期。隨著更多大型互聯(lián)網(wǎng)公司成功落地并向業(yè)界輸出經(jīng)驗(yàn),相信會(huì)推動(dòng)更多中小企業(yè)選擇跟進(jìn)和嘗試流批一體架構(gòu)。

責(zé)任編輯:xj

原文標(biāo)題:為什么阿里云要做流批一體?

文章出處:【微信公眾號(hào):算法與數(shù)據(jù)結(jié)構(gòu)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 計(jì)算
    +關(guān)注

    關(guān)注

    2

    文章

    453

    瀏覽量

    39350
  • SQL
    SQL
    +關(guān)注

    關(guān)注

    1

    文章

    783

    瀏覽量

    45163
  • 阿里云
    +關(guān)注

    關(guān)注

    3

    文章

    1014

    瀏覽量

    44199

原文標(biāo)題:為什么阿里云要做流批一體?

文章出處:【微信號(hào):TheAlgorithm,微信公眾號(hào):算法與數(shù)據(jù)結(jié)構(gòu)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    阿里是什么?企業(yè)不可不知的云端架構(gòu)服務(wù)!

    阿里是什么?中國(guó)高速連線阿里 CDN 服務(wù) 阿里為國(guó)內(nèi)云端市場(chǎng)中市占有率第一的
    的頭像 發(fā)表于 03-16 09:43 ?515次閱讀

    阿里爆發(fā)式的跨越

    表示,阿里巴巴與蘋(píng)果的合作,將不僅僅局限于手機(jī)服務(wù)領(lǐng)域,未來(lái)還將涉及更多的業(yè)務(wù)板塊。 當(dāng)媒體都在驚嘆與討論蘋(píng)果為什么選擇阿里巴巴時(shí),背后真正的主角還需要加上一個(gè) “” 字。 長(zhǎng)期以來(lái),相比淘寶、天貓、菜鳥(niǎo),“
    的頭像 發(fā)表于 03-12 16:54 ?444次閱讀
    <b class='flag-5'>阿里</b><b class='flag-5'>云</b>爆發(fā)式的跨越

    廣和通攜手阿里推出隨身智能解決方案

    2月,廣和通與全球領(lǐng)先的解決方案提供商阿里達(dá)成合作:廣和通AI模組及解決方案,基于阿里通義千問(wèn)大模型,推出“隨身智能解決方案”,賦能消
    的頭像 發(fā)表于 02-25 16:04 ?547次閱讀

    阿里代理優(yōu)惠上指南——火傘如何助力企業(yè)降本增效

    在數(shù)字化轉(zhuǎn)型的浪潮中,計(jì)算已成為企業(yè)提升效率、優(yōu)化成本的核心工具。然而,面對(duì)阿里、騰訊、華為、天翼
    的頭像 發(fā)表于 02-19 15:48 ?602次閱讀

    先進(jìn)數(shù)通:阿里多項(xiàng)合作與上貴州供應(yīng)商身份確認(rèn)

    近日,有投資者就先進(jìn)數(shù)通與阿里上貴州的合作情況提出詢問(wèn)。針對(duì)這些關(guān)注點(diǎn),先進(jìn)數(shù)通在互動(dòng)平臺(tái)上給出了明確回應(yīng)。 先進(jìn)數(shù)通確認(rèn),公司作為“金融核心先鋒聯(lián)盟”的首批20家成員之一,一直致力于在金融
    的頭像 發(fā)表于 02-17 09:19 ?759次閱讀

    阿里個(gè)人電腦,阿里個(gè)人電腦的特點(diǎn)

    ? ? 在當(dāng)代IT管理體系中,遠(yuǎn)程連接工具發(fā)揮著舉足輕重的作用。這些工具賦予系統(tǒng)管理員同時(shí)操控與監(jiān)視多臺(tái)遠(yuǎn)程計(jì)算機(jī)的能力,顯著提升了工作效率并增強(qiáng)了系統(tǒng)安全性。今天小編給大家講解阿里個(gè)人電腦的特點(diǎn)
    的頭像 發(fā)表于 02-07 15:44 ?568次閱讀
    <b class='flag-5'>阿里</b><b class='flag-5'>云</b>個(gè)人電腦,<b class='flag-5'>阿里</b><b class='flag-5'>云</b>個(gè)人電腦的特點(diǎn)

    阿里官網(wǎng)電腦版,阿里電腦版的下載使用教程

    ? ? 在計(jì)算蓬勃發(fā)展的時(shí)代,阿里作為行業(yè)的領(lǐng)軍者,旗下的阿里官網(wǎng)電腦版為用戶帶來(lái)了功能強(qiáng)大且便捷的云端服務(wù)。它整合了
    的頭像 發(fā)表于 01-23 14:49 ?1186次閱讀
    <b class='flag-5'>阿里</b><b class='flag-5'>云</b>官網(wǎng)電腦版,<b class='flag-5'>阿里</b><b class='flag-5'>云</b>電腦版的下載使用教程

    服務(wù)器 Flexus X 實(shí)例,Docker 集成搭建搭建 Flink

    Apache Flink 是一個(gè)分布式大數(shù)據(jù)計(jì)算引擎,專(zhuān)為處理無(wú)界和有界數(shù)據(jù)流上的有狀態(tài)計(jì)算而設(shè)計(jì),以其高吞吐量、低延遲和高性能在實(shí)時(shí)流處理和批量計(jì)算領(lǐng)域脫穎而出,Flink 支持批流一體化,即能
    的頭像 發(fā)表于 01-13 18:17 ?425次閱讀
    <b class='flag-5'>云</b>服務(wù)器 Flexus X 實(shí)例,Docker 集成搭建搭建 <b class='flag-5'>Flink</b>

    2025阿里代理政策:火傘帶來(lái)專(zhuān)屬優(yōu)惠

    隨著計(jì)算市場(chǎng)的不斷擴(kuò)張,阿里作為行業(yè)領(lǐng)軍者,于2025年發(fā)布了全新的代理政策。這一政策針對(duì)代理商體系進(jìn)行了全面升級(jí),進(jìn)一步優(yōu)化合作模式,并提供了更多靈活性和激勵(lì)機(jī)制,旨在擴(kuò)大市場(chǎng)覆蓋率,推動(dòng)企業(yè)
    的頭像 發(fā)表于 01-09 14:44 ?709次閱讀

    探究阿里代理商的奧秘

    在數(shù)字化時(shí)代,阿里服務(wù)器以其卓越的性能和可靠的穩(wěn)定性,成為了眾多企業(yè)首選的服務(wù)提供商。然而,你是否曾好奇,為何選擇阿里服務(wù)器的代理商總
    的頭像 發(fā)表于 12-12 14:24 ?387次閱讀

    阿里代理有哪些?

    阿里作為全球領(lǐng)先的計(jì)算服務(wù)商,提供多種級(jí)別的代理商合作伙伴,以便更好地服務(wù)企業(yè)客戶。不同級(jí)別的阿里代理商在服務(wù)、技術(shù)支持和返傭方面有顯
    的頭像 發(fā)表于 12-06 15:44 ?863次閱讀

    印尼GOTO、騰訊阿里簽署合作協(xié)議

    近日,印尼知名科技公司GOTO與中國(guó)的騰訊、阿里正式簽署了合作協(xié)議。此次攜手合作,旨在共同推動(dòng)印尼數(shù)字經(jīng)濟(jì)的發(fā)展,為當(dāng)?shù)仄髽I(yè)提供更加全面、高效的數(shù)字化解決方案。
    的頭像 發(fā)表于 11-11 14:32 ?845次閱讀

    基于圖遍歷的Flink任務(wù)畫(huà)布模式下零代碼開(kāi)發(fā)實(shí)現(xiàn)方案

    作者:京東物流 吳云濤 前言 提交一個(gè)DataSteam 的 Flink應(yīng)用,需要經(jīng)過(guò) StreamGraph、JobGraph、ExecutionGraph 三個(gè)階段的轉(zhuǎn)換生成可成執(zhí)行的有向無(wú)環(huán)圖
    的頭像 發(fā)表于 11-05 10:35 ?1105次閱讀
    基于圖遍歷的<b class='flag-5'>Flink</b>任務(wù)畫(huà)布模式下零代碼開(kāi)發(fā)實(shí)現(xiàn)方案

    使用API Post測(cè)試阿里物聯(lián)網(wǎng)平臺(tái)動(dòng)態(tài)注冊(cè)

    使用API Post測(cè)試阿里物聯(lián)網(wǎng)平臺(tái)動(dòng)態(tài)注冊(cè)
    的頭像 發(fā)表于 10-05 19:08 ?857次閱讀
    使用API Post測(cè)試<b class='flag-5'>阿里</b><b class='flag-5'>云</b>物聯(lián)網(wǎng)平臺(tái)動(dòng)態(tài)注冊(cè)

    阿里設(shè)備的物模型數(shù)據(jù)里面始終沒(méi)有值是為什么?

    如上圖,不知道講清楚沒(méi)有。 IG502自定義TOPIC 上發(fā)到阿里沒(méi)問(wèn)題。采用阿里物模型的格式來(lái)上發(fā)就不行。請(qǐng)大佬指教!
    發(fā)表于 07-24 07:49