99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Alink衍生背景:算法工程師的開發(fā)訴求

工程師人生 ? 來源:CSDN ? 2020-04-15 14:49 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

每次購物狂歡都是技術(shù)平臺(tái)的一場(chǎng)數(shù)據(jù)“博弈”。去年雙十一,阿里旗下的電子商務(wù)平臺(tái)天貓就再一次刷新了數(shù)據(jù)記錄,而強(qiáng)大的系統(tǒng)處理性能更是讓業(yè)界敬佩不已:?jiǎn)稳諗?shù)據(jù)處理量達(dá)到970PB,每秒處理峰值數(shù)據(jù)高達(dá)25億條,并幫助天貓產(chǎn)品推薦的點(diǎn)擊率提高了4%——這一連串的數(shù)據(jù)背后,離不開Alink的支撐。

作為業(yè)界同時(shí)支持批式算法、流式算法的機(jī)器學(xué)習(xí)平臺(tái)之一,Alink基于Flink開發(fā)而來,提供了豐富的算法組件庫和便捷的操作框架,且目前已被廣泛運(yùn)用在阿里內(nèi)部的搜索、推薦、廣告等多個(gè)核心實(shí)時(shí)在線業(yè)務(wù)中,以及支持Kafka、HDFS和HBase等一系列開源數(shù)據(jù)存儲(chǔ)平臺(tái)。

在本文中,CSDN有幸采訪到了Alink創(chuàng)始人楊旭,他將從一線開發(fā)的視角,帶我們了解這個(gè)開源機(jī)器學(xué)習(xí)平臺(tái)的技術(shù)路徑、典型應(yīng)用案例及發(fā)展規(guī)劃等內(nèi)容。

楊旭,機(jī)器學(xué)習(xí)Alink創(chuàng)始人,阿里巴巴集團(tuán)計(jì)算平臺(tái)事業(yè)部的資深算法專家,阿里云機(jī)器學(xué)習(xí)算法平臺(tái)PAI中基礎(chǔ)機(jī)器學(xué)習(xí)算法的負(fù)責(zé)人。

Alink衍生背景:算法工程師的開發(fā)訴求

隨著大數(shù)據(jù)時(shí)代的到來和人工智能的崛起,機(jī)器學(xué)習(xí)所能處理的場(chǎng)景更加廣泛和多樣。構(gòu)建的模型需要對(duì)批量數(shù)據(jù)進(jìn)行處理,為了達(dá)到實(shí)時(shí)性的要求還需要直接對(duì)流式數(shù)據(jù)進(jìn)行實(shí)時(shí)預(yù)測(cè),還要具備將模型應(yīng)用在企業(yè)應(yīng)用和微服務(wù)上能力。為了取得更好的業(yè)務(wù)效果,算法工程師們需要嘗試更多更復(fù)雜的模型,需要處理更大的數(shù)據(jù)集,使用分布式集群已經(jīng)成為常態(tài);為了及時(shí)對(duì)市場(chǎng)的變化進(jìn)行反應(yīng),越來越多的業(yè)務(wù)選用在線學(xué)習(xí)方式直接處理流式數(shù)據(jù)、實(shí)時(shí)更新模型。

楊旭解釋道,“我們團(tuán)隊(duì)一直從事算法平臺(tái)的研發(fā)工作,感受到了高效能的算法組件和便捷操作平臺(tái)對(duì)開發(fā)者的幫助?!贬槍?duì)正在興起的機(jī)器學(xué)習(xí)廣泛而多樣的應(yīng)用場(chǎng)景,他和所帶領(lǐng)的團(tuán)隊(duì)在2017年開始基于Flink研發(fā)新一代的機(jī)器學(xué)習(xí)算法平臺(tái),使得數(shù)據(jù)分析和應(yīng)用開發(fā)人員能夠輕松搭建端到端的業(yè)務(wù)流程。

Alink究竟是什么?

Alink 是阿里巴巴計(jì)算平臺(tái)事業(yè)部PAI團(tuán)隊(duì)從2017年開始基于實(shí)時(shí)計(jì)算引擎 Flink 研發(fā)的新一代機(jī)器學(xué)習(xí)算法平臺(tái),提供豐富的算法組件庫和便捷的操作框架,開發(fā)者可以一鍵搭建覆蓋數(shù)據(jù)處理、特征工程、模型訓(xùn)練、模型預(yù)測(cè)的算法模型開發(fā)全流程。項(xiàng)目之所以定為Alink,是取自相關(guān)名稱(Alibaba, Algorithm, AI, Flink, Blink)的公共部分。

借助Flink在批流一體化方面的優(yōu)勢(shì),Alink能夠?yàn)榕魅蝿?wù)提供一致性的操作。楊旭提到,在2017年初,他們通過調(diào)研團(tuán)隊(duì)看到了Flink在批流一體化方面的優(yōu)勢(shì)及底層引擎的優(yōu)秀性能,于是基于Flink重新設(shè)計(jì)研發(fā)了機(jī)器學(xué)習(xí)算法庫,即Alink平臺(tái)。該平臺(tái)于2018年在阿里集團(tuán)內(nèi)部上線,隨后不斷改進(jìn)完善,在阿里內(nèi)部錯(cuò)綜復(fù)雜的業(yè)務(wù)場(chǎng)景中鍛煉成長(zhǎng)。

“作為業(yè)界首個(gè)同時(shí)支持批式算法、流式算法的機(jī)器學(xué)習(xí)平臺(tái),Alink 提供了 Python 接口,開發(fā)者無需 Flink 技術(shù)背景也可以輕松構(gòu)建算法模型?!?/p>

據(jù)楊旭介紹,Alink 已被廣泛運(yùn)用在阿里巴巴搜索、推薦、廣告等多個(gè)核心實(shí)時(shí)在線業(yè)務(wù)中。在此前落幕的天貓雙 11 中,單日數(shù)據(jù)處理量達(dá)到 970PB,每秒處理峰值數(shù)據(jù)高達(dá) 25 億條。Alink 成功經(jīng)受住了超大規(guī)模實(shí)時(shí)數(shù)據(jù)訓(xùn)練的檢驗(yàn),并幫助提升 4% CTR(商品點(diǎn)擊轉(zhuǎn)化率)。

Alink功能簡(jiǎn)介

1、豐富的算法庫

Alink擁有豐富的批式算法和流式算法,幫助數(shù)據(jù)分析和應(yīng)用開發(fā)人員能夠從數(shù)據(jù)處理、特征工程、模型訓(xùn)練、預(yù)測(cè),端到端地完成整個(gè)流程。如下圖所示,Alink提供的開源算法模塊中,每一個(gè)模塊都包含流式和批式算法。比如線性回歸,包含批式線性回歸訓(xùn)練、流式線性回歸預(yù)測(cè)和批式線性回歸預(yù)測(cè)。

2、友好的使用體驗(yàn)

“為了提供更好的交互式和可視化體驗(yàn),我們?cè)陂_源的同時(shí)推出了PyAlink,用戶可以通過PyAlink的Python包以notebook的方式使用Alink?!睏钚癖硎荆琍yAlink不僅支持單機(jī)運(yùn)行,也支持集群提交,并且打通了Operator(Alink算子)和DataFrame的接口,從而使得Alink整個(gè)算法流程無縫融入Python。PyAlink也提供使用Python函數(shù)來調(diào)用UDF或者UDTF。PyAlink在notebook中使用如下圖,展示了一個(gè)模型訓(xùn)練預(yù)測(cè),并打印出預(yù)測(cè)結(jié)果的過程。

3、與Spark對(duì)比

在離線學(xué)習(xí)算法方面,Alink 跟 SparkML 性能對(duì)比基本相當(dāng),下圖給出的是一些經(jīng)典算法的性能對(duì)比:

通過上圖可以看出,Alink在大部分算法性能優(yōu)于Spark,個(gè)別算法性能比Spark弱,整體是一個(gè)相當(dāng)?shù)乃健?/p>

但是,“在功能的完備性方面,Alink更有優(yōu)勢(shì)”,Alink除了覆蓋Spark的算法,還包含流式算法、流批混跑、在線學(xué)習(xí)、中文分詞等。

阿里和Alink的開源之路

在2018年,GitHub新增活躍用戶數(shù)量超過了前六年的總和,相較于2017年新增了40%的組織機(jī)構(gòu)和30%的代碼倉庫。從全球趨勢(shì)來看,開源無疑是軟件發(fā)展的大勢(shì)所趨。目前在國(guó)內(nèi),阿里是貢獻(xiàn)開源最出色的企業(yè)。GitHub上有大量的開源項(xiàng)目由阿里創(chuàng)建,據(jù)阿里經(jīng)濟(jì)體GitHub開源生態(tài)報(bào)告統(tǒng)計(jì),國(guó)內(nèi)Top10的開源項(xiàng)目中,阿里的開源項(xiàng)目有6個(gè)。

在談Alink開源之前,楊旭首先介紹了與之相關(guān)的Flink與FlinkML。“Flink是一個(gè)面向數(shù)據(jù)流處理和批量數(shù)據(jù)處理的可分布式的開源計(jì)算框架,我們看好Flink引擎的優(yōu)秀性能,希望基于Flink解決流程機(jī)器學(xué)習(xí)場(chǎng)景的問題。”FlinkML為Flink自帶的機(jī)器學(xué)習(xí)算法庫,分為舊的版本和新的版本?!霸谧鯝link前,我們首先認(rèn)真調(diào)研了當(dāng)時(shí)的FlinkML(即舊版本FlinkML)的情況,其僅支持10余種算法,支持的數(shù)據(jù)結(jié)構(gòu)也不夠通用,在算法性能方面做的優(yōu)化也比較少,而且其代碼也很久沒有更新。所以,我們放棄了基于舊版FlinkML進(jìn)行改進(jìn)、升級(jí)的想法,決定基于Flink重新設(shè)計(jì)研發(fā)機(jī)器學(xué)習(xí)算法庫,隨后發(fā)展為現(xiàn)在的Alink?!?/p>

Alink在發(fā)展的過程中一直與Flink社區(qū)緊密關(guān)聯(lián),在每年的Flink Forward大會(huì)上,團(tuán)隊(duì)一直有匯報(bào)項(xiàng)目的進(jìn)展,共同探討技術(shù)問題,獲取反饋和建議。隨著Alink功能的不斷增強(qiáng)和完善,“社區(qū)中歡迎Alink進(jìn)行開源的呼聲日益高漲,我們也開始和Flink社區(qū)更緊密聯(lián)系,推動(dòng)開源Alink的代碼進(jìn)入FlinkML。”

與此同時(shí),社區(qū)中更多的人意識(shí)到舊版FlinkML的問題,決定整個(gè)廢棄掉舊版FlinkML,建設(shè)新版FlinkML。“我們積極參加新版FlinkML API的設(shè)計(jì),分享Alink API設(shè)計(jì)的經(jīng)驗(yàn);Alink的Params等概念被社區(qū)采納;之后開始為新版FlinkML貢獻(xiàn)算法實(shí)現(xiàn)代碼,已提交了40余個(gè)PR,包括算法基礎(chǔ)框架、基礎(chǔ)工具類及若干算法實(shí)現(xiàn)。”

Alink包含了非常多的機(jī)器學(xué)習(xí)算法,在向FlinkML貢獻(xiàn)的過程中,需要社區(qū)commiter的討論設(shè)計(jì)與審查代碼,這個(gè)過程有助于代碼的精益求精,但由于社區(qū)commiter的資源有限,代碼完全貢獻(xiàn)到FlinkML的過程會(huì)持續(xù)很長(zhǎng)時(shí)間?!斑@時(shí),我們不得不考慮是否有其他方式,可以讓用戶先用起來”,“Alink單獨(dú)開源是個(gè)很好的解決方式”,它與向FlinkML繼續(xù)貢獻(xiàn)算法實(shí)現(xiàn),可以同時(shí)進(jìn)行。用戶的使用反饋也有助于更好的改進(jìn)算法實(shí)現(xiàn)。

此想法獲得了社區(qū)的支持,獲得了阿里內(nèi)部的支持,在Flink Forword Asia 2019大會(huì)上,Alink正式宣布開源。

目前,Alink開源已經(jīng)四個(gè)多月,在這段時(shí)間里Alink在開源社區(qū)的聲望越來越高,Alink在Github上已經(jīng)有2000多顆Star,400多次fork。楊旭感嘆道,“目前為止,我們的開源用戶群已經(jīng)將近1000人,并且已經(jīng)有多位社區(qū)開發(fā)者向Alink提交算法code,有幾十位社區(qū)的Alink用戶向我們提出Alink算法bug或者算法改進(jìn)需求。Alink開發(fā)團(tuán)隊(duì)也積極和社區(qū)互動(dòng),共同推進(jìn)Alink平臺(tái)的發(fā)展?!币环矫妫珹link團(tuán)隊(duì)積極支持社區(qū)用使用Alink,幫助數(shù)百位社區(qū)用戶解決他們?cè)谑褂肁link算法遇到的困難。另一方面,針對(duì)社區(qū)用戶提出的算法bug和算法改進(jìn)需求,Alink團(tuán)隊(duì)第一時(shí)間作出響應(yīng),對(duì)這些bug和改進(jìn)需求進(jìn)行排期,并在開發(fā)完成后及時(shí)開源到社區(qū),解決社區(qū)用戶的需求。

“雖然Alink的開源已經(jīng)取得了階段性成果,我們?nèi)匀辉诜e極向FlinkML貢獻(xiàn)代碼”,楊旭最后表示,他希望將更多優(yōu)秀的機(jī)器學(xué)習(xí)算法貢獻(xiàn)給Flink項(xiàng)目,也希望和社區(qū)一起努力,共同促進(jìn)Flink社區(qū)機(jī)器學(xué)習(xí)生態(tài)的發(fā)展和繁榮。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4710

    瀏覽量

    95380
  • 數(shù)據(jù)處理
    +關(guān)注

    關(guān)注

    0

    文章

    627

    瀏覽量

    29177
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8503

    瀏覽量

    134604
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    (仰天長(zhǎng)嘯)為什么受傷的總是硬件工程師...#MDD#MDD辰達(dá)半導(dǎo)體 #電子工程師

    電子工程師
    MDD辰達(dá)半導(dǎo)體
    發(fā)布于 :2025年04月27日 18:21:47

    問,成為硬件工程師需要幾只手?#硬件工程師 #YXC晶振 #揚(yáng)興科技 #搞笑

    硬件工程師
    揚(yáng)興科技
    發(fā)布于 :2025年04月25日 17:15:37

    硬件工程師:回答我!#回答我 #硬件工程師 #YXC晶振 #揚(yáng)興科技

    硬件工程師
    揚(yáng)興科技
    發(fā)布于 :2025年03月25日 18:46:59

    一招拿捏電子工程師#被AI拿捏了 #電子工程師 #電子電工

    電子工程師
    安泰小課堂
    發(fā)布于 :2025年03月25日 17:30:51

    嵌入式工程師常用的開發(fā)工具有哪些?

    嵌入式工程師常用的開發(fā)工具有哪些? 在嵌入式系統(tǒng)開發(fā)的廣闊領(lǐng)域中,嵌入式工程師們憑借著一系列強(qiáng)大的工具,將創(chuàng)意與技術(shù)完美融合,打造出高效、可靠的嵌入式系統(tǒng)。以下是一些嵌入式
    發(fā)表于 12-20 15:29

    圖像算法工程師的利器——SpeedDP深度學(xué)習(xí)算法開發(fā)平臺(tái)

    隨著人工智能的興起,AI工程師特別是基于圖像的算法工程師日益成為炙手可熱的香餑餑。特別是在一些行業(yè)市場(chǎng)例如工業(yè)領(lǐng)域等行業(yè)領(lǐng)域,需要根據(jù)具體場(chǎng)景對(duì)檢測(cè)識(shí)別算法進(jìn)行不斷地優(yōu)化完善,以達(dá)到更
    的頭像 發(fā)表于 11-08 01:06 ?826次閱讀
    圖像<b class='flag-5'>算法</b><b class='flag-5'>工程師</b>的利器——SpeedDP深度學(xué)習(xí)<b class='flag-5'>算法</b><b class='flag-5'>開發(fā)</b>平臺(tái)

    FPGA算法工程師、邏輯工程師、原型驗(yàn)證工程師有什么區(qū)別?

    ,共同進(jìn)步。 歡迎加入FPGA技術(shù)微信交流群14群! 交流問題(一) Q:FPGA中的FPGA算法工程師、FPGA邏輯工程師、FPGA原型驗(yàn)證工程師三者有什么區(qū)別? A:FPGA
    發(fā)表于 09-23 18:26

    求LORA技術(shù)開發(fā)工程師合作

    求LORA技術(shù)開發(fā)工程師合作
    發(fā)表于 09-02 10:21

    正是拼的年紀(jì)|65歲電子工程師上班VLOG #65歲退休 #電子工程師 #搞笑 #上班vlog

    電子工程師
    安泰小課堂
    發(fā)布于 :2024年07月25日 11:31:02