近期,2025全球人工智能技術(shù)大會(huì)(GAITC2025)于杭州盛大開幕,匯聚全球頂尖科學(xué)家、技術(shù)領(lǐng)袖及行業(yè)先鋒,共同探討人工智能技術(shù)產(chǎn)業(yè)化新趨勢(shì)。京東零售AI Infra &大數(shù)據(jù)計(jì)算負(fù)責(zé)人張科受邀出席并在《行業(yè)大模型應(yīng)用與發(fā)展》論壇發(fā)表演講,首次深入介紹京東零售在端云一體大模型推理架構(gòu)的實(shí)戰(zhàn)經(jīng)驗(yàn)與技術(shù)探索,并分享AI推理方向的未來發(fā)展思考。以下為張科分享實(shí)錄,內(nèi)容經(jīng)編輯略有刪減:
電商場(chǎng)景AI推理的挑戰(zhàn)
大模型技術(shù)突飛猛進(jìn),大模型不僅是算法和算力的集合體,更是產(chǎn)業(yè)智能化的新底座,正在推動(dòng)AI從“可用”向“好用、可控、可信”邁進(jìn)。電商場(chǎng)景作為AI技術(shù)的應(yīng)用場(chǎng),逐步形成了三個(gè)主要的需求方向:
Generative AI
(如AI生成商品圖、短視頻、AI營(yíng)銷內(nèi)容生成、AI數(shù)字人)、
Agentic AI
(如AI客服與售后管理、AI經(jīng)營(yíng)托管、AI倉(cāng)配優(yōu)化 、AI交互式推薦)、
Physical AI
(如自動(dòng)分揀機(jī)器人、智能空間、自動(dòng)駕駛)。在復(fù)雜場(chǎng)景與多元需求的驅(qū)動(dòng)下,AI推理正面臨一系列技術(shù)挑戰(zhàn),包括輸入類型多樣、用戶需求優(yōu)先級(jí)不同;端(如手機(jī))和云(服務(wù)器)之間任務(wù)分配難、協(xié)同優(yōu)化難;模型壓縮和性能優(yōu)化等問題。
京東零售聯(lián)合清華大學(xué)推出 xLLM 端云一體大模型推理架構(gòu)
2022年起,京東與清華大學(xué)開啟深度合作,在計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、推薦系統(tǒng)、大數(shù)據(jù)等領(lǐng)域聯(lián)合開展了十余項(xiàng)課題研究。今年雙方進(jìn)一步拓展合作邊界,新增
大模型推理引擎國(guó)產(chǎn)化、多模態(tài)推薦大模型
等前沿方向,聚焦整合技術(shù)資源與學(xué)術(shù)優(yōu)勢(shì),共同探索前沿技術(shù)創(chuàng)新,推動(dòng)科研成果向?qū)嶋H生產(chǎn)力轉(zhuǎn)化。自今年初大模型推理引擎國(guó)產(chǎn)化合作開展以來,京東零售和清華大學(xué)一起在大模型量化壓縮、端-云協(xié)同推理引擎等方向聯(lián)合攻堅(jiān),并提出“xLLM 端云一體大模型推理架構(gòu)”,以解決推理引擎的性能優(yōu)化問題、助力大模型技術(shù)在復(fù)雜電商環(huán)境的規(guī)?;涞?。通過端云聯(lián)合部署,實(shí)現(xiàn)高效協(xié)同推理。利用終端用戶數(shù)據(jù)和反饋,云端模型持續(xù)優(yōu)化并實(shí)時(shí)更新終端輕量化模型,形成閉環(huán)進(jìn)化系統(tǒng),提高模型在實(shí)際場(chǎng)景中的性能。該架構(gòu)還可適應(yīng)不同終端設(shè)備資源限制,實(shí)現(xiàn)大模型更廣泛復(fù)用。
xLLM端云一體大模型推理架構(gòu)中的技術(shù)探索還表現(xiàn)在以下4個(gè)方面:
1.自適應(yīng)調(diào)度優(yōu)化:
動(dòng)態(tài)調(diào)整Prefill與Decode節(jié)點(diǎn)比例,實(shí)現(xiàn)動(dòng)態(tài)的自適應(yīng)彈性PD能力。
2.在離線統(tǒng)一調(diào)度:
根據(jù)負(fù)載實(shí)時(shí)調(diào)度在離線請(qǐng)求,實(shí)現(xiàn)請(qǐng)求級(jí)別的在離線混部的能力。
3.多層流水線執(zhí)行:
最大化資源利用率,通過調(diào)度和模型執(zhí)行異步流水線、不同Layer的計(jì)算和通信異步流水線、不同計(jì)算單元、訪存并行流水線的多層流水線執(zhí)行。
4.端云Agent協(xié)同:
端Agent處理簡(jiǎn)單任務(wù)與隱私數(shù)據(jù),云 Agent 不斷反饋優(yōu)化,提升端 Agent 能力,并基于高效 Agent 協(xié)議協(xié)同。目前該推理架構(gòu)已經(jīng)在內(nèi)部多個(gè)場(chǎng)景應(yīng)用,在可交互式導(dǎo)購(gòu)、商品對(duì)比、商品總結(jié)、購(gòu)物建議等環(huán)節(jié),大幅提升了響應(yīng)速度,節(jié)省了計(jì)算成本,同時(shí)還有效助力了用戶的活躍度。在核心的商品理解環(huán)節(jié),也有效提升了大模型的理解能力和信息處理能力,模型推理成本最高可節(jié)省70%。
AI推理方向的未來思考
在現(xiàn)有技術(shù)探索的基礎(chǔ)上,未來京東還將持續(xù)加大對(duì)國(guó)產(chǎn) AI 基礎(chǔ)設(shè)施的投入力度,著力構(gòu)筑自主可控的技術(shù)生態(tài)體系。京東將重點(diǎn)聚焦三大前沿方向展開深入研究:
破解規(guī)模、效率、成本的 “不可能三角”、推進(jìn)(端云)多智能體異步自進(jìn)化、端云分布式推理的可解釋和可調(diào)試
。通過上述布局,京東希望逐步實(shí)現(xiàn)主流國(guó)產(chǎn)芯片的深度適配優(yōu)化,并基于自主研發(fā)的大模型推理框架,推動(dòng)技術(shù)效率達(dá)到國(guó)際先進(jìn)水平。也希望和業(yè)界同行共探技術(shù)邊界、一起前行。
審核編輯 黃宇
-
AI
+關(guān)注
關(guān)注
88文章
35136瀏覽量
279763 -
人工智能
+關(guān)注
關(guān)注
1806文章
49014瀏覽量
249432 -
大模型
+關(guān)注
關(guān)注
2文章
3141瀏覽量
4066
發(fā)布評(píng)論請(qǐng)先 登錄
DeepSeek賦能,大模型一體機(jī)破解企業(yè)AI落地難題

首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手
硅基覺醒已至前夜,聯(lián)發(fā)科攜手生態(tài)加速智能體化用戶體驗(yàn)時(shí)代到來
華為發(fā)布云網(wǎng)端一體化網(wǎng)絡(luò)安全解決方案
中科曙光助力天翼云打造“翼政通”大模型一體機(jī)
壁仞科技推出阿里QWQ-32B大模型一體機(jī)

標(biāo)普云DeepSeek一體機(jī)發(fā)布:零門檻部署企業(yè)DeepSeek
曙光云發(fā)布DeepSeek大模型超融合一體機(jī)
曙光云推出DeepSeek大模型一體機(jī)
云從科技從容大模型訓(xùn)推一體機(jī)成功適配DeepSeek

評(píng)論