99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

京東零售基于國(guó)產(chǎn)芯片的AI引擎技術(shù)

京東云 ? 來源:jf_75140285 ? 作者:jf_75140285 ? 2025-07-08 15:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一、前言

隨著大模型的廣泛應(yīng)用,作為人工智能三大支柱之一的AI算力,已經(jīng)成為競(jìng)爭(zhēng)的焦點(diǎn)。從模型訓(xùn)練到推理,算力存在于大模型生命周期的每一環(huán),極大程度地影響著模型在實(shí)際業(yè)務(wù)場(chǎng)景的性能與效果。面對(duì)京東海量數(shù)據(jù)的各種場(chǎng)景,缺乏堅(jiān)實(shí)的算力基礎(chǔ)就猶如高樓大廈沒有穩(wěn)固的地基,上層的算法/數(shù)據(jù)無(wú)法發(fā)揮其作用。

而隨著美國(guó)相繼出臺(tái)的高端AI芯片禁令,如何保障集團(tuán)的算力安全成為一個(gè)我們無(wú)法回避的問題。2024年12月3日,中國(guó)半導(dǎo)體行業(yè)協(xié)會(huì)、中國(guó)汽車工業(yè)協(xié)會(huì)、中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)、中國(guó)通信企業(yè)協(xié)會(huì)集體發(fā)布聲明,針對(duì)美國(guó)對(duì)華采取的出口限制表示堅(jiān)決反對(duì),認(rèn)為美國(guó)相關(guān)芯片產(chǎn)品不再安全、不再可靠。四協(xié)會(huì)建議相關(guān)企業(yè)謹(jǐn)慎采購(gòu)美國(guó)芯片,擴(kuò)大與其他國(guó)家和地區(qū)芯片企業(yè)合作,積極使用內(nèi)外資企業(yè)在華生產(chǎn)制造的芯片,呼吁中國(guó)政府支持可靠半導(dǎo)體產(chǎn)品供應(yīng)商的穩(wěn)定發(fā)展。

如何在京東業(yè)務(wù)場(chǎng)景讓國(guó)產(chǎn)芯片可用、好用,是一個(gè)亟需解決的問題。然而,我們發(fā)現(xiàn)這并非易事,存在著以下挑戰(zhàn):

1. 硬件架構(gòu)差異顯著

在過去,京東底層算力集群主要圍繞GPU進(jìn)行建設(shè),而國(guó)產(chǎn)NPU與GPU硬件架構(gòu)差異大,且京東零售業(yè)務(wù)場(chǎng)景訴求多樣、數(shù)據(jù)與模型體量龐大,需提升集群對(duì)多種異構(gòu)芯片的兼容性及統(tǒng)一靈活調(diào)度能力,充分挖掘國(guó)產(chǎn)芯片算力,從而保障集群中不同類型的國(guó)產(chǎn)芯片被最大化利用的同時(shí),能夠有序、高效地為業(yè)務(wù)提供算力支持。

2. 軟件生態(tài)尚未成熟

當(dāng)前各開源模型或訓(xùn)練推理框架并不直接提供針對(duì)國(guó)產(chǎn)NPU的解決方案,而國(guó)產(chǎn)NPU軟件生態(tài)尚不成熟。這意味著開發(fā)人員從 GPU 遷移至國(guó)產(chǎn)NPU包含精度校驗(yàn)、性能調(diào)優(yōu)等復(fù)雜的適配工作,面臨著巨大的遷移成本,嚴(yán)重影響算法開發(fā)與業(yè)務(wù)迭代效率。

我們看到,GPU芯片能成為大多數(shù)人第一選擇的原因,核心并不在于其產(chǎn)品硬件性能更強(qiáng),而是因?yàn)樗麄儤?gòu)建了十分完善的CUDA生態(tài)。開發(fā)人員基于GPU的開發(fā)工作無(wú)需感知底層硬件的架構(gòu),能夠更加關(guān)注模型開發(fā)與業(yè)務(wù)邏輯。

3. 業(yè)務(wù)場(chǎng)景需求多樣且復(fù)雜

京東零售業(yè)務(wù)場(chǎng)景豐富復(fù)雜,各場(chǎng)景在模型選型、性能要求等方面差異巨大,解決方案不僅需要高效、統(tǒng)一,還必須能夠靈活適配各業(yè)務(wù)場(chǎng)景,實(shí)現(xiàn)“1套方案、N種應(yīng)用”。

?

wKgZPGhsyWyAbXIbAAJPJVE1sx0095.png

以PyTorch為例,通用模型從GPU遷移至華為昇騰NPU流程示例,圖像來自昇騰官網(wǎng)模型開發(fā)文檔?

?

以上痛點(diǎn)的核心在于,缺乏一套基于國(guó)產(chǎn)NPU的端到端訓(xùn)練推理解決方案,支持算法人員無(wú)感知地從GPU遷移至國(guó)產(chǎn)NPU。在此背景下,九數(shù)算法中臺(tái)從集群網(wǎng)絡(luò)到訓(xùn)練推理引擎建設(shè),推出了高效、統(tǒng)一、靈活的基于國(guó)產(chǎn)芯片的AI引擎技術(shù)。在接下來的章節(jié),將為您詳細(xì)介紹九數(shù)算法中臺(tái)如何搭建起這樣的生態(tài)系統(tǒng),使得國(guó)產(chǎn)芯片在京東零售“落地有聲”。

?

二、基于國(guó)產(chǎn)芯片的AI引擎技術(shù)

2.1 整體技術(shù)架構(gòu)

wKgZO2hsyW6ATk-LAAO_nSJjkW8662.png

項(xiàng)目架構(gòu)圖

?

2.2 GPU與NPU異構(gòu)混合調(diào)度系統(tǒng)

為了保障京東零售業(yè)務(wù)場(chǎng)景多樣復(fù)雜的芯片使用訴求,九數(shù)算法中臺(tái)基于高性能計(jì)算網(wǎng)絡(luò)搭建千卡規(guī)模集群,支持國(guó)產(chǎn)NPU與GPU相同的調(diào)度能力,通過統(tǒng)一的配額分配、調(diào)撥體系支持開發(fā)人員無(wú)感知靈活調(diào)度國(guó)產(chǎn)NPU與GPU。由于算力資源長(zhǎng)期處于滿負(fù)荷運(yùn)行狀態(tài),九數(shù)算法中臺(tái)采取了多種措施來最大程度助力算法同學(xué)極致利用算力資源、更高效地完成算法工作,在保證業(yè)務(wù)穩(wěn)定、易用基礎(chǔ)上提升資源利用率,節(jié)約集團(tuán)IT資源成本,充分挖掘NPU硬件能力,實(shí)現(xiàn)國(guó)產(chǎn)NPU芯片到從“單片可用”跨越至“集群好用”:

?千卡集群:為保障千卡規(guī)模以及RDMA互聯(lián)網(wǎng)絡(luò)模式下的集群穩(wěn)定性,九數(shù)算法中臺(tái)支持了全面的可視化監(jiān)控系統(tǒng),涵蓋了NPU卡、網(wǎng)卡、光模塊等關(guān)鍵組件,還支持了NPU卡健康檢查、故障自動(dòng)隔離,故障上報(bào)業(yè)務(wù)容器與自動(dòng)告警能力,以便業(yè)務(wù)可以及時(shí)干預(yù)和解決問題。另外持續(xù)跟進(jìn)新版本HDK,不斷提升集群的穩(wěn)定性。

?調(diào)度優(yōu)化 :調(diào)度算法在NPU服務(wù)器獨(dú)特的卡互聯(lián)拓?fù)浣Y(jié)構(gòu)上兼容了原有GPU上的優(yōu)化,兼顧算法任務(wù)性能、集群利用率與業(yè)務(wù)公平。關(guān)鍵特性如:

?NUMA感知和網(wǎng)絡(luò)拓?fù)涓兄{(diào)度:識(shí)別CPU NUMA和網(wǎng)絡(luò)拓?fù)?,確保任務(wù)被分配到最優(yōu)的計(jì)算和網(wǎng)絡(luò)資源上,從而最大化任務(wù)的執(zhí)行效率。

?資源碎片最小化:采用了多種調(diào)度策略,如Gang、BinPack和節(jié)點(diǎn)資源預(yù)留,來減少資源的碎片化,提高集群的整體占用率。

?可配置的優(yōu)先級(jí)驅(qū)逐機(jī)制:該機(jī)制為用戶提供了配額保障和搶占能力,確保重要任務(wù)能夠及時(shí)執(zhí)行。同時(shí),它也支持根據(jù)任務(wù)的優(yōu)先級(jí)隊(duì)列來維護(hù)業(yè)務(wù)之間的公平性,提供更好的用戶體驗(yàn)。

?高效使用:為了給用戶提供更靈活的計(jì)算資源以及更好的利用集群資源,國(guó)產(chǎn)NPU與GPU共同遵循資源隊(duì)列機(jī)制。資源隊(duì)列是為了關(guān)聯(lián)某一資源隊(duì)列的用戶提供保障資源量(MIN)和共享資源量(MAX),多個(gè)資源組通過關(guān)聯(lián)資源隊(duì)列的方式,既可有一定資源的保障量,同時(shí)可共享集群空閑資源,從而提高集群資源整體的使用率,進(jìn)而達(dá)到國(guó)產(chǎn)NPU的最大化利用。

?

2.3 高性能訓(xùn)練引擎

九數(shù)高性能訓(xùn)練引擎,經(jīng)過深度優(yōu)化和架構(gòu)升級(jí),完成對(duì)超過40種涵蓋LLM、多模態(tài)等主流底座模型的全面適配和優(yōu)化,包括但不限于LLM、多模態(tài)系列和文生圖、文生視頻系列,實(shí)現(xiàn)了對(duì)NPU算力的全面兼容。該引擎采用高度抽象的API接口,實(shí)現(xiàn)了一套API下NPU和GPU用戶無(wú)感、0成本無(wú)縫切換訓(xùn)練,為京東零售算力提供了堅(jiān)實(shí)的安全保障;同時(shí)通過集成模型并行、序列并行,低精度通信,通信計(jì)算融合等技術(shù),大幅提升了模型訓(xùn)練的吞吐量,為京東零售的智能計(jì)算提供了強(qiáng)有力的支撐。其主要特性如下:

?覆蓋主流LLM、多模態(tài)底座:30+ LLM、10+ 多模態(tài)主流底座模型覆蓋,一套API下NPU和GPU用戶無(wú)感、0成本無(wú)縫切換訓(xùn)練。

?覆蓋LLM訓(xùn)練全流程:涵蓋從數(shù)據(jù)、訓(xùn)練模式,打標(biāo)/評(píng)測(cè)離線全鏈路能力,支持3類數(shù)據(jù)生成方式、11類指令/對(duì)齊微調(diào)能力、20類通用/垂類評(píng)測(cè)。

?軟硬協(xié)同深度優(yōu)化:通過Triton編譯和CANN融合技術(shù)對(duì)熱點(diǎn)算子(如flash attention、rotary_embedding、npu_matmul_add_fp32等)進(jìn)行精細(xì)調(diào)優(yōu),實(shí)施鋸齒Attention、動(dòng)態(tài)輸入拼接、全子圖下發(fā)以及重計(jì)算流水線的獨(dú)立調(diào)度和自適應(yīng)重計(jì)算等深度優(yōu)化措施,實(shí)現(xiàn)了百卡 MFU達(dá)60%。同時(shí),通過權(quán)重更新通信隱藏、CoC計(jì)算通信并行、啟發(fā)式自動(dòng)并行策略搜索、BF16低精度通信和多機(jī)間RDMA通信等技術(shù),達(dá)到了百卡擴(kuò)展系數(shù)0.93,從而實(shí)現(xiàn)了千億至萬(wàn)億參數(shù)模型訓(xùn)練的近線性橫向擴(kuò)展。

?高可用性訓(xùn)練能力:采用Token預(yù)緩存技術(shù)和分鐘級(jí)的異步Checkpoint保存機(jī)制,結(jié)合按需快照即時(shí)下發(fā),將啟動(dòng)時(shí)間從小時(shí)級(jí)別降至分鐘級(jí)別,同時(shí)將模型存時(shí)間減少了超過90%,整體訓(xùn)練效率提高了15%,確保在發(fā)生故障時(shí)能夠迅速恢復(fù)訓(xùn)練任務(wù)。

模型 規(guī)模 離線訓(xùn)練 高效離線推理
GPU 國(guó)產(chǎn)NPU GPU 國(guó)產(chǎn)NPU
SR1.5 搜推電商領(lǐng)域大模型 3B/7B/15B ? ? ? ?
Qwen2.5 0.5B/1.5B/3B/7B/14B ? ? ? ?
Qwen2.5 34B/72B ? ? ? ?
ChatGLM2 6B ? ? ? ?
ChatGLM3 6B ? ? ? ?
GLM4 9B ? ? ? ?
Qwen 1.8B/7B/14B ? ? ? ?
Qwen-1.5 0.5B/1.8B/4B/7B/14B ? ? ? ?
Qwen-1.5 32B/72B/110B ? ? ? ?
Qwen-2 0.5B/1.5B/7B ? ? ? ?
Qwen-2 72B ? ? ? ?
LLama2 7B/13B ? ? ? ?
LLama3 8B ? ? ? ?
LLama3 70B ? ? ? ?
LLama3.1 8B ? ? ? ?
LLama3.1 70B ? ? ? ?
YI 6B/34B ? ? ? ?
YI-1.5 6B/9B ? ? ? ?
YI-1.5 34B ? ? ? ?
Baichuan2 7B/13B ? ? ? ?
Bloom-z 7B ? ? ? ?
Gemma 2B/7B ? ? ? ?

九數(shù)訓(xùn)練引擎LLM模型支持概況

?

在使用NPU進(jìn)行模型訓(xùn)練時(shí),開發(fā)人員無(wú)需進(jìn)行精度對(duì)齊、框架適配等工作,僅需基于實(shí)際業(yè)務(wù)訴求,關(guān)注數(shù)據(jù)準(zhǔn)備、參數(shù)配置、驗(yàn)證評(píng)估等訓(xùn)練流程,選擇NPU對(duì)應(yīng)型號(hào),即可快速提交訓(xùn)練任務(wù),實(shí)現(xiàn)基于NPU業(yè)務(wù)的高效迭代優(yōu)化。

?

2.4 高性能推理引擎

與訓(xùn)練引擎類似,九數(shù)算法中臺(tái)針對(duì)國(guó)產(chǎn)NPU建設(shè)高性能推理引擎,支持MaaS開箱即用部署(服務(wù)化部署托管),實(shí)現(xiàn)基于國(guó)產(chǎn)NPU的一鍵部署,內(nèi)置20+業(yè)界通用LLM大模型。通過模型量化、編譯優(yōu)化等手段進(jìn)行推理加速,滿足業(yè)務(wù)在大模型場(chǎng)景下對(duì)于高效問答的訴求,性能相比業(yè)界開源框架提升20%。

?MaaS開箱即用:基于九數(shù)EA部署,實(shí)現(xiàn)昇騰NPU的一鍵部署,API兼容OpenAI和Triton協(xié)議,支持流式推理,與GPU方案保持一致。

?主流SOTA模型支持:支持Baichuan、ChatGLM、Qwen、Llama等20+主流模型的端到端推理;

?性能優(yōu)化:

?模型優(yōu)化:計(jì)算方面通過GE圖編譯優(yōu)化和ATB高性能算子技術(shù)對(duì)Paged Attention、Flash Attention、Sub_Mul_Concat等操作進(jìn)行深度優(yōu)化,實(shí)現(xiàn)整圖下發(fā)能力,通過算子setup(workspace、tiling)、下發(fā)、計(jì)算實(shí)現(xiàn)流水線并行,有效隱藏了算子調(diào)度開銷。同時(shí)支持W8A8 SmoothQuant量化、W4A16 AWQ量化技術(shù),顯著較少了計(jì)算量與訪存密度。

?框架優(yōu)化:調(diào)度方面實(shí)現(xiàn)了Prefill/Decode分離技術(shù),在部分場(chǎng)景下有效提高推理速度,通過KV cache、Prefix cache等緩存技術(shù)減少重復(fù)計(jì)算。

?監(jiān)控告警體系:支持可視化監(jiān)控系統(tǒng),包括服務(wù)吞吐、失敗率、整體延時(shí)等服務(wù)化監(jiān)控指標(biāo)。同時(shí),用戶也可根據(jù)實(shí)際需求配置對(duì)應(yīng)指標(biāo)的告警系統(tǒng)。

類別 當(dāng)前支持模型
LLM Baichuan2-7B
Baichuan2-13B
ChatGLM2-6B
ChatGLM2-13B
ChatGLM3-6B
Qwen-1.8B
Qwen-7B
Qwen-14B
Qwen-72B
Qwen-VL
Qwen1.5-1.8B
Qwen1.5-7B
Qwen1.5-14B
Qwen1.5-72B
Qwen2-7B
Qwen2-72B
Llama2-7B
Llama2-13B
Llama2-70B
Llama3-8B
BLOOM-7B
Gemma-7B
internlm
多模態(tài) SD1.5
SDXL
Mistral-7B

九數(shù)推理引擎NPU支持模型概況

?

同時(shí),在大規(guī)模搜推廣場(chǎng)景,本項(xiàng)目也支持基于NPU的搜推廣模型推理,通過開發(fā)融合Pass及融合kernel,滿足搜索推薦廣告系統(tǒng)對(duì)于在線推理服務(wù)高吞吐、低延遲的訴求。

?

三、落地場(chǎng)景

?案例一:視頻內(nèi)容Tag云標(biāo)簽生成場(chǎng)景

多模態(tài)大模型在京東零售業(yè)務(wù)場(chǎng)景存在廣泛的應(yīng)用,而算力是影響圖像、視頻計(jì)算任務(wù)的關(guān)鍵卡點(diǎn)。其中,數(shù)字內(nèi)容相關(guān)業(yè)務(wù)期望基于NPU,利用Qwen2 VL模型對(duì)視頻的多模態(tài)信息進(jìn)行分析,抽取能夠表征視頻的一系列關(guān)鍵詞。但當(dāng)前Qwen2 VL開源代碼僅支持GPU推理,暫未提供NPU解決方案,Qwen2 VL運(yùn)行在國(guó)產(chǎn)NPU上存在算子優(yōu)化、推理加速等適配工作。

通過使用九數(shù)算法中臺(tái)的NPU高性能推理框架,業(yè)務(wù)可將模型快速部署至線上場(chǎng)景。業(yè)務(wù)僅需選擇模型與NPU資源量,即可完成模型的在線部署,無(wú)需關(guān)心Qwen2 VL從GPU遷移至NPU的繁瑣流程。

目前,該案例共部署數(shù)十卡國(guó)產(chǎn)NPU,用于內(nèi)容Tag云標(biāo)簽生成工作,與GPU比對(duì)效果無(wú)明顯差異。在輸出Token數(shù)量一致的前提下,二者平均響應(yīng)時(shí)長(zhǎng)基本保持一致。

?

wKgZPGhsyW-AXdBJAAVruNycnDo213.png

?案例二、物流大模型場(chǎng)景

如何將國(guó)產(chǎn)芯片和物流場(chǎng)景有機(jī)結(jié)合,是電商領(lǐng)域亟需解決的問題。

在京東物流大模型場(chǎng)景中,業(yè)務(wù)方期望基于910B將Qwen2-7B在地址解析、地址編碼、地址分類等任務(wù)進(jìn)行上訓(xùn)練。由于Qwen2-7B開源項(xiàng)目未提供NPU訓(xùn)練方案,該業(yè)務(wù)利用九數(shù)算法中臺(tái)提供的統(tǒng)一訓(xùn)練框架,基于框架底座開源模型進(jìn)行了Pretrain、SFT、RL適配。

基于NPU微調(diào)的模型與基于GPU微調(diào)的模型在地址解析等任務(wù)的訓(xùn)練結(jié)果分別達(dá)到了91.03%與91.08%,二者表現(xiàn)基本一致。目前,基于NPU的訓(xùn)練產(chǎn)物已應(yīng)用在多個(gè)業(yè)務(wù)場(chǎng)景中。在預(yù)分揀分單場(chǎng)景已上線多個(gè)省份,在地址分類任務(wù)上已經(jīng)刷新4600萬(wàn)條母庫(kù)POI數(shù)據(jù)的多級(jí)分類標(biāo)簽,在人工預(yù)分揀地址異常識(shí)別中每天識(shí)別3萬(wàn)條以上地址。

#Input_1
青海省西寧市城北區(qū)三其村。 可以發(fā)圓通嗎 謝謝。

#Output-NPU(國(guó)產(chǎn)NPU)
青海省_1,西寧市_3A,城北區(qū)_3A,三其村_4B, _5A-1,可以發(fā)圓通嗎 謝謝_UNK,

#Output-GPU(GPU)
青海省_1,西寧市_3A,城北區(qū)_3A,三其村_4B, _5A-1,可以發(fā)圓通嗎 謝謝 _UNK

?

?案例三、商家側(cè)智能助手

基于大模型的客服Agent已成為電商領(lǐng)域的新趨勢(shì)。其中,在商家側(cè)智能助手的案例中,業(yè)務(wù)側(cè)期望使用過往沉淀QA數(shù)據(jù),基于Qwen1.5 7B進(jìn)行微調(diào),實(shí)現(xiàn)模型針對(duì)商家問題進(jìn)行分析,并將任務(wù)分配給下游工具處理。

由于Qwen1.5系列開源模型暫未提供針對(duì)NPU的微調(diào)方案,該案例利用九數(shù)算法中臺(tái)提供統(tǒng)一訓(xùn)練框架,基于框架底座開源模型進(jìn)行微調(diào)。

通過測(cè)試對(duì)比,國(guó)產(chǎn)NPU微調(diào)的模型與基于GPU微調(diào)的模型分析結(jié)果相似,且96%問題分配下游工具相同。對(duì)比模型分配的工具(pred_tool)和人工標(biāo)注的工具(tool_gt)并綜合打分,二者得分相近。

#Input_1
上架寶貝數(shù)怎么看?
#Output-國(guó)產(chǎn)NPU
{...'tool_name':' business_expert, 'query':'如何查看已上架的商品數(shù)量?'...}
#Output-GPU
{...'tool_name':' business_expert, 'query':'如何查看已上架的商品數(shù)量?'...}

#Input_2
為啥我不能提報(bào)活動(dòng)了?
#Output-國(guó)產(chǎn)NPU
{...'tool_name':' business_expert, 'query':'為什么商家不能提報(bào)活動(dòng),以及如何解決提報(bào)問題?'...}
#Output-GPU
{...'tool_name':' business_expert, 'query':'商家無(wú)法提報(bào)活動(dòng)的可能原因及解決方案是什么?'...}

四、應(yīng)用價(jià)值

目前,京東零售基于國(guó)產(chǎn)芯片的AI引擎技術(shù)已在十余個(gè)業(yè)務(wù)場(chǎng)景落地,為加速國(guó)產(chǎn)芯片破局、打造開放生態(tài)探尋新思路。

?核心技術(shù)自主且可控:通過使用國(guó)產(chǎn)算力芯片,有效降低了對(duì)海外芯片的依賴,確保了算法與算力方面的安全性。這一自主可控的技術(shù)體系涵蓋底層硬件至上層應(yīng)用,使京東零售在快速變化的國(guó)際環(huán)境中保持穩(wěn)健和高效的運(yùn)轉(zhuǎn)。

?國(guó)產(chǎn)芯片應(yīng)用性提升:國(guó)內(nèi)電商領(lǐng)域業(yè)務(wù)的復(fù)雜性和多樣性為國(guó)產(chǎn)算力的應(yīng)用提供了廣泛的實(shí)踐機(jī)遇。當(dāng)前的引擎能力已應(yīng)用于搜索推薦、廣告創(chuàng)意生成、智能客服和數(shù)據(jù)自動(dòng)分析等多個(gè)場(chǎng)景。通過這些實(shí)踐,不僅顯著提升實(shí)際業(yè)務(wù)效能,也為國(guó)產(chǎn)算力在真實(shí)商業(yè)環(huán)境中的應(yīng)用提供了寶貴的經(jīng)驗(yàn)反饋,從而反哺國(guó)產(chǎn)算力技術(shù)生態(tài)發(fā)展、成熟、普惠。

?

五、行業(yè)影響力

在實(shí)現(xiàn)了基于國(guó)產(chǎn)算力的一系列技術(shù)突破后,我們將沉淀的技術(shù)經(jīng)驗(yàn)進(jìn)一步轉(zhuǎn)化為在集團(tuán)內(nèi)外的影響力,彰顯京東零售的技術(shù)領(lǐng)先性和行業(yè)責(zé)任感:

?2024年,京東零售開始作為理事單位,與華為昇騰共建Openmind開源社區(qū);

?7月,在上海舉辦的昇騰人工智能產(chǎn)業(yè)高峰論壇上,京東作為華為昇騰邀請(qǐng)11家生態(tài)伙伴及客戶中的一員,聯(lián)合華為發(fā)布了基于昇騰大模型推理解決方案的五大場(chǎng)景優(yōu)秀實(shí)踐。

?7月,基于國(guó)產(chǎn)芯片的AI引擎技術(shù)項(xiàng)目榮獲京東零售平臺(tái)產(chǎn)品與研發(fā)中心618大促技術(shù)敢打獎(jiǎng)。

?9月,在第九屆華為全聯(lián)接大會(huì)(HUAWEI CONNECT 2024)上,項(xiàng)目主力成員獲得優(yōu)秀昇騰原生開發(fā)者的獎(jiǎng)項(xiàng)。

wKgZPGhsyXSAU-T4AByaS5yuda0986.png

24年7月,昇騰大模型推理解決方案正式發(fā)布暨五大場(chǎng)景優(yōu)秀實(shí)踐,圖源昇騰官網(wǎng)新聞資訊:https://www.hiascend.com/activities/dynamic-news/451?

?

?

六、未來規(guī)劃

?萬(wàn)卡集群建設(shè)

隨著業(yè)界主流模型體量不斷擴(kuò)大,百B甚至千B級(jí)模型的訓(xùn)推訴求愈發(fā)迫切。為了滿足京東零售在大規(guī)模計(jì)算場(chǎng)景的訴求,集群將在25年實(shí)現(xiàn)萬(wàn)卡級(jí)別高性能網(wǎng)絡(luò)及調(diào)度能力,助力大體量模型業(yè)務(wù)發(fā)展。同時(shí),九數(shù)算法中臺(tái)將持續(xù)擴(kuò)充集群支持的芯片類型,允許GPU、國(guó)產(chǎn)NPU在集群內(nèi)被混合調(diào)度。通過這樣的集群生態(tài)建設(shè),一方面能夠讓京東算法業(yè)務(wù)不依賴于單家廠商,保障了集團(tuán)的算力安全和可持續(xù)發(fā)展;另一方面,也讓算法業(yè)務(wù)在算力調(diào)度上有更加多元的選擇。

除了進(jìn)行集群的升級(jí),九數(shù)算法中臺(tái)還將進(jìn)一步優(yōu)化國(guó)產(chǎn)芯片的調(diào)度策略,通過應(yīng)急資源池、資源智能預(yù)測(cè)、動(dòng)態(tài)擴(kuò)縮容等手段保障各業(yè)務(wù)都能夠合理、高效地用上國(guó)產(chǎn)芯片,全面挖掘國(guó)產(chǎn)芯片算力性能。

?國(guó)產(chǎn)算力生態(tài)建設(shè)

京東零售將在2025年持續(xù)深入與國(guó)產(chǎn)頭部芯片廠商的合作,共同助力京東零售AI數(shù)智化,作為華為昇騰AI解決方案競(jìng)爭(zhēng)力和軟件生態(tài)核心貢獻(xiàn)者。

針對(duì)自研訓(xùn)練引擎在LLM場(chǎng)景的支持,九數(shù)算法中臺(tái)將深入HCCL底層通信優(yōu)化,建立融合算子庫(kù)全面優(yōu)化性能,達(dá)到百卡/千卡MFU可至60%。針對(duì)CTR訓(xùn)練場(chǎng)景,九數(shù)算法中臺(tái)將建設(shè)業(yè)界首個(gè)同時(shí)支撐昇騰 NPU和GPU的性能領(lǐng)先的CTR大規(guī)模訓(xùn)練框架,并考慮建立開源生態(tài),支持業(yè)務(wù)無(wú)感遷移,落地在主站推薦精排、主站搜索精排場(chǎng)景。

針對(duì)自研推理引擎在LLM場(chǎng)景的支持,九數(shù)算法中臺(tái)將通過共建昇騰加速ATB算子庫(kù),擴(kuò)展LLM前后處理能力及LVM等模型,性能能夠達(dá)到業(yè)界SOTA;針對(duì)CTR推理場(chǎng)景,建設(shè)9N-Predictor NPU推理引擎,支持GPU/NPU異構(gòu)推理,并通過共建GE自動(dòng)融合優(yōu)化引擎編譯能力,最大程度發(fā)揮NPU在推薦場(chǎng)景的極致性能。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 芯片
    +關(guān)注

    關(guān)注

    460

    文章

    52520

    瀏覽量

    440965
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    279963
  • 京東
    +關(guān)注

    關(guān)注

    2

    文章

    1024

    瀏覽量

    49276
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    阿里展廳同款無(wú)人超市技術(shù)解析:RFID與AI視覺如何顛覆零售

    在阿里展廳的未來零售場(chǎng)景中,由深圳市遠(yuǎn)景達(dá)物聯(lián)網(wǎng)技術(shù)有限公司打造的無(wú)人超市正以顛覆性姿態(tài)重構(gòu)行業(yè)邏輯。這項(xiàng)融合RFID射頻識(shí)別與AI視覺技術(shù)的創(chuàng)新方案,通過物聯(lián)網(wǎng)、傳感器融合和深度學(xué)習(xí)
    的頭像 發(fā)表于 07-03 13:50 ?194次閱讀
    阿里展廳同款無(wú)人超市<b class='flag-5'>技術(shù)</b>解析:RFID與<b class='flag-5'>AI</b>視覺如何顛覆<b class='flag-5'>零售</b>?

    吉方工控?cái)y手英特爾推動(dòng)零售行業(yè)高質(zhì)量發(fā)展

    第二十五屆中國(guó)零售業(yè)博覽會(huì)同期舉辦的英特爾“從芯到質(zhì),AI重塑新零售”創(chuàng)新論壇上,英特爾中國(guó)網(wǎng)絡(luò)與邊緣技術(shù)產(chǎn)品總監(jiān)王景佳和中國(guó)連鎖經(jīng)營(yíng)協(xié)會(huì)(CCFA)副秘書長(zhǎng)楊雯發(fā)表致辭,英特爾
    的頭像 發(fā)表于 05-12 14:24 ?410次閱讀

    微軟邀您相約2025全零售AI火花大會(huì)

    零售業(yè)AI轉(zhuǎn)型已進(jìn)入深水區(qū),碎片化嘗試難破困局。5月8日至9日,由中國(guó)連鎖經(jīng)營(yíng)協(xié)會(huì)主辦的“全零售AI火花大會(huì)”將在深圳召開。微軟攜手中國(guó)移動(dòng)、海爾、瑪氏、嘉士伯等
    的頭像 發(fā)表于 04-28 11:19 ?646次閱讀

    MWC 2025 | 移遠(yuǎn)通信推出AI智能無(wú)人零售解決方案,以“動(dòng)態(tài)視覺+邊緣計(jì)算”引領(lǐng)智能零售新潮流

    在無(wú)人零售市場(chǎng)蓬勃發(fā)展的浪潮中,自動(dòng)售貨機(jī)正經(jīng)歷著從傳統(tǒng)機(jī)械式操作向AI視覺技術(shù)的重大跨越。 ? 移遠(yuǎn)通信作為全球領(lǐng)先的物聯(lián)網(wǎng)整體解決方案供應(yīng)商,精準(zhǔn)把握行業(yè)趨勢(shì),在2025世界移動(dòng)通信大會(huì)(MWC
    發(fā)表于 03-05 13:42 ?204次閱讀
    MWC 2025 | 移遠(yuǎn)通信推出<b class='flag-5'>AI</b>智能無(wú)人<b class='flag-5'>零售</b>解決方案,以“動(dòng)態(tài)視覺+邊緣計(jì)算”引領(lǐng)智能<b class='flag-5'>零售</b>新潮流

    MWC 2025 | 移遠(yuǎn)通信推出AI智能無(wú)人零售解決方案,以“動(dòng)態(tài)視覺+邊緣計(jì)算”引領(lǐng)智能零售新潮流

    在無(wú)人零售市場(chǎng)蓬勃發(fā)展的浪潮中,自動(dòng)售貨機(jī)正經(jīng)歷著從傳統(tǒng)機(jī)械式操作向AI視覺技術(shù)的重大跨越。移遠(yuǎn)通信作為全球領(lǐng)先的物聯(lián)網(wǎng)整體解決方案供應(yīng)商,精準(zhǔn)把握行業(yè)趨勢(shì),在2025世界移動(dòng)通信大會(huì)(MWC)上
    的頭像 發(fā)表于 03-04 19:02 ?463次閱讀
    MWC 2025 | 移遠(yuǎn)通信推出<b class='flag-5'>AI</b>智能無(wú)人<b class='flag-5'>零售</b>解決方案,以“動(dòng)態(tài)視覺+邊緣計(jì)算”引領(lǐng)智能<b class='flag-5'>零售</b>新潮流

    京東零售數(shù)據(jù)資產(chǎn)能力升級(jí)與實(shí)踐

    作者:京東零售 韓雷鈞 開篇 京東自營(yíng)和商家自運(yùn)營(yíng)模式,以及伴隨的多種運(yùn)營(yíng)視角、多種組合計(jì)算、多種銷售屬性等數(shù)據(jù)維度,相較于行業(yè)同等量級(jí),數(shù)據(jù)處理的難度與復(fù)雜度都顯著增加。如何從海量的數(shù)據(jù)模型與數(shù)據(jù)
    的頭像 發(fā)表于 02-21 09:50 ?479次閱讀
    <b class='flag-5'>京東</b><b class='flag-5'>零售</b>數(shù)據(jù)資產(chǎn)能力升級(jí)與實(shí)踐

    杰和科技GAM-AI視覺識(shí)別管理系統(tǒng),讓AI走進(jìn)零售營(yíng)銷

    在數(shù)字化浪潮席卷全球零售業(yè)的今天,如何精準(zhǔn)觸達(dá)顧客需求、優(yōu)化運(yùn)營(yíng)效率、提升門店業(yè)績(jī),成為實(shí)體商業(yè)破局的關(guān)鍵。GAM-AI視覺識(shí)別管理系統(tǒng)杰和科技智能零售管理系統(tǒng):GAM-AI視覺識(shí)別管
    的頭像 發(fā)表于 02-20 11:32 ?615次閱讀
    杰和科技GAM-<b class='flag-5'>AI</b>視覺識(shí)別管理系統(tǒng),讓<b class='flag-5'>AI</b>走進(jìn)<b class='flag-5'>零售</b>營(yíng)銷

    NVIDIA推出AI零售購(gòu)物助手藍(lán)圖

    NVIDIA 于近日發(fā)布了用于零售購(gòu)物助手的 NVIDIA AI Blueprint,這個(gè)生成式 AI 參考工作流旨在變革網(wǎng)購(gòu)和實(shí)體店購(gòu)物的體驗(yàn)。
    的頭像 發(fā)表于 01-14 11:17 ?607次閱讀

    物聯(lián)網(wǎng)如何改變零售行業(yè)

    零售商深知,節(jié)日的熱鬧氣氛讓顧客們忙著尋找完美的禮物和抓住年終優(yōu)惠。這一直是公司最繁忙的時(shí)期之一,客流量和銷售額大幅增加。為應(yīng)對(duì)激增的需求,零售商正轉(zhuǎn)向引入物聯(lián)網(wǎng)(IoT)技術(shù),以通過智能零售
    的頭像 發(fā)表于 01-14 09:27 ?664次閱讀

    AI技術(shù)重塑零售行業(yè)新格局

    在數(shù)字化浪潮中,AI以其強(qiáng)大的數(shù)據(jù)處理、分析和預(yù)測(cè)能力,正逐漸成為推動(dòng)各行業(yè)轉(zhuǎn)型升級(jí)的關(guān)鍵力量。AI賦能零售領(lǐng)域,重新打通“人貨場(chǎng)”的任督二脈,智慧門店、無(wú)人便利店、 AI 購(gòu)物體驗(yàn)等
    的頭像 發(fā)表于 01-13 13:38 ?695次閱讀

    如何使用藍(lán)牙技術(shù)優(yōu)化零售空間的運(yùn)營(yíng)方式

    近日,藍(lán)牙技術(shù)聯(lián)盟高級(jí)營(yíng)銷項(xiàng)目經(jīng)理Mindy Dolan有機(jī)會(huì)采訪到了高通技術(shù)公司副總裁兼零售物聯(lián)網(wǎng)全球負(fù)責(zé)人Art Miller,探討了如何使用藍(lán)牙技術(shù)優(yōu)化
    的頭像 發(fā)表于 12-30 10:32 ?820次閱讀

    英特爾亮相2024中國(guó)零售領(lǐng)袖峰會(huì)

    日前,2024中國(guó)零售領(lǐng)袖峰會(huì)在上海召開,各零售領(lǐng)軍企業(yè)負(fù)責(zé)人匯集于此,共同交流和探討如何在新時(shí)期實(shí)現(xiàn)零售的進(jìn)化。英特爾市場(chǎng)營(yíng)銷集團(tuán)副總裁,中國(guó)區(qū)OEM&ODM銷售事業(yè)部總經(jīng)理郭威,為大家?guī)砹祟}為《釋放
    的頭像 發(fā)表于 11-25 17:19 ?797次閱讀

    NVIDIA Omniverse加速零售數(shù)字化轉(zhuǎn)型

    大模型、生成式 AI、數(shù)字孿生技術(shù)等前沿科技啟發(fā)了各行各業(yè)的新業(yè)務(wù)模態(tài),在這一時(shí)代背景下 NVIDIA 作為 AI 技術(shù)的耕耘者、加速計(jì)算方面的領(lǐng)導(dǎo)者,看到了數(shù)字化浪潮中前所未有的變革
    的頭像 發(fā)表于 11-09 13:52 ?934次閱讀

    從數(shù)據(jù)驅(qū)動(dòng)到智能運(yùn)營(yíng),國(guó)產(chǎn)一體機(jī)主板賦能智慧新零售發(fā)展

    隨著科技的迅猛發(fā)展,智慧新零售逐漸成為零售行業(yè)轉(zhuǎn)型升級(jí)的重要方向。在這個(gè)過程中,國(guó)產(chǎn)一體機(jī)主板作為關(guān)鍵的硬件基礎(chǔ),發(fā)揮著巨大的作用,推動(dòng)著數(shù)據(jù)驅(qū)動(dòng)和智能運(yùn)營(yíng)的深度融合。
    的頭像 發(fā)表于 09-26 10:09 ?551次閱讀

    智慧零售國(guó)產(chǎn)工控主板在智慧零售終端中的關(guān)鍵作用

    在數(shù)字化和智能化技術(shù)不斷推進(jìn)的背景下,智慧零售不僅僅是技術(shù)的應(yīng)用,更是零售業(yè)態(tài)和商業(yè)模式的全面升級(jí)。從傳統(tǒng)的店面銷售到以數(shù)據(jù)驅(qū)動(dòng)的精準(zhǔn)營(yíng)銷和個(gè)性化服務(wù),智慧
    的頭像 發(fā)表于 09-13 10:22 ?766次閱讀