NVIDIA GPU 運(yùn)營商允許企業(yè)在 Kubernetes 上輕松擴(kuò)展 NVIDIA GPU 。
通過使用 Kubernetes 簡化 GPU 的部署和管理, GPU 運(yùn)營商使基礎(chǔ)設(shè)施團(tuán)隊(duì)能夠在幾分鐘內(nèi)自動(dòng)無誤地?cái)U(kuò)展 GPU 應(yīng)用程序。
GPU Operator 1.9 現(xiàn)已推出,其中包括幾個(gè)關(guān)鍵功能,以及其他更新,使用戶可以更快地開始使用并保持不間斷服務(wù)。
GPU 操作員 1.9 包括:
支持使用 DGX 操作系統(tǒng)的 NVIDIA DGX A100 系統(tǒng)
簡化的安裝過程
使用 DGX 操作系統(tǒng)支持 DGX A100
對(duì)于 1.9 , GPU 操作員自動(dòng)在 NVIDIA NVSwitch 系統(tǒng)上部署初始化結(jié)構(gòu)所需的軟件,包括與 DGX OS 一起使用時(shí)的 DGX A100 。一旦初始化,所有 GPU 都可以在全 NVLink 帶寬下相互通信,以創(chuàng)建端到端可擴(kuò)展計(jì)算平臺(tái)。
DGX A100 配備了世界上最先進(jìn)的加速器,使企業(yè)能夠?qū)⑴嘤?xùn)、推理和分析整合到統(tǒng)一、易于部署的 AI 基礎(chǔ)設(shè)施中。現(xiàn)在,有了 GPU 運(yùn)營商的支持,企業(yè)可以將其應(yīng)用程序從培訓(xùn)擴(kuò)展到與世界上最先進(jìn)的系統(tǒng)相匹配。
簡化的安裝過程
對(duì)于 GPU 運(yùn)營商的早期版本,使用 GPU 運(yùn)營商和 OpenShift 的組織需要從 Red Hat 申請(qǐng)額外的權(quán)利,以便成功使用 GPU 運(yùn)營商。由于授權(quán)密鑰過期,用戶需要重新應(yīng)用這些密鑰,以確保其工作流程不會(huì)中斷。
GPU Operator 1.9 現(xiàn)在支持 OpenShift 的免授權(quán)驅(qū)動(dòng)程序容器。這是通過利用 RedHat 提供的 Driver-Toolkit 映像以及為構(gòu)建 NVIDIA 內(nèi)核模塊而預(yù)先安裝的必要內(nèi)核包來實(shí)現(xiàn)的。用戶不再需要確保運(yùn)行 GPU 運(yùn)算符時(shí)始終應(yīng)用具有 RHEL 訂閱的有效證書。更重要的是,對(duì)于斷開連接的集群,它消除了對(duì)私有包存儲(chǔ)庫的依賴。
版本 1.9 還包括對(duì)帶有 MIG Manager 的預(yù)裝驅(qū)動(dòng)程序的支持,對(duì)預(yù)裝 MOFED 使用 GPUDirect RDMA 的支持,對(duì)容器運(yùn)行時(shí)的自動(dòng)檢測(cè),以及對(duì) NOUVEAU 的自動(dòng)禁用–所有這些都旨在讓用戶更容易開始并繼續(xù)使用 GPU 加速的 Kubernetes 。
此外, GPU Operator 1.9 會(huì)自動(dòng)檢測(cè)工作節(jié)點(diǎn)上安裝的容器運(yùn)行時(shí)。無需在安裝時(shí)指定容器運(yùn)行時(shí)。
GPU 操作員 1.9 :
helm install --wait --generate-name nvidia/gpu-operator
GPU 操作員 1.8 及更早版本:
helm install --wait --generate-name nvidia/gpu-operator --set operator.defaultRuntime=containerd
GPU 操作員要求禁用 Nouveau 。在以前的 GPU 操作員版本中, K8s 管理員必須按照文檔 禁用 Nouveau 。 GPU 操作員 1.9 會(huì)自動(dòng)檢測(cè) Nouveau 是否已啟用并為您禁用。
GPU 操作員資源
以下資源可用于使用 NVIDIA GPU 運(yùn)營商:
GPU 操作員 1.9 發(fā)行說明
入門指南
GPU NGC 上的操作員舵圖
GitHub 上的 GPU 運(yùn)算符
關(guān)于作者
Erik Bohnhorst 是 NVIDIA 的高級(jí)產(chǎn)品經(jīng)理,專注于云本地技術(shù),為 edge 和數(shù)據(jù)中心構(gòu)建一流的解決方案。 Erik 于 2014 年加入 NVIDIA ,以解決方案架構(gòu)師的身份幫助客戶構(gòu)建世界一流的虛擬化遠(yuǎn)程工作站。埃里克領(lǐng)導(dǎo)技術(shù)營銷團(tuán)隊(duì),直到他加入了 EGX 團(tuán)隊(duì)。
Troy Estes 是 NVIDIA Edge 和企業(yè)計(jì)算解決方案的產(chǎn)品營銷經(jīng)理。在加入 Edge & Enterprise 業(yè)務(wù)部門之前,特洛伊曾在自主汽車業(yè)務(wù)部門和 NVIDIA 電網(wǎng)產(chǎn)品集團(tuán)從事營銷活動(dòng)和支持產(chǎn)品 GTM 。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5309瀏覽量
106457 -
gpu
+關(guān)注
關(guān)注
28文章
4949瀏覽量
131286
發(fā)布評(píng)論請(qǐng)先 登錄
生產(chǎn)環(huán)境中Kubernetes容器安全的最佳實(shí)踐
NVIDIA技術(shù)助力企業(yè)創(chuàng)建主權(quán)AI智能體
如何在Ubuntu上安裝NVIDIA顯卡驅(qū)動(dòng)?

NVIDIA虛擬GPU 18.0版本的亮點(diǎn)
使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發(fā)
英偉達(dá)GTC2025亮點(diǎn):NVIDIA認(rèn)證計(jì)劃擴(kuò)展至企業(yè)存儲(chǔ)領(lǐng)域,加速AI工廠部署
英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開源庫加速并擴(kuò)展AI推理模型
Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

解鎖新應(yīng)用:探索GPU擴(kuò)展是如何提升渲染農(nóng)場(chǎng)的工作效率

NVIDIA和GeForce RTX GPU專為AI時(shí)代打造
《CST Studio Suite 2024 GPU加速計(jì)算指南》
NVIDIA通過加速AWS上的機(jī)器人仿真推進(jìn)物理AI的發(fā)展
AMD與NVIDIA GPU優(yōu)缺點(diǎn)
NVIDIA NIM助力企業(yè)高效部署生成式AI模型

評(píng)論