AI 解决方案

利用 OCI Container Engine for Kubernetes 实现大规模 NVIDIA NIM 推断微服务

AI 解决方案主题

介绍

如何为您的大型语言模型大规模交付推断请求并加速 AI 部署?通过在 Oracle Cloud Infrastructure (OCI) Kubernetes Engine (OKE) 上部署企业级解决方案 NVIDIA NIM。在本演示中,我们将展示如何使用托管在 OCI 对象存储上的模型存储库在 OKE 上部署 NVIDIA NIM。使用 Helm 部署,根据推断请求数量轻松扩展和收缩副本数量,并轻松监视。利用 OCI Object Storage 随时随地部署模型,并支持各种类型的模型。在 NVIDIA GPU 的支持下,充分利用 NIM 来帮助您获得推断请求的最大吞吐量和最小延迟。

演示

演示:使用 OCI Kubernetes 引擎大规模部署 NVIDIA NIM 推断微服务 (1:18)

先决条件和设置

  1. Oracle Cloud 账户 - 注册页面
  2. 访问由单个 NVIDIA A10 Tensor Core GPU 提供支持的 VM.GPU.A10.1 — 服务限制
  3. 实例主体— 文档
  4. OCI Marketplace 中的 NVIDIA AI Enterprise — 文档
  5. 包含用户访问令牌的 HuggingFace — 文档
  6. OCI Kubernetes Engine — 文档

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国 。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。