Solución de IA

Microservicio de inferencia NIM de NVIDIA a escala con OCI Container Engine for Kubernetes

Introducción

¿Cómo puedes entregar solicitudes de inferencia a escala para tu modelo de lenguaje grande y acelerar tu implementación de IA? Mediante el despliegue de la solución empresarial NVIDIA NIM en Oracle Cloud Infrastructure (OCI) Kubernetes Engine (OKE). En esta demostración, mostraremos cómo desplegar NVIDIA NIM en OKE con el repositorio de modelos alojado en OCI Object Storage. Mediante un despliegue de Helm, amplíe o reduzca fácilmente el número de réplicas en función del número de solicitudes de inferencia, además de obtener una supervisión sencilla. Aprovecha OCI Object Storage para desplegar modelos desde cualquier lugar, con soporte para varios tipos de modelos. Con tecnología de GPU NVIDIA, aprovecha al máximo NIM para ayudarte a obtener el máximo rendimiento y la latencia mínima para tus solicitudes de inferencia.

Demostración

Demostración: microservicio de inferencia de NVIDIA NIM a escala con OCI Kubernetes Engine (1:18)

Requisitos y configuración

  1. Cuenta de Oracle Cloud—página de registro
  2. Acceso a VM.GPU.A10.1 con tecnología de una única GPU NVIDIA A10 Tensor Core: límites de servicio
  3. Principales de instancia: documentación
  4. NVIDIA AI Enterprise, parte de OCI Marketplace: documentación
  5. HuggingFace con tokens de acceso de usuario: documentación
  6. OCI Kubernetes Engine: documentación