Microservicio de inferencia de NVIDIA NIM a escala con OCI Kubernetes Engine

Temas de solución de IA

Introducción
Demostración
Requisitos y configuración
Comienza hoy mismo

Introducción

¿Cómo puedes entregar solicitudes de inferencia a escala para tu modelo de lenguaje grande y acelerar tu implementación de IA? Mediante el despliegue de la solución empresarial NVIDIA NIM en Oracle Cloud Infrastructure (OCI) Kubernetes Engine (OKE). En esta demostración, mostraremos cómo desplegar NVIDIA NIM en OKE con el repositorio de modelos alojado en OCI Object Storage. Mediante un despliegue de Helm, amplíe o reduzca fácilmente el número de réplicas en función del número de solicitudes de inferencia, además de obtener una supervisión sencilla. Aprovecha OCI Object Storage para desplegar modelos desde cualquier lugar, con soporte para varios tipos de modelos. Con tecnología de GPU NVIDIA, aprovecha al máximo NIM para ayudarte a obtener el máximo rendimiento y la latencia mínima para tus solicitudes de inferencia.

Demostración

Requisitos y configuración

Cuenta de Oracle Cloud—página de registro
Acceso a VM.GPU.A10.1 con tecnología de una única GPU NVIDIA A10 Tensor Core: límites de servicio
Principales de instancia: documentación
NVIDIA AI Enterprise, parte de OCI Marketplace: documentación
HuggingFace con tokens de acceso de usuario: documentación
OCI Kubernetes Engine: documentación

Comience ahora

Pasos detallados y código de ejemplo en GitHub