Microservice d'inférence NVIDIA NIM à grande échelle avec OCI Container Engine for Kubernetes

Sujets relatifs à la solution AI

Introduction
Prérequis et configuration
Premiers pas

Introduction

Comment pouvez-vous fournir des demandes d'inférence à grande échelle pour votre grand modèle de langage et accélérer votre déploiement d'IA ? En déployant la solution prête à l'emploi NVIDIA NIM sur Oracle Cloud Infrastructure (OCI) Kubernetes Engine (OKE). Dans cette démonstration, nous allons montrer comment déployer NVIDIA NIM sur OKE avec le référentiel de modèles hébergé sur OCI Object Storage. Grâce à un déploiement Helm, augmentez et réduisez facilement le nombre de répliques en fonction du nombre de demandes d'inférence, et bénéficiez d'une surveillance facile. Tirez parti d'OCI Object Storage pour déployer des modèles de n'importe où, avec la prise en charge de différents types de modèles. Optimisé par les GPU NVIDIA, tirez pleinement parti de NIM pour obtenir le débit maximal et la latence minimale de vos demandes d'inférence.

Démonstration

Prérequis et configuration

Compte Oracle Cloud : page d'inscription
Accès à VM.GPU.A10.1 optimisé par un seul GPU NVIDIA A10 Tensor Core : limites de service
Principaux d'instance : documentation
NVIDIA AI Enterprise, qui fait partie d'OCI Marketplace, documentation
HuggingFace avec des jetons d'accès utilisateur : documentation
OCI Kubernetes Engine - Documentation

Lancez-vous

Étapes détaillées et exemple de code sur GitHub