Soluzione AI

Microservizio di inferenza NIM NVIDIA su larga scala con OCI Container Engine for Kubernetes

Argomenti sulla soluzione AI

Introduzione

Come puoi fornire richieste di inferenza su larga scala per il tuo modello linguistico di grandi dimensioni e accelerare la distribuzione dell'AI? Implementando la soluzione di livello Enterprise NVIDIA NIM su Oracle Cloud Infrastructure (OCI) Kubernetes Engine (OKE). In questa demo, mostreremo come distribuire NVIDIA NIM su OKE con il repository dei modelli ospitato su OCI Object Storage. Utilizzando una distribuzione Helm, ridimensiona facilmente il numero di repliche su e giù a seconda del numero di richieste di inferenza e ottieni un monitoraggio semplice. Utilizza OCI Object Storage per distribuire modelli da qualsiasi luogo, con il supporto di vari tipi di modelli. Basato sulle GPU NVIDIA, sfrutta appieno il NIM per ottenere il massimo throughput e la latenza minima per le tue richieste di inferenza.

Demo

Demo: microservizio di inferenza NVIDIA NIM su larga scala con OCI Kubernetes Engine (1:18)

Prerequisiti e impostazione

  1. Account Oracle Cloud: pagina di iscrizione
  2. Accesso a VM.GPU.A10.1 basato su un'unica GPU NVIDIA A10 Tensor Core: limiti del servizio
  3. Principal istanza: documentazione
  4. NVIDIA AI Enterprise, parte della documentazione su OCI Marketplace
  5. HuggingFace con token di accesso utente: documentazione
  6. OCI Kubernetes Engine: documentazione