NVIDIA NIM-Inferenz-Microservice in großem Maßstab mit OCI Container Engine for Kubernetes

Themen zu KI-Lösungen

Einführung
Voraussetzungen und Einrichtung
Erste Schritte

Einführung

Wie können Sie Inferenzanforderungen in großem Maßstab für Ihr großes Sprachmodell bereitstellen und Ihre KI-Bereitstellung beschleunigen? Durch die Bereitstellung der unternehmensgerechten Lösung NVIDIA NIM auf Oracle Cloud Infrastructure (OCI) Kubernetes Engine (OKE). In dieser Demo zeigen wir, wie NVIDIA NIM in OKE mit dem Modell-Repository bereitgestellt wird, das in OCI Object Storage gehostet wird. Mit einem Helm-Deployment können Sie die Anzahl der Replikate je nach Anzahl der Inferenzanforderungen einfach nach oben und unten skalieren und eine einfache Überwachung erhalten. Nutzen Sie OCI Object Storage, um Modelle von überall aus bereitzustellen, wobei verschiedene Modelltypen unterstützt werden. Nutzen Sie NIM, das von NVIDIA-GPUs unterstützt wird, um den maximalen Durchsatz und die minimale Latenz für Ihre Inferenzanforderungen zu erzielen.

Demo

Voraussetzungen und Setup

Oracle Cloud-Account – Anmeldeseite
Zugriff auf VM.GPU.A10.1 mit einer einzelnen NVIDIA A10 Tensor Core-GPU – Servicelimits
Instanz-Principals – Dokumentation
NVIDIA AI Enterprise, Teil des OCI Marketplace – Dokumentation
HuggingFace mit Benutzerzugriffstoken – Dokumentation
OCI Kubernetes Engine – Dokumentation

Erste Schritte

Detaillierte Schritte und Beispielcode auf GitHub