Oracle Cloud Infrastructure AI Blueprints ist eine Sammlung vordefinierter und geprüfter Blueprints für OCI, mit denen sich GenAI-Workloads innerhalb von Minuten konsistent und wiederholbar bereitstellen lassen – inklusive integrierter Beobachtbarkeit.
Mit OCI AI Blueprints können Sie KI-Workloads in Produktionsumgebungen innerhalb weniger Minuten bereitstellen, skalieren und überwachen. Die Blueprints sind von OCI geprüft, kommen ohne Code aus und unterstützen gängige GenAI-Workloads. Sie enthalten klare Hardware-Empfehlungen mit NVIDIA-GPUs, eine abgestimmte Software-Stack-Auswahl (z. B. NVIDIA NIM) sowie vorintegrierte Observability-Tools. Dadurch entfällt die Notwendigkeit, einzelne Softwarekomponenten manuell auszuwählen oder Infrastruktur händisch bereitzustellen. Darüber hinaus stehen Ihnen fortschrittliche Infrastrukturfunktionen wie GPUs mit mehreren Instanzen oder automatisches Skalieren basierend auf der Inferenzlatenz zur Verfügung – und das mit nur minimalem Konfigurationsaufwand. So verkürzt sich die GPU-Einführung für skalierte, geschäftskritische Deployments von mehreren Wochen auf wenige Minuten.
OCI AI Blueprints stehen allen OCI-Benutzern kostenlos zur Verfügung.
OCI AI Blueprints finden Sie auf GitHub. Auf der GitHub-Seite finden Sie Anleitungen dazu, wie Sie:
Um einen OCI AI Blueprint sicher zu testen, erstellen Sie am besten ein separates Compartment und einen eigenen OCI Kubernetes Engine (OKE) Cluster. Durch die Bereitstellung innerhalb dieses neuen Compartments wird sichergestellt, dass mögliche Auswirkungen auf Ihren übrigen Mandanten isoliert bleiben.
Folgende Container und Ressourcen werden in Ihrem Mandanten bereitgestellt:
Alle verfügbaren Blueprints werden hier aufgeführt.
Um ein Inferenz-Benchmarking durchzuführen, stellen Sie einfach ein vLLM-Blueprint bereit und verwenden anschließend ein Tool wie LLMPerf, um Benchmark-Tests gegen Ihren Inferenz-Endpunkt durchzuführen.
Verwenden Sie kubectl, um die Pod-Logs in Ihrem Oracle Kubernetes Engine Cluster zu prüfen. Alternativ können Sie auch direkt über das AI Blueprints-Portal auf die Logs zugreifen.
Ja, OCI AI Blueprints nutzt KEDA für anwendungsbasiertes automatisches Skalieren. Weitere Informationen finden Sie in der Dokumentation.
Alle NVIDIA-GPUs, die in Ihrer OCI-Region verfügbar sind – darunter A10, A100 oder H100.
Ja, Sie können OCI AI Blueprints in einem bestehenden Cluster bereitstellen. Die entsprechenden Anweisungen finden Sie hier.
Um mehrere Blueprints auf demselben Knoten auszuführen, wird empfohlen, Shared Node Pools zu aktivieren. Weitere Informationen.
Oracle Cloud Infrastructure Data Science and Oracle Cloud Infrastructure Data Science Quick Actions sind PaaS-Angebote, die dabei helfen, KI-Anwendungen auf verwalteten Compute-Instanzen zu entwickeln und bereitzustellen. OCI AI Blueprints hingegen ist ein IaaS-Booster. OCI AI Blueprints ist ideal für Kunden, die GenAI-Workloads auf reservierten Instanzen in ihrem eigenen Mandanten ausführen möchten. In der frühen Phase der Customer Journey unterstützen AI Blueprints bei Pre-Sales-POCs, LLM-Benchmarking und der schnellen Entwicklung von End-to-End-KI-Anwendungen, z. B. mit Retrieval-Augmented Generation (RAG). In fortgeschrittenen Phasen lassen sich mit AI Blueprints produktive Workloads auf Kubernetes-Clustern ausführen – mit erweiterten Konfigurationen wie automatischer Skalierung und verteilter Inferenz.
Der OCI Generative AI-Service ist ein PaaS-Angebot. OCI AI Blueprints hingegen ist ein IaaS-Booster. OCI AI Blueprints ist ideal für Kunden, die GenAI-Workloads auf reservierten Instanzen in ihrem eigenen Mandanten ausführen möchten. In der frühen Phase der Customer Journey unterstützen AI Blueprints bei Pre-Sales-POCs, LLM-Benchmarking und der schnellen Entwicklung von End-to-End-KI-Anwendungen, z. B. mit Retrieval-Augmented Generation (RAG). In fortgeschrittenen Phasen lassen sich mit AI Blueprints produktive Workloads auf Kubernetes-Clustern ausführen – mit erweiterten Konfigurationen wie automatischer Skalierung und verteilter Inferenz.
Mit dem vLLM-Blueprint können Sie benutzerdefinierte LLMs sowie die meisten auf Hugging Face verfügbaren Modelle bereitstellen – vorausgesetzt, sie sind mit vLLM kompatibel.
Ja.
Ja. Sie können auch andere Lösungen wie Ollama, TensorRT und NIM verwenden.
Ja. Es gibt einen speziellen Blueprint für die Inferenz auf CPUs, der Ollama auf CPU-Basis verwendet.
Ja.
Derzeit steht eine API zur Verfügung (eine CLI ist in Entwicklung). Zusätzlich können Sie die Kueue CLI für Job-Orchestrierung und -Planung in Kombination mit AI Blueprints nutzen.
Mit OCI AI Blueprints profitieren Sie von folgenden Vorteilen: