Große Sprachmodelle (LLMs) haben wichtige Fortschritte bei der Texterzeugung, Problemlösung und der Befolgung von Anweisungen gemacht. Da Unternehmen LLMs verwenden, um hochmoderne Lösungen zu entwickeln, wird der Bedarf an skalierbaren, sicheren und effizienten Bereitstellungsplattformen immer wichtiger. Kubernetes ist die bevorzugte Option für seine Skalierbarkeit, Flexibilität, Portabilität und Resilienz geworden.
In dieser Demo zeigen wir, wie Sie fein abgestimmte LLM-Inferenzcontainer auf Oracle Cloud Infrastructure Kubernetes Engine (OKE) bereitstellen, einem verwalteten Kubernetes-Service, der Deployments und Abläufe in großem Maßstab für Unternehmen vereinfacht. Mit dem Service können sie das benutzerdefinierte Modell und die Datasets in ihrem eigenen Mandanten beibehalten, ohne sich auf eine Inferenz-API eines Drittanbieters verlassen zu müssen.
Wir werden Text Generation Inference (TGI) als Inferenz-Framework verwenden, um die LLMs aufzuzeigen.