Les grands modèles de langage (LLM) ont fait des progrès significatifs dans la génération de texte, la résolution de problèmes et le suivi des instructions. Alors que les entreprises utilisent les LLM pour développer des solutions de pointe, la nécessité de plates-formes de déploiement évolutives, sécurisées et efficaces devient de plus en plus importante. Kubernetes est devenu l'option préférée pour son évolutivité, sa flexibilité, sa portabilité et sa résilience.
Dans cette démonstration, nous montrons comment déployer des conteneurs d'inférence LLM affinés sur Oracle Cloud Infrastructure Kubernetes Engine (OKE), un service Kubernetes géré qui simplifie les déploiements et les opérations à grande échelle pour les entreprises. Le service leur permet de conserver le modèle personnalisé et les ensembles de données dans leur propre location sans s'appuyer sur une API d'inférence tierce.
Nous utiliserons l'inférence de génération de texte comme structure d'inférence pour exposer les LLM.