Déploiement de LLM à l'aide de Hugging Face et de Kubernetes sur OCI

Sujets relatifs aux solutions d'IA

Introduction
Démonstration
Prérequis et configuration
Premiers pas

Introduction

Les grands modèles de langage (LLM) ont fait des progrès significatifs dans la génération de texte, la résolution de problèmes et le suivi des instructions. Alors que les entreprises utilisent les LLM pour développer des solutions de pointe, la nécessité de plates-formes de déploiement évolutives, sécurisées et efficaces devient de plus en plus importante. Kubernetes est devenu l'option préférée pour son évolutivité, sa flexibilité, sa portabilité et sa résilience.

Dans cette démonstration, nous montrons comment déployer des conteneurs d'inférence LLM affinés sur Oracle Cloud Infrastructure Kubernetes Engine (OKE), un service Kubernetes géré qui simplifie les déploiements et les opérations à grande échelle pour les entreprises. Le service leur permet de conserver le modèle personnalisé et les ensembles de données dans leur propre location sans s'appuyer sur une API d'inférence tierce.

Nous utiliserons l'inférence de génération de texte comme structure d'inférence pour exposer les LLM.

Démonstration

Prérequis et configuration

Compte Oracle Cloud : page d'inscription
Oracle Cloud Infrastructure - Documentation
OCI Generative AI : documentation
OCI Kubernetes Engine - Documentation

Lancez-vous

Étapes détaillées et exemple de code sur GitHub