Distribuzione di LLM mediante Hugging Face e Kubernetes su OCI

Argomenti sulla soluzione AI

Introduzione
Demo
Prerequisiti e impostazione
Inizia

Introduzione

I modelli linguistici di grandi dimensioni (LLM, large language model) hanno compiuto passi significativi nella generazione del testo, nella risoluzione dei problemi e nelle istruzioni riportate di seguito. Man mano che le aziende utilizzano LLM per sviluppare soluzioni all'avanguardia, diventa sempre più importante la necessità di piattaforme di implementazione scalabili, sicure ed efficienti. Kubernetes è diventata l'opzione preferita per la sua scalabilità, flessibilità, portabilità e resilienza.

In questa demo, dimostriamo come implementare container di inferenza LLM ottimizzati su Oracle Cloud Infrastructure Kubernetes Engine (OKE), un servizio Kubernetes gestito che semplifica implementazioni e operazioni su larga scala per le aziende. Il servizio consente loro di conservare il modello e i data set personalizzati all'interno della propria tenancy senza fare affidamento su un'API di inferenza di terze parti.

Per esporre gli LLM, utilizzeremo l'Inferenza di generazione del testo (TGI) come framework di inferenza.

Demo

Prerequisiti e impostazione

Account Oracle Cloud: pagina di iscrizione
Oracle Cloud Infrastructure: documentazione
OCI Generative AI: documentazione
OCI Kubernetes Engine: documentazione

Inizia

Passi dettagliati e codice di esempio su GitHub