Soluzione AI

Distribuzione di LLM mediante Hugging Face e Kubernetes su OCI

Argomenti sulla soluzione AI

Introduzione

I modelli linguistici di grandi dimensioni (LLM, large language model) hanno compiuto passi significativi nella generazione del testo, nella risoluzione dei problemi e nelle istruzioni riportate di seguito. Man mano che le aziende utilizzano LLM per sviluppare soluzioni all'avanguardia, diventa sempre più importante la necessità di piattaforme di implementazione scalabili, sicure ed efficienti. Kubernetes è diventata l'opzione preferita per la sua scalabilità, flessibilità, portabilità e resilienza.

In questa demo, dimostriamo come implementare container di inferenza LLM ottimizzati su Oracle Cloud Infrastructure Kubernetes Engine (OKE), un servizio Kubernetes gestito che semplifica implementazioni e operazioni su larga scala per le aziende. Il servizio consente loro di conservare il modello e i data set personalizzati all'interno della propria tenancy senza fare affidamento su un'API di inferenza di terze parti.

Per esporre gli LLM, utilizzeremo l'Inferenza di generazione del testo (TGI) come framework di inferenza.

Demo

Demo: Distribuzione di LLM con Hugging Face e Kubernetes su OCI (1:30)

Prerequisiti e impostazione

  1. Account Oracle Cloud: pagina di iscrizione
  2. Oracle Cloud Infrastructure: documentazione
  3. OCI Generative AI: documentazione
  4. OCI Kubernetes Engine: documentazione