Solución de IA

Despliegue de LLM con Hugging Face y Kubernetes en OCI

Introducción

Los grandes modelos de lenguaje (LLM) han logrado avances significativos en la generación de texto, la resolución de problemas y las instrucciones siguientes. A medida que las empresas utilizan LLM para desarrollar soluciones de vanguardia, la necesidad de plataformas de implementación escalables, seguras y eficientes se vuelve cada vez más importante. Kubernetes se ha convertido en la opción preferida por su escalabilidad, flexibilidad, portabilidad y resiliencia.

En esta demostración, demostramos cómo desplegar contenedores de inferencia de LLM ajustados en Oracle Cloud Infrastructure Kubernetes Engine (OKE), un servicio de Kubernetes gestionado que simplifica los despliegues y las operaciones a escala para las empresas. El servicio les permite retener el modelo personalizado y los juegos de datos dentro de su propio arrendamiento sin depender de una API de inferencia de terceros.

Usaremos la Inferencia de generación de textos (TGI) como el marco de inferencia para exponer los LLM.

Demostración

Demostración: despliegue de LLM mediante Hugging Face y Kubernetes en OCI (1:30)

Requisitos y configuración

  1. Cuenta de Oracle Cloud—página de registro
  2. Oracle Cloud Infrastructure: documentación
  3. OCI Generative AI—documentación
  4. OCI Kubernetes Engine: documentación