Los grandes modelos de lenguaje (LLM) han logrado avances significativos en la generación de texto, la resolución de problemas y las instrucciones siguientes. A medida que las empresas utilizan LLM para desarrollar soluciones de vanguardia, la necesidad de plataformas de implementación escalables, seguras y eficientes se vuelve cada vez más importante. Kubernetes se ha convertido en la opción preferida por su escalabilidad, flexibilidad, portabilidad y resiliencia.
En esta demostración, demostramos cómo desplegar contenedores de inferencia de LLM ajustados en Oracle Cloud Infrastructure Kubernetes Engine (OKE), un servicio de Kubernetes gestionado que simplifica los despliegues y las operaciones a escala para las empresas. El servicio les permite retener el modelo personalizado y los juegos de datos dentro de su propio arrendamiento sin depender de una API de inferencia de terceros.
Usaremos la Inferencia de generación de textos (TGI) como el marco de inferencia para exponer los LLM.