Implantando LLMs com o Hugging Face e o Kubernetes na OCI

Tópicos de solução de IA

Introdução
Demonstração
Pré-requisitos e configuração
Vamos começar

Introdução

Grandes modelos de linguagem (LLMs) têm feito avanços significativos na geração de texto, resolução de problemas e instruções a seguir. À medida que as empresas usam LLMs para desenvolver soluções de ponta, a necessidade de plataformas de implementação escaláveis, seguras e eficientes se torna cada vez mais importante. O Kubernetes se tornou a opção preferida por sua escalabilidade, flexibilidade, portabilidade e resiliência.

Nesta demonstração, demonstramos como implementar contêineres de inferência de LLM ajustados no Oracle Cloud Infrastructure Kubernetes Engine (OKE), um serviço Kubernetes gerenciado que simplifica implementações e operações em escala para empresas. O serviço permite que eles retenham o modelo personalizado e os conjuntos de dados em sua própria tenancy sem depender de uma API de inferência de terceiros.

Usaremos a Inferência de Geração de Texto (TGI) como estrutura de inferência para expor os LLMs.

Demonstração

Pré-requisitos e configuração

Conta Oracle Cloud —página de cadastro
Oracle Cloud Infrastructure — documentação
OCI Generative AI — documentação
OCI Kubernetes Engine — documentação

Conheça

Etapas detalhadas e código de amostra no GitHub