Microsserviço de inferência NVIDIA NIM em escala com o OCI Container Engine for Kubernetes

Tópicos da solução de IA

Introdução
Pré-requisitos e configuração
Vamos começar

Introdução

Como você pode entregar solicitações de inferência em escala para seu grande modelo de linguagem e acelerar sua implementação de IA? Implantando a solução pronta para a empresa NVIDIA NIM no Oracle Cloud Infrastructure (OCI) Kubernetes Engine (OKE). Nesta demonstração, mostraremos como implantar o NVIDIA NIM no OKE com o repositório de modelos hospedado no OCI Object Storage. Usando uma implantação do Helm, amplie e reduza facilmente o número de réplicas, dependendo do número de solicitações de inferência, além de obter um monitoramento fácil. Aproveite o OCI Object Storage para implementar modelos de qualquer lugar, com suporte para vários tipos de modelos. Desenvolvido por GPUs NVIDIA, aproveite ao máximo o NIM para ajudá-lo a obter o throughput máximo e a latência mínima para suas solicitações de inferência.

Demonstração

Pré-requisitos e configuração

Conta Oracle Cloud —página de cadastro
Acesso ao VM.GPU.A10.1 com tecnologia de uma única GPU NVIDIA A10 Tensor Core — limites de serviço
Controladores de instâncias — documentação
NVIDIA AI Enterprise, parte do OCI Marketplace — documentação
HuggingFace com tokens de acesso do usuário — documentação
OCI Kubernetes Engine — documentação

Conheça

Etapas detalhadas e código de amostra no GitHub