Solução de IA

Microsserviço de inferência NVIDIA NIM em escala com o OCI Container Engine for Kubernetes

Introdução

Como você pode entregar solicitações de inferência em escala para seu grande modelo de linguagem e acelerar sua implementação de IA? Implantando a solução pronta para a empresa NVIDIA NIM no Oracle Cloud Infrastructure (OCI) Kubernetes Engine (OKE). Nesta demonstração, mostraremos como implantar o NVIDIA NIM no OKE com o repositório de modelos hospedado no OCI Object Storage. Usando uma implantação do Helm, amplie e reduza facilmente o número de réplicas, dependendo do número de solicitações de inferência, além de obter um monitoramento fácil. Aproveite o OCI Object Storage para implementar modelos de qualquer lugar, com suporte para vários tipos de modelos. Desenvolvido por GPUs NVIDIA, aproveite ao máximo o NIM para ajudá-lo a obter o throughput máximo e a latência mínima para suas solicitações de inferência.

Demonstração

Demonstração: Microsserviço de inferência NVIDIA NIM em escala com o OCI Kubernetes Engine (1:18)

Pré-requisitos e configuração

  1. Conta Oracle Cloud —página de cadastro
  2. Acesso ao VM.GPU.A10.1 com tecnologia de uma única GPU NVIDIA A10 Tensor Core — limites de serviço
  3. Controladores de instâncias — documentação
  4. NVIDIA AI Enterprise, parte do OCI Marketplace — documentação
  5. HuggingFace com tokens de acesso do usuário — documentação
  6. OCI Kubernetes Engine — documentação