AIソリューション

OCI Container Engine for Kubernetesによる大規模なNVIDIA NIM推論マイクロサービス

AIソリューション・トピック

概要

大規模言語モデルに対して推論リクエストを大規模に配信し、AI導入を加速するにはどうすればよいですか?Oracle Cloud Infrastructure(OCI)Kubernetes Engine(OKE)にエンタープライズ対応ソリューションNVIDIA NIMを導入。このデモでは、OCIオブジェクト・ストレージでホストされているモデル・リポジトリを使用して、OKEにNVIDIA NIMをデプロイする方法を示します。Helmデプロイメントを使用して、推論リクエストの数に応じてレプリカの数を簡単にスケール・アップおよびスケール・ダウンし、簡単に監視できます。OCI Object Storageを活用して、さまざまなタイプのモデルをサポートし、どこからでもモデルを導入できます。NVIDIA GPUを搭載し、NIMを最大限に活用して、推論リクエストの最大スループットと最小レイテンシを実現できます。

デモ

デモ: OCI Kubernetes Engineによる大規模なNVIDIA NIM推論マイクロサービス(1:18)

前提条件および設定

  1. Oracle Cloudアカウント—サインアップ・ページ
  2. 単一のNVIDIA A10 Tensor Core GPUを搭載したVM.GPU.A10.1へのアクセス—サービス制限
  3. インスタンス・プリンシパル—ドキュメント
  4. OCI Marketplaceの一部であるNVIDIA AI Enterprise—ドキュメント
  5. ユーザー・アクセス・トークンを含むHuggingFace - ドキュメント
  6. OCI Kubernetes Engine - ドキュメント