AI 솔루션

OCI에서 Hugging Face 및 Kubernetes를 사용하여 LLM 배포

개요

대규모 언어 모델(LLM)은 텍스트 생성, 문제 해결 및 다음 지침에서 상당한 진전을 이루었습니다. 기업이 LLM을 사용하여 최첨단 솔루션을 개발함에 따라 확장 가능하고 안전하며 효율적인 배포 플랫폼에 대한 필요성이 점점 더 중요해지고 있습니다. Kubernetes는 확장성, 유연성, 이식성 및 복원성을 위해 선호되는 옵션이 되었습니다.

이 데모에서는 기업을 위한 대규모 배포 및 운영을 간소화하는 관리형 Kubernetes 서비스인 Oracle Cloud Infrastructure Kubernetes Engine(OKE)에서 미세 조정된 LLM 추론 컨테이너를 배포하는 방법을 시연합니다. 이 서비스를 통해 타사 추론 API에 의존하지 않고도 커스터마이징 모델 및 데이터 세트를 자체 테넌시 내에 유지할 수 있습니다.

LLM을 노출하기 위한 추론 프레임워크로 TGI(텍스트 생성 추론)를 사용해 보겠습니다.

데모

데모: OCI에서 Hugging Face 및 Kubernetes를 사용해 LLM 배포(1:30)

선행 조건 및 설정

  1. Oracle Cloud 계정—등록 페이지
  2. Oracle Cloud Infrastructure—설명서
  3. OCI Generative AI—설명서
  4. OCI Kubernetes Engine—설명서