엔터프라이즈급 대규모 Kubernetes 운영 간소화 자동 확장, 패치, 업그레이드를 통해 AI와 같은 리소스 집약적 워크로드를 간단히 배포하고 관리할 수 있습니다.
CIO Magazine은 최첨단 Kubernetes 솔루션을 제공해 확장 가능하고 효율적인 애플리케이션 개발을 지원하는 OCI의 전문성을 높이 평가했습니다.
OKE는 모든 하이퍼스케일러 중에서, 특히 서버리스 부문에서 가장 저렴한 비용으로 이용 가능한 Kubernetes 서비스입니다.
OKE는 수요에 따라 컴퓨팅 리소스를 자동으로 조정해 비용을 절감합니다.
GPU가 부족한 상황이 발생해도 OKE 작업 스케줄링을 사용해 간단히 리소스 활용도를 극대화할 수 있습니다.
OKE는 클라우드 및 온프레미스 전반의 일관성을 유지함으로써 이식성을 지원하고 벤더 종속 현상을 방지합니다.
OKE는 Kubernetes 인프라의 복잡성 관리에 필요한 시간, 비용, 노력을 절감해 줍니다.
자동 업그레이드 및 보안 패칭으로 컨트롤 플레인 및 작업자 노드의 안정성이 향상됩니다.
OCI Full Stack Disaster Recovery를 통해 완전 자동화된 네이티브 리전 간 복구 기능을 제공합니다.
Kubernetes는 AI 워크로드를 배포하기에 가장 적합한 플랫폼입니다. OKE는 Oracle Cloud Infrastructure(OCI)의 AI 서비스들을 지원합니다.
– AI 프로젝트의 초기 구축 단계에는 문제를 정의하고, 모델 생성을 위한 데이터를 준비합니다.
– Kubernetes 클러스터는 값비싸고 종종 제한적인 GPU 리소스에 대한 공유 액세스를 제공하고, 안전하고 중앙화된 관리 환경을 제공해 작업 효율성을 크게 향상시킬 수 있습니다.
– Kubernetes 관련 오픈 소스 프로젝트인 Kubeflow는 모델의 구축, 교육, 배포를 간소화할 수 있는 포괄적인 프레임워크를 제공합니다.
OCI 상에 구축된 OKE는 AI/ML 워크로드를 위해 설계된 완전한 고성능 인프라 스택을 제공합니다.
– H100, A100, A10 등으로 구성된 다양한 사양의 NVIDIA GPU
– 초고속 RDMA 네트워크
OKE 자체 관리형 노드를 사용해 귀사의 Kubernetes 클러스터에서 AI/ML 구축 워크로드를 실행할 수 있습니다.
Kubernetes는 AI 워크로드를 배포하기에 가장 적합한 플랫폼입니다. OKE는 OCI AI 서비스를 지원합니다.
– AI 모델 훈련 단계에서 데이터 과학자는 알고리즘을 선택하고 준비된 데이터를 사용해 훈련 작업을 시작합니다. 훈련 단계에는 작업을 효율적으로 처리하기 위한 정교한 스케줄링 시스템이 필요합니다.
– Volcano 및 Kueue와 같은 Kubernetes 프로젝트는 그와 같은 요구 사항을 처리하고 컴퓨팅 리소스를 효율적으로 사용하는 데 도움을 줍니다.
– 대규모 분산 훈련을 위해서는 클러스터 내부적으로 지연 시간이 짧은 노드 간 통신이 필요합니다. 바로 이 부분에서 RDMA(원격 직접 메모리 액세스)를 갖춘 특화된 초고속 네트워크가 필요합니다. RDMA 기술을 사용하면 CPU를 우회해 데이터를 애플리케이션의 메모리로 직접 이동시킴으로써 지연 시간을 줄일 수 있습니다.
OCI 상에 구축된 OKE는 AI/ML 워크로드를 위해 설계된 완전한 고성능 인프라 스택을 제공합니다.
– H100, A100, A10 등으로 구성된 다양한 사양의 NVIDIA GPU
– 지연 시간이 짧은 초고성능 RDMA 네트워크
OKE 자체 관리형 노드를 사용해 귀사의 Kubernetes 클러스터에서 AI/ML 훈련을 진행할 수 있습니다.
Kubernetes는 AI 워크로드를 배포하기에 가장 적합한 플랫폼입니다. OKE는 OCI AI 서비스를 지원합니다.
– AI 모델 추론은 Kubernetes가 가장 빛을 발하는 분야입니다. Kubernetes는 필요에 따라 추론 포드 수를 자동으로 확장 또는 축소해 리소스를 효율적으로 사용할 수 있습니다.
– Kubernetes는 컨테이너에 대한 CPU 및 메모리 제한을 지정하는 기능을 비롯한 정교한 리소스 관리 기능을 제공합니다.
OKE는 복원성을 핵심으로 설계되었으며, Kubernetes에 내장된 포드 자동 스케일링을 활용해 사용량에 따라 작업자 노드를 확장합니다. 여러 장애 및/또는 가용성 도메인에 작업자 노드를 분산해 고가용성을 확보할 수 있습니다.
OKE 가상 노드는 서버리스 Kubernetes 경험을 제공합니다. 작업자 노드를 확장할 필요 없이 포드 수준으로만 확장할 수 있습니다. 따라서 사용 중인 포드에 대한 서비스 요금만이 부과되므로 더 빠르게 확장하고 더 경제적으로 관리할 수 있습니다.
가상 노드는 추론 워크로드에 적합하며 Arm 프로세서를 사용할 수 있습니다. Arm 프로세서는 AI 추론을 위한 매력적인 옵션으로 떠오르고 있습니다. 특히 GPU가 부족한 경우 더욱 그렇습니다.
OKE는 총소유비용(TCO)을 낮추고 시장 출시 기간을 단축시켜 줍니다.
OKE를 사용해 대규모 운영을 간소화하는 방법은 다음과 같습니다.
OKE 중심의 마이크로서비스 아키텍처로 미래에 대비된 애플리케이션을 구축해 보세요.
"많은 OCI AI 서비스가 Oracle의 관리형 Kubernetes 서비스인 OCI Kubernetes Engine(OKE)에서 실행되고 있습니다. 실제로 Oracle의 엔지니어링 팀은 이전 플랫폼에서 OKE로 전환하는 것만으로도 OCI Vision에서 10배의 성능 향상을 경험했죠. OKE의 성능은 그만큼 뛰어납니다."
Oracle Cloud Infrastructure, VP of OCI AI Services
Docker 컨테이너 형식으로 패키징되고 공통 API를 사용해 통신하는 간단한 마이크로서비스를 배포할 수 있습니다.
제공된 Terraform 자동화 기능 및 참조 아키텍처를 사용해 서버리스 가상 노드 풀을 배포하는 모범 사례를 살펴보세요.
Senior Principal Product Manager, Gregory King
Oracle Cloud Infrastructure(OCI) Full Stack Disaster Recovery(Full Stack DR)가 이제 OCI Kubernetes Engine(OKE)을 기본 지원합니다. 이제 OKE 클러스터는 가상 머신, 스토리지, 로드 밸런서, Oracle 데이터베이스와 마찬가지로 Full Stack DR에서 선택할 수 있는 OCI 리소스가 되었습니다. 이제 고객사의 IT 담당자는 스프레드시트나 텍스트 파일에 코드 또는 단계별 지침을 작성할 필요 없이 OKE, 인프라, 데이터베이스를 검증, 장애 복구, 전환하고 복구 기능을 테스트할 수 있습니다.
게시물 전문 읽어보기Kubernetes는 컨테이너화된 애플리케이션 및 서비스의 클러스터를 관리하고 확장하기 위한 오픈 소스 플랫폼입니다.
CI/CD 도구, 관리형 Terraform, 원격 분석 서비스 등에 30일 동안 액세스할 수 있습니다.
배포 가능한 참조 아키텍처 및 솔루션 플레이북을 살펴보세요.
Kubernetes, Docker, 서버리스, API 등으로 앱 개발을 강화하십시오.
영업 및 지원 관련 문의나 기타 질문이 있다면 Oracle의 영업 담당자에게 문의하세요.
