Kubernetes Engine(OKE)

엔터프라이즈급 대규모 Kubernetes 운영 간소화 자동 확장, 패치, 업그레이드를 통해 AI와 같은 리소스 집약적 워크로드를 간단히 배포하고 관리할 수 있습니다.

Oracle Cloud Infrastructure(OCI): 최고의 가성비를 자랑하는 Kubernetes 솔루션 제공

CIO Magazine은 최첨단 Kubernetes 솔루션을 제공해 확장 가능하고 효율적인 애플리케이션 개발을 지원하는 OCI의 전문성을 높이 평가했습니다.

보고서 읽어보기

OKE를 선택하는 이유는 무엇일까요?

가격 대 성능비

OKE는 모든 하이퍼스케일러 중에서, 특히 서버리스 부문에서 가장 저렴한 비용으로 이용 가능한 Kubernetes 서비스입니다.
자동 스케일링

OKE는 수요에 따라 컴퓨팅 리소스를 자동으로 조정해 비용을 절감합니다.
효율성

GPU가 부족한 상황이 발생해도 OKE 작업 스케줄링을 사용해 간단히 리소스 활용도를 극대화할 수 있습니다.
이식성

OKE는 클라우드 및 온프레미스 전반의 일관성을 유지함으로써 이식성을 지원하고 벤더 종속 현상을 방지합니다.
단순성

OKE는 Kubernetes 인프라의 복잡성 관리에 필요한 시간, 비용, 노력을 절감해 줍니다.
안정성

자동 업그레이드 및 보안 패칭으로 컨트롤 플레인 및 작업자 노드의 안정성이 향상됩니다.
회복 탄력성

OCI Full Stack Disaster Recovery를 통해 완전 자동화된 네이티브 리전 간 복구 기능을 제공합니다.

OKE 사용 사례

OCI AI 서비스를 지원하는 OKE

Kubernetes는 AI 워크로드를 배포하기에 가장 적합한 플랫폼입니다. OKE는 Oracle Cloud Infrastructure(OCI)의 AI 서비스들을 지원합니다.

AI 모델 구축

– AI 프로젝트의 초기 구축 단계에는 문제를 정의하고, 모델 생성을 위한 데이터를 준비합니다.

– Kubernetes 클러스터는 값비싸고 종종 제한적인 GPU 리소스에 대한 공유 액세스를 제공하고, 안전하고 중앙화된 관리 환경을 제공해 작업 효율성을 크게 향상시킬 수 있습니다.

– Kubernetes 관련 오픈 소스 프로젝트인 Kubeflow는 모델의 구축, 교육, 배포를 간소화할 수 있는 포괄적인 프레임워크를 제공합니다.

AI 모델 구축을 지원하는 OKE

OCI 상에 구축된 OKE는 AI/ML 워크로드를 위해 설계된 완전한 고성능 인프라 스택을 제공합니다.

– H100, A100, A10 등으로 구성된 다양한 사양의 NVIDIA GPU

– 초고속 RDMA 네트워크

OKE 자체 관리형 노드를 사용해 귀사의 Kubernetes 클러스터에서 AI/ML 구축 워크로드를 실행할 수 있습니다.

OCI AI 서비스를 지원하는 OKE

Kubernetes는 AI 워크로드를 배포하기에 가장 적합한 플랫폼입니다. OKE는 OCI AI 서비스를 지원합니다.

AI 모델 훈련

– AI 모델 훈련 단계에서 데이터 과학자는 알고리즘을 선택하고 준비된 데이터를 사용해 훈련 작업을 시작합니다. 훈련 단계에는 작업을 효율적으로 처리하기 위한 정교한 스케줄링 시스템이 필요합니다.

– Volcano 및 Kueue와 같은 Kubernetes 프로젝트는 그와 같은 요구 사항을 처리하고 컴퓨팅 리소스를 효율적으로 사용하는 데 도움을 줍니다.

– 대규모 분산 훈련을 위해서는 클러스터 내부적으로 지연 시간이 짧은 노드 간 통신이 필요합니다. 바로 이 부분에서 RDMA(원격 직접 메모리 액세스)를 갖춘 특화된 초고속 네트워크가 필요합니다. RDMA 기술을 사용하면 CPU를 우회해 데이터를 애플리케이션의 메모리로 직접 이동시킴으로써 지연 시간을 줄일 수 있습니다.

AI 모델 훈련을 지원하는 OKE

OCI 상에 구축된 OKE는 AI/ML 워크로드를 위해 설계된 완전한 고성능 인프라 스택을 제공합니다.

– H100, A100, A10 등으로 구성된 다양한 사양의 NVIDIA GPU

– 지연 시간이 짧은 초고성능 RDMA 네트워크

OKE 자체 관리형 노드를 사용해 귀사의 Kubernetes 클러스터에서 AI/ML 훈련을 진행할 수 있습니다.

OCI AI 서비스를 지원하는 OKE

Kubernetes는 AI 워크로드를 배포하기에 가장 적합한 플랫폼입니다. OKE는 OCI AI 서비스를 지원합니다.

AI 모델 추론(서빙)

– AI 모델 추론은 Kubernetes가 가장 빛을 발하는 분야입니다. Kubernetes는 필요에 따라 추론 포드 수를 자동으로 확장 또는 축소해 리소스를 효율적으로 사용할 수 있습니다.

– Kubernetes는 컨테이너에 대한 CPU 및 메모리 제한을 지정하는 기능을 비롯한 정교한 리소스 관리 기능을 제공합니다.

AI 모델 추론을 지원하는 OKE

OKE는 복원성을 핵심으로 설계되었으며, Kubernetes에 내장된 포드 자동 스케일링을 활용해 사용량에 따라 작업자 노드를 확장합니다. 여러 장애 및/또는 가용성 도메인에 작업자 노드를 분산해 고가용성을 확보할 수 있습니다.

OKE 가상 노드는 서버리스 Kubernetes 경험을 제공합니다. 작업자 노드를 확장할 필요 없이 포드 수준으로만 확장할 수 있습니다. 따라서 사용 중인 포드에 대한 서비스 요금만이 부과되므로 더 빠르게 확장하고 더 경제적으로 관리할 수 있습니다.

가상 노드는 추론 워크로드에 적합하며 Arm 프로세서를 사용할 수 있습니다. Arm 프로세서는 AI 추론을 위한 매력적인 옵션으로 떠오르고 있습니다. 특히 GPU가 부족한 경우 더욱 그렇습니다.

기존 애플리케이션을 OCI 및 OKE로 마이그레이션해 다양한 혜택을 누릴 수 있습니다

OKE는 총소유비용(TCO)을 낮추고 시장 출시 기간을 단축시켜 줍니다.

OKE를 사용해 대규모 운영을 간소화하는 방법은 다음과 같습니다.

리프트 앤 시프트 - 재설계할 필요 없음
자동화를 통한 운영 부담 완화
인프라 관리에 소요되는 시간 절약
리소스 활용도 및 효율성 향상
민첩성, 유연성, 업타임, 회복탄력성 향상
규제 준수 위험 감소 및 보안 강화

마이크로서비스는 모놀리식 애플리케이션보다 많은 이점을 제공합니다.

OKE 중심의 마이크로서비스 아키텍처로 미래에 대비된 애플리케이션을 구축해 보세요.

아키텍처 현대화
혁신 가속화
배포 자동화
병렬형 개발
더 간편해진 확장성
높은 신뢰성
향상된 유연성
향상된 민첩성

"많은 OCI AI 서비스가 Oracle의 관리형 Kubernetes 서비스인 OCI Kubernetes Engine(OKE)에서 실행되고 있습니다. 실제로 Oracle의 엔지니어링 팀은 이전 플랫폼에서 OKE로 전환하는 것만으로도 OCI Vision에서 10배의 성능 향상을 경험했죠. OKE의 성능은 그만큼 뛰어납니다."

Jun Qian

Oracle Cloud Infrastructure, VP of OCI AI Services

OCI에서 클라우드 네이티브 서비스로 혁신을 지속하는 고객들

더 많은 고객 사례 살펴보기

Kubernetes Engine 시작하기

OKE 관리형 노드를 통해 간단한 컨테이너 형식 앱 배포

Docker 컨테이너 형식으로 패키징되고 공통 API를 사용해 통신하는 간단한 마이크로서비스를 배포할 수 있습니다.

샘플 앱 배포하기
가상 노드를 사용한 Kubernetes 클러스터 배포

제공된 Terraform 자동화 기능 및 참조 아키텍처를 사용해 서버리스 가상 노드 풀을 배포하는 모범 사례를 살펴보세요.

가상 노드로 클러스터를 생성하는 방법 살펴보기
Kubernetes 리소스를 최적화하기 위한 패턴 살펴보기

Tryg Insurance가 동적 크기 조정을 통해 비용을 50% 절감한 사례를 살펴보세요.

블로그 읽어보기

2025년 3월 26일

OCI Full Stack DR을 사용하는 완전 자동화된 OCI Kubernetes Engine용 Disaster Recovery 발표

Senior Principal Product Manager, Gregory King

Oracle Cloud Infrastructure(OCI) Full Stack Disaster Recovery(Full Stack DR)가 이제 OCI Kubernetes Engine(OKE)을 기본 지원합니다. 이제 OKE 클러스터는 가상 머신, 스토리지, 로드 밸런서, Oracle 데이터베이스와 마찬가지로 Full Stack DR에서 선택할 수 있는 OCI 리소스가 되었습니다. 이제 고객사의 IT 담당자는 스프레드시트나 텍스트 파일에 코드 또는 단계별 지침을 작성할 필요 없이 OKE, 인프라, 데이터베이스를 검증, 장애 복구, 전환하고 복구 기능을 테스트할 수 있습니다.

게시물 전문 읽어보기