菜单联系我们登录 Oracle Cloud

Kubernetes Engine (OKE)

大规模简化企业级 Kubernetes 操作通过自动扩展、打补丁和升级，轻松部署和管理资源密集型工作负载，例如 AI。

规模化 AI：利用 OCI Kubernetes Engine (OKE) 将创新快速推向市场

12 月 11 日，了解如何加速开发并简化生产环境中的 AI 工作负载管理。

了解如何加速开发并简化生产环境中的 AI 工作负载管理。

立即注册

可扩展、弹性、灵活：为何现在是云原生时代
模块化软件在很多方面具有重大优势，包括可扩展性、弹性和灵活性等等。了解为何当下是转向和实施云原生开发的最佳时机。

下载电子书

为什么要选择 OKE？

性价比

在众多超大规模云技术提供商之中，OKE 提供的 Kubernetes 服务成本较低，尤其是针对无服务器。
自动伸缩

OKE 会根据需求自动调整计算资源，从而降低成本。
效率

GPU 属于稀缺资源，但 OKE 作业调度可以轻松提高资源利用率。
可移植性

OKE 无论是在云端还是本地环境都能够保持一致，有助于实现可移植性并避免供应商锁定。
简易性

OKE 可减少管理 Kubernetes 基础设施复杂性所需的时间和成本。
可靠性

自动升级和安全打补丁可提高控制层和 worker 节点的可靠性。
弹性

OCI Full Stack Disaster Recovery 可提供完全自动化的原生跨区域恢复。

OKE 使用场景

OKE 为 OCI AI 服务提供支持

Kubernetes 是部署 AI 工作负载的理想平台。OKE 为 Oracle Cloud Infrastructure (OCI) AI 服务提供支持。

AI 模型构建

— AI 项目的初始构建阶段涉及定义问题和准备数据以创建模型。

— Kubernetes 集群可以通过授予昂贵且通常有限的 GPU 资源的共享访问权限，同时提供安全且集中管理的环境，以此显著提高效率。

— 与 Kubernetes 相关的开源项目 Kubeflow 提供了一个全面的框架，旨在简化模型的构建、训练和部署。

适用于 AI 模型构建的 OKE

OKE 基于 OCI 构建而成，提供一整套专为 AI/ML 工作负载而设计的高性能基础设施，例如：

— 全系列 NVIDIA GPU，包括 H100、A100、A10 等。

— 超高速 RDMA 网络

通过使用 OKE 自托管节点，您可以在 Kubernetes 集群上运行 AI/ML 构建工作负载。

OKE 为 OCI AI 服务提供支持

Kubernetes 是部署 AI 工作负载的理想平台。OKE 为 OCI AI 服务提供支持。

AI 模型训练

— 在模型训练中，数据科学家会选择算法，并使用之前准备好的数据启动训练作业。此阶段需要复杂的调度系统来高效处理作业。

— 诸如 Volcano 和 Kueue 等 Kubernetes 项目可帮助处理此类需求并高效利用计算资源。

大规模的分布式训练需要集群中低延迟的内部节点通信。此时就需要具有远程直接内存访问 (RDMA) 的专用超高速网络。这种网络允许数据直接移出/移入应用的内存，绕过了 CPU，因此可以缩短延迟时间。

适用于 AI 模型训练的 OKE

OKE 基于 OCI 构建而成，提供一整套专为 AI/ML 工作负载而设计的高性能基础设施，例如：

— 全系列 NVIDIA GPU，包括 H100、A100、A10 等。

— 低延迟、超高性能 RDMA 网络

通过使用 OKE 自托管节点，您可以在 Kubernetes 集群上进行 AI/ML 训练。

OKE 为 OCI AI 服务提供支持

Kubernetes 是部署 AI 工作负载的理想平台。OKE 为 OCI AI 服务提供支持。

AI 模型推理（服务）

— AI 模型推理是 Kubernetes 真正擅长的领域。Kubernetes 可以根据需求自动增加或减少推理 pod 的数量，从而确保高效使用资源。

— Kubernetes 提供复杂的资源管理，包括能够为容器指定 CPU 和内存限制。

适用于 AI 模型推理的 OKE

OKE 以韧性为核心设计，可利用 Kubernetes 的内置云池自动缩放功能，根据使用情况扩展 worker 节点。Worker 节点分布在多个容错域和/或可用性域中，以实现高可用性。

OKE 虚拟节点可提供无服务器 Kubernetes 体验。只需在 pod 级别进行扩展，而无需扩展 worker 节点。这可以加快扩展速度，实现更经济的管理模式，因为服务费是根据所使用的 pod 来计算的。

虚拟节点非常适合推理工作负载，并且可以使用 Arm 处理器，这对于 AI 推理（尤其是当 GPU 供应不足时）来说，是一个更具吸引力的选择。

通过迁移到 OCI 和 OKE，让现有应用从中受益

OKE 可降低总拥有成本并加速市场投放。

OKE 通过以下方式简化大规模操作：

直接迁移；无需重新设计架构
通过自动化减轻运营负担
节省基础设施管理时间
提高资源利用率和效率
提高敏捷性、灵活性、正常运行时间和韧性
降低合规风险，加强安全保护

微服务比单体应用具有更多优势

借助以 OKE 为中心的微服务架构，确保您的应用面向未来。

架构现代化
加快创新步伐
部署自动化
并行开发
更易于扩展
可靠性更高
灵活性更高
敏捷性更高

“Many OCI AI services run on OCI Kubernetes Engine (OKE), Oracle’s managed Kubernetes service.In fact, our engineering team experienced a 10X performance improvement with OCI Vision just by switching from an earlier platform to OKE.It’s that good.”

Jun Qian

甲骨文公司云基础设施 OCI AI 服务副总裁

使用 OCI 云原生服务推动创新的 Oracle 客户

Oracle Cloud Infrastructure：Kubernetes 的高性价比解决方案

CIO 杂志对 OCI 在提供尖端 Kubernetes 解决方案、支持可扩展且高效的应用开发方面的专业度表示认可。

获取报告

赶快行动

使用 OKE 托管节点部署一个简单的容器化应用

部署一个打包为 Docker 容器且基于通用 API 通信的简单应用。

部署示例应用
部署 Kubernetes 集群和虚拟节点

了解使用所提供的 Terraform 自动化和参考架构部署无服务器虚拟节点池的优秀实践。

了解如何创建集群和虚拟节点
了解有助于优化 Kubernetes 资源的模式

了解 Tryg Insurance 如何通过动态扩缩容将成本降低 50%。

阅读博客

2025 年 3 月 26 日

Oracle 宣布推出采用 OCI Full Stack DR、面向 OCI Kubernetes Engine 的全自动化灾难恢复

高级首席产品经理 Gregory King

Oracle Cloud Infrastructure (OCI) Full Stack Disaster Recovery (Full Stack DR) 宣布推出针对 OCI Kubernetes Engine (OKE) 的原生支持服务。现在，OKE 集群已列入全栈灾难恢复中可选择的 OCI 资源之一，就像虚拟机、存储、负载平衡器和 Oracle 数据库一样。这意味着我们无需 IT 人员在电子表格或文本文件中编写代码或分步说明，也可以确切地知道如何验证、故障转移、切换和测试您恢复 OKE、基础设施和数据库的能力。

阅读全文