大规模简化企业级 Kubernetes 操作通过自动扩展、打补丁和升级,轻松部署和管理资源密集型工作负载,例如 AI。
CIO 杂志对 OCI 在提供尖端 Kubernetes 解决方案、支持可扩展且高效的应用开发方面的专业度表示认可。
在众多超大规模云技术提供商之中,OKE 提供的 Kubernetes 服务成本较低,尤其是针对无服务器。
OKE 会根据需求自动调整计算资源,从而降低成本。
GPU 属于稀缺资源,但 OKE 作业调度可以轻松提高资源利用率。
OKE 无论是在云端还是本地环境都能够保持一致,有助于实现可移植性并避免供应商锁定。
OKE 可减少管理 Kubernetes 基础设施复杂性所需的时间和成本。
自动升级和安全打补丁可提高控制层和 worker 节点的可靠性。
OCI Full Stack Disaster Recovery 可提供完全自动化的原生跨区域恢复。
Kubernetes 是部署 AI 工作负载的理想平台。OKE 为 Oracle Cloud Infrastructure (OCI) AI 服务提供支持。
— AI 项目的初始构建阶段涉及定义问题和准备数据以创建模型。
— Kubernetes 集群可以通过授予昂贵且通常有限的 GPU 资源的共享访问权限,同时提供安全且集中管理的环境,以此显著提高效率。
— 与 Kubernetes 相关的开源项目 Kubeflow 提供了一个全面的框架,旨在简化模型的构建、训练和部署。
OKE 基于 OCI 构建而成,提供一整套专为 AI/ML 工作负载而设计的高性能基础设施,例如:
— 全系列 NVIDIA GPU,包括 H100、A100、A10 等。
— 超高速 RDMA 网络
通过使用 OKE 自托管节点,您可以在 Kubernetes 集群上运行 AI/ML 构建工作负载。
Kubernetes 是部署 AI 工作负载的理想平台。OKE 为 OCI AI 服务提供支持。
— 在模型训练中,数据科学家会选择算法,并使用之前准备好的数据启动训练作业。此阶段需要复杂的调度系统来高效处理作业。
— 诸如 Volcano 和 Kueue 等 Kubernetes 项目可帮助处理此类需求并高效利用计算资源。
大规模的分布式训练需要集群中低延迟的内部节点通信。此时就需要具有远程直接内存访问 (RDMA) 的专用超高速网络。这种网络允许数据直接移出/移入应用的内存,绕过了 CPU,因此可以缩短延迟时间。
OKE 基于 OCI 构建而成,提供一整套专为 AI/ML 工作负载而设计的高性能基础设施,例如:
— 全系列 NVIDIA GPU,包括 H100、A100、A10 等。
— 低延迟、超高性能 RDMA 网络
通过使用 OKE 自托管节点,您可以在 Kubernetes 集群上进行 AI/ML 训练。
Kubernetes 是部署 AI 工作负载的理想平台。OKE 为 OCI AI 服务提供支持。
— AI 模型推理是 Kubernetes 真正擅长的领域。Kubernetes 可以根据需求自动增加或减少推理 pod 的数量,从而确保高效使用资源。
— Kubernetes 提供复杂的资源管理,包括能够为容器指定 CPU 和内存限制。
OKE 以韧性为核心设计,可利用 Kubernetes 的内置云池自动缩放功能,根据使用情况扩展 worker 节点。Worker 节点分布在多个容错域和/或可用性域中,以实现高可用性。
OKE 虚拟节点可提供无服务器 Kubernetes 体验。只需在 pod 级别进行扩展,而无需扩展 worker 节点。这可以加快扩展速度,实现更经济的管理模式,因为服务费是根据所使用的 pod 来计算的。
虚拟节点非常适合推理工作负载,并且可以使用 Arm 处理器,这对于 AI 推理(尤其是当 GPU 供应不足时)来说,是一个更具吸引力的选择。
OKE 可降低总拥有成本并加速市场投放。
OKE 通过以下方式简化大规模操作:
借助以 OKE 为中心的微服务架构,确保您的应用面向未来。
“Many OCI AI services run on OCI Kubernetes Engine (OKE), Oracle’s managed Kubernetes service.In fact, our engineering team experienced a 10X performance improvement with OCI Vision just by switching from an earlier platform to OKE.It’s that good.”
甲骨文公司云基础设施 OCI AI 服务副总裁
高级首席产品经理 Gregory King
Oracle Cloud Infrastructure (OCI) Full Stack Disaster Recovery (Full Stack DR) 宣布推出针对 OCI Kubernetes Engine (OKE) 的原生支持服务。现在,OKE 集群已列入全栈灾难恢复中可选择的 OCI 资源之一,就像虚拟机、存储、负载平衡器和 Oracle 数据库一样。这意味着我们无需 IT 人员在电子表格或文本文件中编写代码或分步说明,也可以确切地知道如何验证、故障转移、切换和测试您恢复 OKE、基础设施和数据库的能力。
阅读全文Kubernetes 是一个专用于管理和扩展容器化应用和服务集群的开源平台。
获取 30 天免费试用资格,体验 CI/CD 工具、托管 Terraform 和遥测等。
了解可部署参考架构和解决方案手册。
使用 Kubernetes、Docker、无服务器和 API 等来助力应用开发。
请联系 Oracle,了解销售、支持等更多信息。
注:为免疑义,本网页所用以下术语专指以下含义:
