OCI 通过 Zettascale10 和 Acceleron 重新定义了前沿 AI 性能

搭载 800000 颗 GPU 的超级集群、新型高速以太网连接、超灵活的软件许可方案驱动 OCI 成为一个超级 AI 性能平台。

Alan Zeichick | 2025 年 10 月 16 日


美国拉斯维加斯 — AI 赋能的海量云计算算力即将上线。Oracle 在本周举办的甲骨文全球 AI 大会上宣布推出 OCI Zettascale10 超级集群,通过一个多千兆瓦级集群提供 16 ZFLOPS(每秒十万亿亿次浮点计算)算力。此外,这家超大规模云技术服务提供商还推出了一款高速以太网网络互连产品 Oracle Acceleron,以及一个新的多云软件许可系统(可为客户提供丰富的部署选择)。

OCI Zettacale10 Supercluster 基于 Oracle Cloud Infrastructure (OCI) 构建,覆盖多个数据中心,集成了多达 800000 颗 NVIDIA GPU,其所有组件通过 Oracle 超低延迟的 InfiniBand 和 RoCE 网络连接在一起。其中,InfiniBand 是面向超级计算机的一项行业标准的高速互连技术,支持一台服务器使用 RDMA(远程直接内存访问)来直接读取另一台服务器的内存或向其写入数据。Oracle Acceleron RoCE (RDMA over Converged Ethernet) 网络则将 RDMA 扩展到了云计算集群,尤其适用于处理 AI 任务。

OCI 执行副总裁 Mahesh Thiagarajan 表示:“现在,客户能够以更低的单位性能能耗来构建、训练大型 AI 模型并将其部署到生产环境,同时获得更高可靠性。借助 OCI Zettascale10,我们正将 OCI 突破性的 Oracle Acceleron RoCE 网络架构与新一代 NVIDIA AI 基础设施相融合,提供超大规模的多千兆瓦级 AI 能力。”

Zettascale10 的能力绝非仅用 ZFLOPS(每秒浮点运算能力)或千兆瓦就能衡量。Zettascale10 集群跨多个(通过高容量光纤互连的)密集数据中心运行。因此,它是一个可处理极富挑战性的 AI 工作负载的超级集群。

首台 OCI Zettascale10 超级计算机位于美国德克萨斯州阿比林的一个大型千兆瓦级数据中心园区内。

Acceleron RoCE 扩展了计算架构

Zettascale10 超级集群的一大重要特点是采用了前沿的高速网络互连技术 — Oracle Acceleron RoCE 网络架构。与提供出色性能但依赖专门硬件的 InfiniBand 不同,Acceleron 使用专门的以太网网络接口卡 (NIC) 和线缆来连接 OCI 数据中心内的高性能 GPU。这些专门的 NIC 通过自带的 4 端口以太网交换机来降低大型复杂网络中的数据传输延迟。

While OCI is a collection of services, it's actually designed as a cohesive whole. When you show up and you use our product, from the way it's priced, from the way in which you provision it, the way in which you use our console, the way in which all of the APIs work together, the way you download our SDKs, the way the services actually function—there's a unity of design and an ease of use.”

Clay Magouyrk 甲骨文公司首席执行官

借助 Acceleron 网络架构,Oracle 可以将 GPU NIC 同时连接到多个网络交换机,构建一个具有多个隔离网络平面的扁平化网络架构,帮助客户快速以更低成本部署超大型 AI 集群。该架构还加快了数据传输速度,GPU 不会因等待发送或接收数据而陷入停滞。其带来的一大优势是效率提升 — OCI Zettascale10 超级集群可以更快速地交付结果。另一个优势是性能可预测性 — 由于减少了要遍历的交换机数量,使得 GPU 到 GPU 的延迟更低,因此超级计算机集群的性能更均衡。此外,该架构还提高了弹性,有助于防范因重度使用导致局部网络停滞。最后,即使一个网络平面因硬件或软件维护而停止服务,Acceleron RoCE 网络架构仍能保障数据正常流动。

Acceleron 独特的架构支持在整个网络中以超低延迟进行线速加密。客户可获得 2 倍的潜在网络能力、高达 2 倍的存储 IOPS(每秒输入/输出)以及在主机上直接实施的零信任数据包路由 (ZPR) 安全策略(即深入每一个 Acceleron NIC 和每一个点)。这种方法的一个好处是,能够通过 NIC 级安全策略阻断来自互联网的对象存储访问请求,避免数据泄露。

甲骨文公司首席执行官 Clay Magouyrk 在甲骨文全球 AI 大会主题演讲中表示:“Acceleron 是我们所有 I/O 安全性和加速功能的基础。客户能够以更低的成本、更高的易用性获得更出色的峰值性能和更强大的安全性。”

通用购买方式

当同时使用来自超大规模企业 Oracle、Amazon Web Services、Google Cloud 和 Microsoft Azure 的各种应用和服务时,云技术部署对很多企业而言意味着要克服重重复杂性。不过,即使为了满足技术要求而不得不采用复杂架构,服务许可解决方案也应简单易行。对此,全新的 Oracle Multicloud Universal Credits 计划能够为客户提供强大支持。

通过该计划,客户可在一个或多个云技术平台中购买 Oracle Database 和 OCI 服务。换言之,通用储值可用于购买 Oracle Database@AWS、Oracle Database@Azure、Oracle Database@Google Cloud 以及 OCI 服务。这有助于客户灵活部署工作负载,并在各大云技术平台获得一致的合同条款。

OCI 高级副总裁 Karan Batta 表示:“我们目前提供 37 个跨 AWS、Azure 和 Google Cloud 的多云区域。即将发布的 Oracle Multicloud Universal Credits 计划不仅能简化合同,还带来了业内首个灵活的跨云用量模型,将为客户提供更多选择和更高灵活性。”凭借统一的跨云许可和用量模型,客户可以获得一个统一的 Oracle Applications/服务管理和治理结构,享受一致的数据库体验。

此外,客户还可以使用通用储值购买这几个超大规模云技术平台上的任意一项 OCI 服务。

为企业 AI 树立新的性能和灵活性标准

借助 Zettascale10 超级计算机和 Acceleron RoCE 网络架构技术,客户可使用多达 800000 颗 GPU 来运行繁重的 AI 工作负载。通过 Oracle Multicloud Universal Credits 计划,客户可以更轻松、更简单地获取跨云许可和使用 Oracle Database 服务。凭借这些新服务,Oracle 能够为多云客户提供出色的效率、简单性、灵活性、性能和丰富选择。


查看更多 Oracle Connect 文章

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。