AI 基础设施

在分布式云环境的任意位置更快地运行高要求的 AI 工作负载,包括包括前沿模型训练和推理、agentic AI、科学计算和推荐系统。使用可支持多达 131072 个 GPU 的 Oracle Cloud Infrastructure ( OCI ) Supercluster,实现 zettascale 级性能。

全球 Oracle Cloud 区域采用 NVIDIA GB200 NVL72 机架 (2:21)

Oracle 与 Google 合作,将 Gemini 引入 OCI Generative AI。

Oracle 和 NVIDIA 共同创新

了解两家公司如何加速 AI 采用。

为何要选择 OCI AI 基础设施?

性能和价值

利用 OCI 独特的 GPU 裸金属实例和超快的 RDMA 集群网络加快 AI 训练速度,将延迟降低至 2.5 微秒。在 GPU VM 上获得更实惠的定价

HPC 存储

利用具有高性能挂载目标 (HPMT)Lustre 的 OCI File Storage,实现每秒 TB 级的吞吐量。可使用高达 61.44 TB 的 NVMe 存储,是业内超高的 GPU 实例。

主权 AI

Oracle 的分布式云技术支持您在任意位置部署 AI 基础设施,满足您独特的性能、安全性和 AI 主权要求。了解 Oracle 和 NVIDIA 如何在任何位置提供主权 AI 服务

OCI Supercluster 映像的可扩展性,说明如下 该图显示了代表计算和存储的盒子,这些盒子由线条连接在一起,形成了集群网络。左侧是最小的集群,仅有 16000 个 NVIDIA H100 GPU,有四个计算盒子和两个存储盒子。其右侧是一个搭载了 32000 个 NVIDIA A100 GPU 的集群,有 8 个计算盒子和 4 个存储盒子。然后是配置 64000 个 NVIDIA H200 GPU 的集群,有 16 个计算盒子和 8 个存储盒子。最后,右侧则是配备 128000 个 NVIDIA Blackwell 和 Grace Blackwell GPU 的集群,有 32 个计算盒子和 16 个存储盒子。此图表明了 OCI Supercluster 高达 8 倍的可扩展性,包括从左边最小的 16000 个 GPU 配置增加到右边最大的 128000 个 GPU 配置。

搭载了 NVIDIA Blackwell 和 Hopper GPU 的 OCI Supercluster

GPU 多达 131072 个,8 倍更高的可扩展性
网络结构的创新支持 OCI Supercluster 扩展至 131072 个 NVIDIA B200 GPU,以及超过 100000 个 NVIDIA Grace Blackwell Superchips 和 65536 个 NVIDIA H200 GPU。

OCI AI 基础设施可满足您的所有需求

无论是执行推断、微调还是训练大型横向扩展的生成式 AI 模型,OCI 都能提供出色的裸金属和虚拟机 GPU 集群,通过超高带宽网络和高性能存储满足您的 AI 需求。

AI 基础设施产品图,说明如下 该图显示了 AI 基础设施的多个产品,从左侧的最小配置开始,然后逐步增加到中等规模和大规模配置。最小的配置仅具有 1 个 GPU,常用于在虚拟机中;而最大配置则配备了高达 100000 多个 GPU,可用于 RDMA 集群。

使用配备 Instinct MI300X GPU 的 OCI Compute AMD 的“先试后买”计划。

了解面向大规模 AI 训练的 OCI Supercluster

使用 NVIDIA Blackwell 和 Hopper 实现大规模横向扩展集群


超级计算
•无任何虚拟机管理程序开销的裸金属实例
•由 NVIDIA Blackwell (GB200 NVL72,HGX B200)、
Hopper (H200,H100) 和上一代 GPU 加速
•可选择使用 AMD MI300X GPU
•用于内置硬件加速的数据处理单元 (Data Processing Unit,DPU)

大容量和高吞吐量存储
•本地存储:高达 61.44 TB 的 NVMe SSD 容量
• 文件存储:由 Oracle 托管的文件存储,具备 Lustre 服务和 高性能挂载目标
块存储:均衡、高性能和超高性能卷,并提供性能 SLA
对象存储:不同的存储类层、存储桶复制和高容量限制

超高速网络
•定制设计的基于融合以太网的 RDMA 协议 (RoCE v2)
• 2.5 至 9.1 微秒的集群网络延迟
•至多 3,200 Gb/秒的集群网络带宽
•最多 400 Gb/秒的前端网络带宽

OCI Supercluster 计算服务

基于 NVIDIA GB200 NVL72、NVIDIA B200、NVIDIA H200、AMD MI300X、NVIDIA L40S、NVIDIA H100 和 NVIDIA A100 GPU 的 OCI 裸金属实例支持您为深度学习、会话式 AI 和生成式 AI 等使用场景运行大型 AI 模型。

借助 OCI Supercluster,您可以扩展至超过 100000 个 GB200 Superchips、131072 个 B200 GPU、65536 个 H200 GPU、32768 个 A100 GPU、16384 个 H100 GPU、16384 个 MI300X GPU 以及每个集群 3840 个 L40S GPU。

Supercluster 计算服务图像
放大+
图中展示了基于 NVIDIA A100 GPU 的 GPU 集群节点和延迟低于 2 微秒的网络。

OCI Supercluster 网络服务

基于 NVIDIA ConnectX 网络接口卡和基于融合以太网的 RDMA 第二版的高速 RDMA 集群网络支持您创建大型 GPU 实例集群,获得与本地部署环境下相同的超低网络延迟和应用可扩展性优势。

您无需为 RDMA 容量、块存储或网络带宽额外付费,同时前 10 TB 数据出站也完全免费。

Supercluster 网络服务
放大+
图中展示了一个 Supercluster RDMA 网络,其中每个节点配备了 8 个 NVIDIA A100 GPU,各个节点通过一个节点间总带宽高达 1.6 Tb/秒的全双工网络连接。

OCI Supercluster 存储服务

OCI Supercluster 支持您访问本地存储、块存储、对象存储和文件存储来执行 PB 级计算。相比其他主流云技术提供商,OCI 提供更高的高性能本地 NVMe 存储容量,可满足更高频次的训练中检查点要求,进而加快故障恢复速度。

对于海量数据集,OCI 通过 Lustre 和挂载目标提供高性能文件存储。同时,您还可以使用 HPC 文件系统(包括 BeeGFS、GlusterFS 和 WEKA)进行规模化 AI 训练而无需担心性能下降。

Zettascale OCI Superclusters

观看 OCI 的优秀架构师演示,了解集群网络如何为可扩展的生成式 AI 提供强大支持。从几个 GPU 到拥有超过 131000 个 NVIDIA Blackwell GPU 的 Zettascale OCI Superclusters,集群网络可为您的 AI 之旅提供高速、低延迟和弹性网络。

2025 年 6 月 12 日

Seekr 选择 Oracle Cloud Infrastructure 为全球企业和政府客户提供值得信赖的 AI 技术

甲骨文公司公关专员 Abel Habtegeorgis

作为一家专注于提供可信 AI 的人工智能公司,Seekr 已与 Oracle Cloud Infrastructure (OCI) 签订多年期协议,以快速加速企业 AI 部署并执行联合市场推广战略。

阅读全文

AI 基础设施的典型使用场景

使用基于 GPU 的 OCI 裸金属实例以及 RDMA 集群网络和 OCI Data Science 训练 AI 模型。


深度学习训练和推断示意图
使用基于 GPU 的 OCI 裸金属实例以及 RDMA 集群网络和 OCI Data Science 训练 AI 模型。

使用增强型 AI 工具分析海量历史客户数据对于确保每天数十亿笔金融交易安全至关重要。借助基于 NVIDIA GPU 的 OCI Compute 以及 OCI Data Science 等模型管理工具和其它开源模型,金融机构可以显著降低欺诈风险。


AI 驱动的欺诈检测示意图
借助基于 NVIDIA GPU 的 OCI Compute 以及 OCI Data Science 等模型管理工具和其它开源模型,金融机构可以显著降低欺诈风险。

AI 常常被医院用于分析各种类型的医疗图像,例如 X 射线和 MRI 图像。经过良好训练的 AI 模型有助于高效识别需要放射科医生即刻审阅的高优先级图像并向其他人报告最终结果。


基于 AI 的医疗图像分析示意图
通过使用 GPU 驱动的 OCI Compute 运行经过良好训练的 AI 模型,医院可以分析医疗图像,即刻提供最终结果或识别高优先级图像以供进一步审阅。

药物发现过程既耗时(可能长达数年)又耗费资金(可能耗资数百万美元)。AI 基础设施和分析可以帮助研究人员加快药物发现速度。此外,基于 NVIDIA GPU 的 OCI Compute 以及 AI 工作流管理工具(例如 BioNemo)还能帮助客户管理和预处理自己的数据。


使用 AI 加速药物发现示意图
AI 基础设施和分析可以帮助研究人员加快药物发现速度,更好地管理和预处理数据。

赶快行动

联系 AI 主题专家

获取 AI 主题专家帮助,更好地构建您的下一个 AI 解决方案或在 OCI AI 基础设施上部署工作负载。

  • 专家能为您解答以下问题:

    • 如何开始使用 Oracle Cloud?
    • 可以在 OCI 上运行哪些 AI 工作负载?
    • OCI 提供哪些类型的 AI 服务?

了解如何立即应用 AI

使用专为企业构建的生成式 AI 解决方案,帮助您的企业走进生产力新时代。了解 Oracle 如何帮助客户在整个技术堆栈中嵌入 AI。

  • Oracle AI 可助力企业实现哪些目标?

    • 在 OCI 中微调 LLM
    • 实现发票处理自动化
    • 使用 RAG 构建聊天机器人
    • 使用生成式 AI 汇总网络内容
    • ……等等

更多资源

详细了解 RDMA 集群网络、GPU 实例和裸金属服务器等等。

了解您可以通过 OCI 节省多少成本

在定价方面,Oracle Cloud 采用全球统一超低定价,并支持各种使用场景。请利用成本估算器并配置所需服务,以估算低费率。

体验不同之处

  • 1/4 出站带宽成本
  • 3 倍计算性价比
  • 全球统一超低价格
  • 无长期承诺的低定价

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国 。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。