Stack Monitoring

Oracle Cloud Infrastructure (OCI) Stack Monitoring 为主机、GPU、数据库和应用服务器等应用和基础设施提供重要的监控和警报管理。

OCI Stack Monitoring:服务概览 (9:23)
  • 在一个位置监控应用和基础设施

    消除孤岛,全面洞悉 Oracle E-Business Suite、PeopleSoft 和 GoldenGate 系统以及基础设施(例如主机、GPU、数据库和本地或云端应用服务器)的运行状况。通过 Prometheus、collectd 或 Telegraf 集成,将监控扩展到任何基础设施。使用定制指标,监控任何特殊情况。

  • 大规模管理预警

    使用 Monitoring Templates,管理 E-Business Suite 或 PeopleSoft 应用、数据库系统、应用服务器和主机组(包括 GPU 架构)的所有预警条件。扩展环境时,会自动应用预警设置。在打补丁的期间,您可以使用能够感知拓扑的 Maintenance Windows 轻松排除预警。

  • 监控 GPU 基础设施和工作负载

    通过对 GPU 基础设施进行一站式监控,您可以使用 Enterprise Health and Alarms 视图,以交互方式监控整个 GPU 组。对开放预警进行分类,评估所有 GPU 的活动,监控 GPU 利用率,跟踪 GPU 温度,并识别未充分利用的 GPU 和错误。监控工作负载流程,并与底层基础设施相关联。

OCI Stack Monitoring 的工作原理

OCI Stack Monitoring 可对本地或云端运行的应用和基础设施资源进行全栈监控和预警管理。Stack Monitoring 应用特定的逻辑可作为与 agent 捆绑在一起的插件,主要用于发现资源和收集指标,这些指标过后会发送到 OCI。OCI Stack Monitoring 可根据发现结果,创建资源和应用拓扑。状态和关键性能数据将会显示在 Enterprise Health and Alarms 用户界面 (UI)、资源主页以及数据库组和应用仪表盘中。使用在 OCI Monitoring 中创建预警的监控模板,简化预警创建并在堆栈监控 UI 中自动显示和汇总预警。系统会使用机器学习,自动计算关键绩效指标的基线,并在绩效图表中突出显示异常。

OCI Stack Monitoring 客户成功案例

查看所有客户案例

OCI Stack Monitoring 使用场景

  • 监控 Oracle 应用,包括 E-Business Suite 和 PeopleSoft

    搜索和监控 E-Business Suite 应用部署的所有组件,包括 Concurrent Manager、Workflow Background Engine、Notification Mailer 以及从属 WebLogic 服务器、Oracle Database 和主机。使用 E-Business Suite 主页,检查所有组件的状态并打开预警。借助 Stack View,快速检查全栈的重要指标,包括 E-Business Suite 长时间运行的程序、Concurrent Manager 请求状态、WebLogic 内存使用率和线程池状态、Oracle Database 等待时间、主机 CPU 和内存。


    通过使用类似的工作流,搜索和监控 PeopleSoft 及其组件,包括 Application Server Domain、PeopleSoft Internet Architecture (PIA)、Process Scheduler 以及从属 WebLogic Server、Oracle Database 和主机。使用 PeopleSoft 主页,检查所有组件的状态和打开的预警。使用 PeopleSoft Stack View,评估应用服务器和进程调度程序域以及 PIA 的状态和负载、WebLogic 资源使用情况和停滞线程、Oracle Database 等待时间、主机 CPU 和内存。


    获取有关监控 Oracle 应用的更多详细信息

  • 监控云端和本地主机

    在云端或本地部署的主机上部署 agent 或预配 OCI 计算实例后,立即开始监控有关主机。在一个视图中,监控所有云端主机和本地主机的状态、预警、资源使用情况(CPU、内存、切换和文件系统使用情况)以及负载(磁盘活动和分页活动)。对高 CPU 的主机进行调查,以确定 CPU 占用率高的应用。使用性能图表中显示的异常,了解高资源使用率是否在预期基线内。如有需要,可以使用指 Metric Extensions 来监控特定于您的环境的条件。


    获取有关监控云端主机和本地主机的更多详细信息

  • 监控数据库和中间件

    支持一站式搜索和监控数据库和中间件。监控完整的 Oracle Database 系统(包括 PDB、Listener、Automatic Storage Management 和 Cluster)、GoldenGate 和 SQL Server 数据库。监控中间件,例如 WebLogic Servers、Managed File Transfer、SOA 和 Oracle HTTP Server,以及 Tomcat、Apache HTTP Server、JBoss、JVM 服务器、Oracle Identity Manager 和 Oracle Unified Directory。


    使用 Enterprise Health and Alarms 对未解决的预警进行分类,并了解性能低下、资源使用率高、数据库中的错误以及中间件层。使用交互式图表,动态关联任意两个响应和负载度量。向下钻取到任何绩效指标,以查看历史趋势并确定异常。


    获取有关监控数据库和中间件的更多详细信息

  • 添加自定义指标

    使用 Metric Extensions 监控您的环境特有的条件。按照 Metric Extensions 引导工作流,定义指标的名称和类型、自定义脚本或 SQL 查询。以迭代方式测试指标;尝试将指标应用于测试资源,检查数据,并根据需要调整指标。完成测试后,在您的资源上发布并启用 Metric Extension。在主页、Enterprise Health and Alarms 或仪表盘等 Stack Monitoring UI 中,监控来自 Metric Extensions 的数据。启用异常检测,自动学习基线并识别性能图表中的异常。在 Metric Extension 上设置预警规则,以便在数值超过性能阈值时生成预警。


    获取有关自定义指标的更多详细信息

  • 监控 GPU 基础设施

    在单一 Enterprise Health and Alarms 视图中,监控 GPU 基础设施组的整体运行状况。与此视图交互,对主机和 GPU 之间的未解决预警进行分类,跟踪所有主机的 CPU 和内存使用率,评估所有 GPU 的 GPU 活动、内存使用率、功率、温度和延迟。识别主机可用性问题或热点,例如接近高温上限的 GPU。跟踪错误和未充分利用的 GPU。从企业视图向下钻取到特定群集网络视图。继续使用内置拓扑视图进行故障排除,从集群网络深入到网络块内的主机和 GPU 或集群网络中的本地块。


    获取有关监控 GPU 基础设施的更多详细信息

  • 管理全组预警

    使用 Monitoring Templates,简化应用、系统和基础设施组的预警管理。Monitoring Templates 提供了一种以资源为中心的方式来定义和管理 E-Business Suite 或 PeopleSoft 应用、数据库系统或一组应用服务器和主机的所有预警条件。在打补丁期间,使用 Maintenance Windows 提供一种以资源为中心的方式,以便暂时关闭一组主机或应用服务器或 E-Business Suite 和 PeopleSoft 等应用的警报。


    获取有关 Monitoring Templates 的更多详细信息

OCI Stack Monitoring 的功能

GPU 基础设施和工作负载监控

GPU 基础设施监控

发现 GPU 基础设施拓扑。

  • 发现集群网络拓扑,包括网络块、本地块、主机和 GPU。
  • 发现与集群网络拓扑中的主机关联的 GPU。
  • 提供内置拓扑 UI 来浏览集群网络拓扑。

监控 GPU 基础设施的运行状况和工作负载

自上而下的企业运行状况和预警监控。

  • 使用 Enterprise Health and Alarms 主机 GPU 视图,监控整个机群的所有 GPU 基础设施。
  • 状态区域可识别主机可用性问题。
  • 预警区域汇总了所有主机和 GPU 的预警,支持向下钻取以进行额外分类。
  • 主机性能图表汇总了所有主机的 CPU 和内存使用率,有助于确定异常值。
  • GPU 性能图表汇总了所有 GPU 的性能,包括活动、内存利用率、功耗、温度、延迟和 ECC 错误。该图表有助于识别问题所在的区域,例如高温和错误,或可用于其他工作负载的未使用 GPU。
  • 交互式视图支持向下钻取到历史数据或特定主机或 GPU,以便进行其他故障排除。
  • 监控工作负载进程,并将性能与底层主机和 GPU 相关联。

发现应用和应用基础设施

简化搜索

一键搜索 Oracle E-Business Suite 和 PeopleSoft 等应用以及应用栈技术。

  • 发现 E-Business Suite 的所有组件,例如并发处理、工作流后台引擎和通知邮件程序以及从属 WebLogic Server。
  • 发现 PeopleSoft 及其组件的所有组件,例如应用服务器域、PIA、进程调度程序和 OpenSearch 以及从属 WebLogic Server。
  • 发现数据库和相关资源支持,例如 Oracle Database 系统(包括 PDB、Listener、Automatic Storage Management 和 Cluster)、SQL Server 数据库以及 GoldenGate。
  • 发现中间件支持,例如 WebLogic Server、Managed File Transfer、SOA、Oracle HTTP Server、Tomcat、Apache HTTP Server、Oracle Identity Manager、Oracle Unified Directory 等。
  • 自动搜索和监控本地部署的主机以及使用 agent 部署的计算。

应用拓扑

自动创建应用拓扑,将应用与应用服务器和数据库关联起来,以便对全栈的问题进行故障排除。

  • E-Business Suite 应用拓扑将 E-Business Suite 与从属 WebLogic 服务器和 Oracle Database 关联在一起。
  • PeopleSoft 应用拓扑将 PeopleSoft 与从属 WebLogic 服务器和 Oracle Database 关联在一起。
  • WebLogic 域拓扑将其 WebLogic 集群和 WebLogic 服务器关联在一起。
  • Oracle Database 系统拓扑与 Oracle Database、PDB、Listeners、Cluster 和 Automatic Storage Management 相关联。
  • GoldenGate 拓扑与 GoldenGate 部署、管理服务、分发服务以及提取和复制等组件相关联。

监控应用和基础设施运行状况

精选监控

自动监视每种资源类型的重要指标,包括其可用性状态、负载、错误和利用率,从而减轻 DevOps 的负担,无需专家来确定哪些是重要的监视内容。

  • E-Business Suite 监控范围涵盖了程序运行时间以及 Concurrent Manager 和长时间运行的并发请求的状态。
  • PeopleSoft 监控范围涵盖了应用服务器域运行状况和负载、进程调度程序域运行状况和负载、PIA 运行状况和负载、Elasticsearch/OpenSearch 查询以及提取延迟。
  • WebLogic 监控范围涵盖了包括堆使用量、停滞线程、Web 请求率和 Web 请求处理时间。
  • Oracle Database 监控范围涵盖了表空间使用情况、阻塞会话、数据库时间、FRA 使用情况和 IO 吞吐量。
  • 主机监控范围涵盖了 CPU、内存、交换和文件系统利用率。

基于机器学习的异常检测

异常检测可快速识别和解决问题。

  • 提供针对超出历史规范的资源的快速视觉识别。
  • 使用机器学习自动计算关键绩效指标的基线。
  • 标记异常行为并提供有用的图表和比较。

大规模预警管理

Monitoring Templates 提供了一种资源导向型方法,为应用、系统或资源组设置预警规则条件。

  • 使用 Oracle 认证的 Monitoring Templates,获取 E-Business Suite、PeopleSoft、Oracle Database、WebLogic 服务器、主机和其他资源类型的推荐预警规则。
  • Monitoring Templates 提供了一种资源导向型方法,以指定和管理模板中特定资源的全套预警条件和通知,而不仅仅是管理一个指标的预警规则。
  • OCI Monitoring 预警规则会根据监控模板自动生成和更新。

维护窗口

维护窗口提供了一种资源导向型方法来禁止正在执行维护操作的资源发出预警。

  • 在维护窗口中指定资源,例如应用、数据库系统或主机,并禁止所有相关的预警。
  • 对于基于拓扑的应用(例如 E-Business Suite 或 PeopleSoft),维护窗口将自动包含所有成员。维护中的主机将自动包含主机上运行的资源。
  • 支持一次性维护窗口和重复性维护窗口。

专为交互式故障排除而设计的 UI

统一管理本地和云端

使用 Enterprise Health and Alarms 了解整个企业,并快速识别停机、打开预警和性能热点。

  • 状态区域可识别中断问题。
  • 通过按类型划分的状态区域,可以评估整个应用栈或系统的状态,例如 E-Business Suite、PeopleSoft、GoldenGate 或 Oracle Database。
  • 预警区域按预警严重性进行汇总,支持向下钻取以进一步调查。
  • 应用服务器、数据库和主机的层级视图可识别响应速度慢且利用率高的资源。
  • 交互式图表支持快速评估不同的指标,并可以向下钻取到历史数据。

综合监控主页

获取资源状态、关键性能指标、预警和关联资源的访问权限。

  • 检查资源及其相关组件的状态。
  • 对所有打开的预警进行分类。
  • 将不同时段的负载和性能相关联。
  • 通过性能图表中显示的异常情况,注意待处理的性能问题。
  • 了解资源依赖性以进行全面监控,并使用导航拓扑快速向下钻取到从属资源。

精选应用 Stack Views

Stack Views 可快速洞察应用的关键 KPI 及其底层基础设施栈。

  • E-Business Suite Stack View:检查主要 E-Business Suite 程序的运行时间,验证并发管理器请求的状态,监控 WebLogic 堆使用率、Oracle Database 等待时间、主机 CPU 和内存使用情况。
  • PeopleSoft Stack View:检查应用服务器域运行状况和负载状态,并验证服务器进程是否正在运行。查看 WebLogic JVM 内存使用率和线程池状态、Oracle Database 等待时间、主机 CPU 和内存使用情况。

仪表盘

使用仪表盘,统一多个 Observability and Management 服务的指标、跟踪和日志。

  • 使用开箱即用的主机、E-Business Suite、PeopleSoft 和 Oracle Unified Directory 仪表盘,监控一组基础设施和应用。
  • 克隆任何开箱即用的仪表盘并对其进行扩展,以包括来自其他 Observability and Management 服务的跟踪和日志。

扩展和自定义监控

Metric Extensions

添加定制指标,以监控环境特有的条件。

  • 基于 UI 的工作流可指导您完成为资源创建指标定义、测试、发布和启用过程。
  • Metric Extensions 数据将自动显示在资源主页中,并且可以添加到 Enterprise Health and Alarms 视图中。
  • 在 Monitoring Templates 中选择包含 Metric Extensions,以便在数值超过阈值时生成预警。
  • 在 Metric Extensions 上启用异常检测,以在指标图表中显示性能异常。

导入 OCI Service 实例

通过将 OCI Stack Monitoring 资源与其他 OCI 服务实例关联,以此扩展应用拓扑。

  • 将 OCI 服务的指标数据导入到 OCI Stack Monitoring,从而在 Stack Monitoring 中为该服务创建新的资源实例。例如,您可以导入 OCI Load Balancer 来为 WebLogic 集群提供服务。
  • 将新的 OCI 服务资源与其他资源关联,以丰富您的应用拓扑并获得所有资源的统一监控可见性。

与其他数据源集成

通过与 Prometheus、Telegraf、collectd 和基于流程的定制资源集成,监控任何类型的基础设施。

  • Prometheus 集成可以通过任何发出 Prometheus 数据的外部源创建新资源。
  • Telegraf 和 collectd 集成可监控各种基础设施和应用。
  • 识别构成该应用的进程,以监控在主机上运行的任何应用。系统将自动监控状态以及 CPU 和内存使用率。

赶快行动


联系销售

有兴趣了解有关 OCI Stack Monitoring 的更多信息?让我们的专家为您提供帮助。

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国 。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。