Oracle Cloud Infrastructure (OCI) Stack Monitoring 为主机、GPU、数据库和应用服务器等应用和基础设施提供重要的监控和警报管理。
消除孤岛,全面洞悉 Oracle E-Business Suite、PeopleSoft 和 GoldenGate 系统以及基础设施(例如主机、GPU、数据库和本地或云端应用服务器)的运行状况。通过 Prometheus、collectd 或 Telegraf 集成,将监控扩展到任何基础设施。使用定制指标,监控任何特殊情况。
使用 Monitoring Templates,管理 E-Business Suite 或 PeopleSoft 应用、数据库系统、应用服务器和主机组(包括 GPU 架构)的所有预警条件。扩展环境时,会自动应用预警设置。在打补丁的期间,您可以使用能够感知拓扑的 Maintenance Windows 轻松排除预警。
通过对 GPU 基础设施进行一站式监控,您可以使用 Enterprise Health and Alarms 视图,以交互方式监控整个 GPU 组。对开放预警进行分类,评估所有 GPU 的活动,监控 GPU 利用率,跟踪 GPU 温度,并识别未充分利用的 GPU 和错误。监控工作负载流程,并与底层基础设施相关联。
OCI Stack Monitoring 可对本地或云端运行的应用和基础设施资源进行全栈监控和预警管理。Stack Monitoring 应用特定的逻辑可作为与 agent 捆绑在一起的插件,主要用于发现资源和收集指标,这些指标过后会发送到 OCI。OCI Stack Monitoring 可根据发现结果,创建资源和应用拓扑。状态和关键性能数据将会显示在 Enterprise Health and Alarms 用户界面 (UI)、资源主页以及数据库组和应用仪表盘中。使用在 OCI Monitoring 中创建预警的监控模板,简化预警创建并在堆栈监控 UI 中自动显示和汇总预警。系统会使用机器学习,自动计算关键绩效指标的基线,并在绩效图表中突出显示异常。
搜索和监控 E-Business Suite 应用部署的所有组件,包括 Concurrent Manager、Workflow Background Engine、Notification Mailer 以及从属 WebLogic 服务器、Oracle Database 和主机。使用 E-Business Suite 主页,检查所有组件的状态并打开预警。借助 Stack View,快速检查全栈的重要指标,包括 E-Business Suite 长时间运行的程序、Concurrent Manager 请求状态、WebLogic 内存使用率和线程池状态、Oracle Database 等待时间、主机 CPU 和内存。
通过使用类似的工作流,搜索和监控 PeopleSoft 及其组件,包括 Application Server Domain、PeopleSoft Internet Architecture (PIA)、Process Scheduler 以及从属 WebLogic Server、Oracle Database 和主机。使用 PeopleSoft 主页,检查所有组件的状态和打开的预警。使用 PeopleSoft Stack View,评估应用服务器和进程调度程序域以及 PIA 的状态和负载、WebLogic 资源使用情况和停滞线程、Oracle Database 等待时间、主机 CPU 和内存。
在云端或本地部署的主机上部署 agent 或预配 OCI 计算实例后,立即开始监控有关主机。在一个视图中,监控所有云端主机和本地主机的状态、预警、资源使用情况(CPU、内存、切换和文件系统使用情况)以及负载(磁盘活动和分页活动)。对高 CPU 的主机进行调查,以确定 CPU 占用率高的应用。使用性能图表中显示的异常,了解高资源使用率是否在预期基线内。如有需要,可以使用指 Metric Extensions 来监控特定于您的环境的条件。
支持一站式搜索和监控数据库和中间件。监控完整的 Oracle Database 系统(包括 PDB、Listener、Automatic Storage Management 和 Cluster)、GoldenGate 和 SQL Server 数据库。监控中间件,例如 WebLogic Servers、Managed File Transfer、SOA 和 Oracle HTTP Server,以及 Tomcat、Apache HTTP Server、JBoss、JVM 服务器、Oracle Identity Manager 和 Oracle Unified Directory。
使用 Enterprise Health and Alarms 对未解决的预警进行分类,并了解性能低下、资源使用率高、数据库中的错误以及中间件层。使用交互式图表,动态关联任意两个响应和负载度量。向下钻取到任何绩效指标,以查看历史趋势并确定异常。
使用 Metric Extensions 监控您的环境特有的条件。按照 Metric Extensions 引导工作流,定义指标的名称和类型、自定义脚本或 SQL 查询。以迭代方式测试指标;尝试将指标应用于测试资源,检查数据,并根据需要调整指标。完成测试后,在您的资源上发布并启用 Metric Extension。在主页、Enterprise Health and Alarms 或仪表盘等 Stack Monitoring UI 中,监控来自 Metric Extensions 的数据。启用异常检测,自动学习基线并识别性能图表中的异常。在 Metric Extension 上设置预警规则,以便在数值超过性能阈值时生成预警。
在单一 Enterprise Health and Alarms 视图中,监控 GPU 基础设施组的整体运行状况。与此视图交互,对主机和 GPU 之间的未解决预警进行分类,跟踪所有主机的 CPU 和内存使用率,评估所有 GPU 的 GPU 活动、内存使用率、功率、温度和延迟。识别主机可用性问题或热点,例如接近高温上限的 GPU。跟踪错误和未充分利用的 GPU。从企业视图向下钻取到特定群集网络视图。继续使用内置拓扑视图进行故障排除,从集群网络深入到网络块内的主机和 GPU 或集群网络中的本地块。
使用 Monitoring Templates,简化应用、系统和基础设施组的预警管理。Monitoring Templates 提供了一种以资源为中心的方式来定义和管理 E-Business Suite 或 PeopleSoft 应用、数据库系统或一组应用服务器和主机的所有预警条件。在打补丁期间,使用 Maintenance Windows 提供一种以资源为中心的方式,以便暂时关闭一组主机或应用服务器或 E-Business Suite 和 PeopleSoft 等应用的警报。
发现 GPU 基础设施拓扑。
自上而下的企业运行状况和预警监控。
一键搜索 Oracle E-Business Suite 和 PeopleSoft 等应用以及应用栈技术。
自动创建应用拓扑,将应用与应用服务器和数据库关联起来,以便对全栈的问题进行故障排除。
自动监视每种资源类型的重要指标,包括其可用性状态、负载、错误和利用率,从而减轻 DevOps 的负担,无需专家来确定哪些是重要的监视内容。
异常检测可快速识别和解决问题。
Monitoring Templates 提供了一种资源导向型方法,为应用、系统或资源组设置预警规则条件。
维护窗口提供了一种资源导向型方法来禁止正在执行维护操作的资源发出预警。
使用 Enterprise Health and Alarms 了解整个企业,并快速识别停机、打开预警和性能热点。
获取资源状态、关键性能指标、预警和关联资源的访问权限。
Stack Views 可快速洞察应用的关键 KPI 及其底层基础设施栈。
使用仪表盘,统一多个 Observability and Management 服务的指标、跟踪和日志。
添加定制指标,以监控环境特有的条件。
通过将 OCI Stack Monitoring 资源与其他 OCI 服务实例关联,以此扩展应用拓扑。
通过与 Prometheus、Telegraf、collectd 和基于流程的定制资源集成,监控任何类型的基础设施。
有兴趣了解有关 OCI Stack Monitoring 的更多信息?让我们的专家为您提供帮助。
注:为免疑义,本网页所用以下术语专指以下含义: