Stack Monitoring

Oracle Cloud Infrastructure (OCI) Stack Monitoring bietet zentrale Funktionen zur Überwachung und Alarmverwaltung für Anwendungen und Infrastrukturen – darunter Hosts, GPUs, Datenbanken und Anwendungsserver.

OCI Stack Monitoring: Serviceüberblick (9:23)
  • Überwachung von Anwendungen und Infrastruktur an einem Ort

    Beseitigen Sie Silos und verschaffen Sie sich einen umfassenden Überblick über den Zustand Ihrer Oracle E-Business Suite-, PeopleSoft- und GoldenGate-Systeme sowie über die Infrastruktur, wie z. B. Hosts, GPUs, Datenbanken und App-Server, die vor Ort oder in der Cloud laufen. Erweitern Sie die Überwachung auf jede beliebige Infrastruktur mit der Integration von Prometheus, collectd oder Telegraf. Überwachen Sie jede einzelne Bedingung mit benutzerdefinierten Metriken.

  • Alarme in großem Maßstab verwalten

    Verwenden Sie Überwachungsvorlagen, um alle Alarmbedingungen für Ihre E-Business Suite- oder PeopleSoft-Anwendungen, Datenbanksysteme, Anwendungsserver und Hostflotten, einschließlich der GPU-Infrastruktur, zu verwalten. Die Alarmeinstellungen werden automatisch übernommen, wenn Ihre Umgebung wächst. Während der Patching-Fenster können Sie Alarme mit Hilfe von Topologie-Wartungsfenstern einfach unterdrücken.

  • GPU-Infrastruktur und -Workloads überwachen

    Mit der schlüsselfertigen Überwachung der GPU-Infrastruktur können Sie mit der Ansicht „Enterprise Health and Alarms“ die gesamte GPU-Flotte interaktiv überwachen. Sichten Sie offene Alarme, bewerten Sie die Aktivität aller GPUS, überwachen Sie die GPU-Auslastung, verfolgen Sie die GPU-Temperaturen und identifizieren Sie nicht ausgelastete GPUs und Fehler. Überwachen Sie Workload-Prozesse und korrelieren Sie sie mit der zugrunde liegenden Infrastruktur.

So funktioniert Stack Monitoring

OCI Stack Monitoring bietet Full-Stack-Monitoring und Alarmmanagement von Anwendungen und Infrastrukturressourcen, die On-Premises oder in der Cloud laufen. Die App-spezifische Logik von Stack Monitoring wird als Plugin für den Agenten gebündelt, der wiederum zur Erkennung von Ressourcen und zum Sammeln von Metriken verwendet wird, die dann an OCI gesendet werden. Stack Monitoring erstellt Ressourcen und Anwendungstopologien aus den Discovery-Ergebnissen. Status- und wichtige Leistungsdaten werden in der Benutzeroberfläche (UI) Enterprise Health and Alarms, auf den Homepages der Ressourcen sowie in den Flotten- und Anwendungs-Dashboards angezeigt. Die Erstellung von Alarmen wird durch Überwachungsvorlagen rationalisiert, die Alarme in OCI Monitoring erstellen und automatisch in der Stack Monitoring UI angezeigt und zusammengefasst werden. Mithilfe von maschinellem Lernen werden automatisch Basiswerte für wichtige Leistungskennzahlen berechnet und Anomalien in Leistungsdiagrammen hervorgehoben.

Stack Monitoring – Kundenberichte

Alle Kundenerfolge anzeigen

Stack Monitoring – Anwendungsfälle

  • Überwachung von Oracle Applications, einschließlich E-Business Suite und PeopleSoft

    Erkennen und überwachen Sie alle Komponenten Ihrer E-Business Suite-Anwendungsbereitstellung, einschließlich Concurrent Manager, Workflow Background Engine, Notification Mailer und die abhängigen WebLogic Server, Oracle Datenbanken und Hosts. Verwenden Sie die Homepage der E-Business Suite, um den Status aller Komponenten und offenen Alarme zu überprüfen. Mit Stack View können Sie schnell die Vitaldaten des gesamten Stacks überprüfen, einschließlich lang laufender E-Business Suite-Programme, des Status von Concurrent Manager-Anfragen, der WebLogic-Speicherauslastung und des Thread-Pool-Status, der Oracle Database-Wartezeiten, der Host-CPU und des Speichers.


    Mithilfe ähnlicher Workflows können Sie PeopleSoft und seine Komponenten ermitteln und überwachen, einschließlich der Anwendungsserver-Domäne, der PeopleSoft Internet Architecture (PIA), des Prozessplaners und der abhängigen WebLogic Server, Oracle Database und Hosts. Auf der PeopleSoft-Homepage können Sie den Status aller Komponenten und offenen Alarme überprüfen. Verwenden Sie die PeopleSoft Stack View, um den Status und die Auslastung von Anwendungsserver- und Prozess-Scheduler-Domänen und PIA, WebLogic-Ressourcennutzung und festsitzende Threads, Oracle Database-Wartezeiten, Host-CPU und Speicher zu beurteilen.


    Weitere Informationen zur Überwachung von Oracle Applications

  • Cloud- und On-Premises-Hosts überwachen

    Beginnen Sie mit der Überwachung von Cloud- oder On-Premises-Hosts, sobald ein Agent oder eine OCI-Compute-Instanz darauf bereitgestellt wird. Überwachen Sie Status, Alarme, Ressourcennutzung (CPU-, Speicher-, Swap- und Dateisystemnutzung) und Auslastung (Festplattenaktivität und Paging-Aktivität) für alle Cloud- und On-Premises-Hosts in einer einzigen Ansicht. Untersuchen Sie Hosts mit hohem CPU-Verbrauch, um die Anwendungen mit dem höchsten CPU-Verbrauch zu ermitteln. Nutzen Sie die in den Leistungsdiagrammen angezeigten Anomalien, um festzustellen, ob eine hohe Ressourcennutzung im Rahmen der erwarteten Grundlinien liegt. Überwachen Sie bei Bedarf die für Ihre Umgebung spezifischen Bedingungen mithilfe von Metric Extensions.


    Weitere Informationen zur Überwachung von Cloud- und On-Premises-Hosts

  • Datenbanken und Middleware überwachen

    Entdecken und überwachen Sie Datenbanken und Middleware an einem Ort. Überwachen Sie komplette Oracle Database Systeme (einschließlich PDBs, Listener, Automatic Storage Management und Cluster), GoldenGate und SQL Server Datenbanken. Überwachen Sie Middleware wie WebLogic Server, Managed File Transfer, SOA und Oracle HTTP Server, sowie Tomcat, Apache HTTP Server, JBoss, JVM Server, Oracle Identity Manager und Oracle Unified Directory.


    Verwenden Sie Enterprise Health und Alarme, um offene Alarme zu bearbeiten und langsame Leistung, hohe Ressourcennutzung, Fehler in der Datenbank und auf den Middleware-Ebenen zu verstehen. Verwenden Sie die interaktiven Diagramme, um zwei beliebige Antwort- und Lastmetriken dynamisch zu korrelieren. Sie können jede beliebige Leistungskennzahl aufschlüsseln, um historische Trends zu sehen und Anomalien zu erkennen.


    Weitere Informationen zur Überwachung von Datenbanken und Middleware

  • Benutzerdefinierte Metriken hinzufügen

    Überwachen Sie Bedingungen, die für Ihre Umgebung einzigartig sind, mit Metric Extensions. Folgen Sie dem geführten Workflow für Metric Extensions, um den Namen und den Typ der Metrik, benutzerdefinierte Skripte oder SQL-Abfragen zu definieren. Testen Sie die Metrik iterativ; probieren Sie die Metrik an Testressourcen aus, überprüfen Sie die Daten und bearbeiten Sie die Metrik nach Bedarf. Veröffentlichen Sie die Metric Extension nach dem Testen und aktivieren Sie sie für Ihre Ressourcen. Überwachen Sie die Daten von Metric Extensions von jeder Stack Monitoring UI aus - von den Homepages, Enterprise Health und Alarms oder Dashboards. Aktivieren Sie die Anomalieerkennung, um automatisch Baselines zu lernen und Anomalien in Leistungsdiagrammen zu erkennen. Richten Sie Alarmregeln für Metric Extensions ein, um Alarme zu erzeugen, wenn Werte Leistungsschwellen überschreiten.


    Weitere Details zu benutzerdefinierten Metriken

  • GPU-Infrastruktur überwachen

    Überwachen Sie den Gesamtzustand Ihrer GPU-Infrastrukturflotte in einer einzigen Ansicht für den Zustand und die Alarme des Unternehmens. Mit dieser Ansicht können Sie offene Alarme über Hosts und GPUs hinweg einordnen, die CPU- und Speicherauslastung über alle Hosts hinweg verfolgen und die GPU-Aktivität, Speicherauslastung, Stromverbrauch, Temperatur und Latenz über alle GPUs hinweg bewerten. Erkennen Sie Probleme mit der Host-Verfügbarkeit oder Hotspots wie GPUs, die sich der Maximaltemperatur nähern. Verfolgen Sie Fehler und nicht ausgelastete GPUs. Wechseln Sie von der Unternehmensansicht zu einer bestimmten Cluster-Netzwerkansicht. Setzen Sie die Fehlerbehebung mithilfe der integrierten Topologieansichten fort, um von einem Cluster-Netzwerk zu Hosts und GPUs innerhalb von Netzwerkblöcken oder lokalen Blöcken im Cluster-Netzwerk zu navigieren.


    Weitere Informationen zur Überwachung der GPU-Infrastruktur

  • Alarme flottenweit verwalten

    Vereinfachen Sie das Alarmmanagement für Anwendungen, Systeme und Infrastrukturflotten mithilfe von Überwachungsvorlagen. Überwachungsvorlagen (Monitoring Templates) bieten eine ressourcenorientierte Möglichkeit, alle Alarmbedingungen für eine E-Business Suite- oder PeopleSoft-Anwendung, ein Datenbanksystem oder eine Flotte von Anwendungsservern und Hosts zu definieren und zu verwalten. Verwenden Sie während Patch-Zeiträumen Wartungsfenster, um Alarme für eine Gruppe von Hosts oder Anwendungsservern oder für Anwendungen wie E-Business Suite und PeopleSoft ressourcenorientiert stummzuschalten.


    Weitere Informationen zu Überwachungsvorlagen

Stack Monitoring: Funktionen

GPU-Infrastruktur- und Workload-Überwachung

GPU-Infrastrukturüberwachung

Erkennung der GPU-Infrastrukturtopologie.

  • Ermittelt die Cluster-Netzwerktopologie, einschließlich Netzwerkblöcke, lokaler Blöcke, Hosts und GPUs.
  • Ermittelt GPUs, die mit den Hosts innerhalb der Cluster-Netzwerktopologie verbunden sind.
  • Bietet integrierte Topologie-Benutzeroberflächen zur Navigation durch die Cluster-Netzwerktopologie.

Zustand und Auslastung der GPU-Infrastruktur überwachen

Top-Down-Überwachung des Unternehmenszustands und der Alarme.

  • Verwenden Sie Enterprise Health and Alarms für die Host-GPU-Ansicht, um die gesamte GPU-Infrastruktur der Flotte zu überwachen.
  • Der Statusbereich zeigt Probleme mit der Verfügbarkeit des Hosts an.
  • Der Alarmbereich fasst Alarme aller Hosts und GPUs zusammen und bietet Drilldowns für eine zusätzliche Triage.
  • Host-Leistungsdiagramme aggregieren die CPU- und Speicherauslastung aller Hosts und helfen dabei, Ausreißer zu identifizieren.
  • GPU-Leistungsdiagramme fassen die Leistung aller GPUs zusammen, einschließlich Aktivität, Speicherauslastung, Stromverbrauch, Temperatur, Latenzen und ECC-Fehler. Hilft bei der Identifizierung von Problembereichen, wie z. B. hohen Temperaturen und Fehlern oder ungenutzten GPUs für zusätzliche Workloads.
  • Interaktive Ansichten ermöglichen einen Drilldown zu historischen Daten oder zu bestimmten Hosts oder GPUs für zusätzliche Fehlerbehebung.
  • Überwachen Sie Workload-Prozesse und korrelieren Sie die Leistung mit den zugrunde liegenden Hosts und GPUs.

Ermittlung von Anwendungen und Anwendungsinfrastruktur

Vereinfachte Erkennung

Ein-Klick-Discovery für Anwendungen wie Oracle E-Business Suite und PeopleSoft sowie für Anwendungsstack-Technologien.

  • Ermittelt alle Komponenten der E-Business Suite, wie z. B. parallele Verarbeitung, Workflow-Hintergrund-Engine und Benachrichtigungs-Mailer sowie die abhängigen WebLogic-Server.
  • Ermittelt alle Komponenten von PeopleSoft sowie deren Komponenten, wie z. B. Anwendungsserverdomäne, PIA, Prozessplaner und OpenSearch sowie die abhängigen WebLogic-Server.
  • Unterstützung für die Erkennung von Datenbanken und zugehörigen Ressourcen, wie Oracle Database System (einschließlich PDBs, Listener, Automatic Storage Management und Cluster), SQL Server-Datenbank und GoldenGate.
  • Unterstützung für die Erkennung von Middleware wie WebLogic-Servern, Managed File Transfer, SOA, Oracle HTTP Server, Tomcat, Apache HTTP Server, Oracle Identity Manager, Oracle Unified Directory und mehr.
  • Automatische Erkennung und Überwachung von On-Premises-Hosts und Rechnern mit Agentenbereitstellung.

Anwendungstopologie

Automatische Erstellung einer Anwendungstopologie, die Anwendungen mit Anwendungsservern und Datenbanken verknüpft, um die Fehlerbehebung über die gesamte Stack-Struktur hinweg zu ermöglichen.

  • Die Anwendungstopologie der E-Business Suite verknüpft die E-Business Suite mit den abhängigen WebLogic-Servern und Oracle Database.
  • Die PeopleSoft-Anwendungstopologie verknüpft PeopleSoft mit den abhängigen WebLogic-Servern und Oracle Database.
  • Die WebLogic-Domänentopologie verknüpft die WebLogic-Cluster und WebLogic-Server miteinander.
  • Die Topologie von Oracle Database-Systemen verbindet Oracle Database, PDBs, Listener, Cluster und Automatic Storage Management.
  • Die GoldenGate-Topologie verknüpft Komponenten wie GoldenGate-Bereitstellung, Verwaltungsservice, Verteilungsservice sowie Extrahieren und Replizieren.

Überwachung von Anwendungen und Infrastrukturzustand

Kuratierte Überwachung

Jeder Ressourcentyp wird automatisch auf wichtige Vitalparameter hinsichtlich Verfügbarkeit, Reaktionszeit, Auslastung, Fehler und Nutzung überwacht. Dadurch werden DevOps entlastet, da sie nicht mehr über das Fachwissen verfügen müssen, um zu entscheiden, was überwacht werden muss.

  • Die Überwachung der E-Business Suite umfasst die Laufzeit von Programmen sowie den Status des Concurrent Managers und lang laufender gleichzeitiger Anfragen.
  • Die Überwachung von PeopleSoft umfasst den Zustand und die Auslastung der Anwendungsserverdomäne, den Zustand und die Auslastung der Prozessplaner-Domäne, den Zustand und die Auslastung von PIA, Elasticsearch/OpenSearch-Abfragen und Latenzen beim Abrufen von Daten.
  • Die WebLogic-Überwachung umfasst die Heap-Auslastung, hängende Threads, die Rate der Webanfragen und die Verarbeitungszeit von Webanfragen.
  • Die Überwachung der Oracle Database umfasst die Nutzung von Tablespaces, blockierende Sitzungen, Datenbankzeit, FRA-Nutzung und IO-Durchsatz.
  • Die Hostüberwachung umfasst die Auslastung von CPU, Arbeitsspeicher, Auslagerungsspeicher und Dateisystem.

Maschinelles Lernen zur Erkennung von Anomalien

Die Anomalieerkennung ermöglicht eine schnelle Problemerkennung und -lösung.

  • Bietet eine schnelle visuelle Identifizierung von Ressourcen, deren Leistung außerhalb der historischen Normen liegt.
  • Verwendet maschinelles Lernen, um automatisch Basiswerte für wichtige Leistungskennzahlen zu berechnen.
  • Meldet ungewöhnliches Verhalten und stellt hilfreiche Diagramme und Vergleiche bereit.

Alarmmanagement in großem Maßstab

Überwachungsvorlagen bieten eine ressourcenorientierte Möglichkeit, Alarmregelbedingungen für eine Anwendung, ein System oder eine Flotte von Ressourcen festzulegen.

  • Verwenden Sie Oracle zertifizierte Überwachungsvorlagen für empfohlene Alarmregeln für E-Business Suite, PeopleSoft, Oracle Database, WebLogic Server, Hosts und andere Ressourcentypen.
  • Anstelle der Verwaltung einzelner Alarmregeln für Metriken bieten Überwachungsvorlagen eine ressourcenorientierte Möglichkeit, einen vollständigen Satz von Alarmbedingungen und Benachrichtigungen für die in der Vorlage angegebenen Ressourcen festzulegen und zu verwalten.
  • Alarmregeln für OCI Monitoring werden automatisch auf Grundlage der Überwachungsvorlage generiert und aktualisiert.

Wartungsfenster

Wartungsfenster bieten eine ressourcenorientierte Möglichkeit, Alarme für Ressourcen zu unterdrücken, die gerade gewartet werden.

  • Geben Sie die Ressourcen wie Anwendungen, Datenbanksysteme oder Hosts im Wartungsfenster an, und alle zugehörigen Alarme werden unterdrückt.
  • Bei topologiebasierten Anwendungen wie E-Business Suite oder PeopleSoft werden alle Mitglieder automatisch in die Wartungsfenster aufgenommen. Hosts, die sich in Wartung befinden, umfassen automatisch die auf dem Host ausgeführten Ressourcen.
  • Einmalige und wiederkehrende Wartungsfenster werden unterstützt.

Speziell zusammengestellte Benutzeroberfläche für interaktive Fehlerbehebung

Ein zentraler Speicherort für On-Premises und Cloud

Nutzen Sie Enterprise Health und Alarms, um einen Überblick über Ihr gesamtes Unternehmen zu erhalten und Ausfälle, offene Alarme und Leistungsengpässe schnell zu erkennen.

  • Der Statusbereich zeigt Ausfälle an.
  • Der Statusbereich nach Typ ermöglicht die Bewertung des Status eines vollständigen Anwendungsstacks oder Systems, z. B. E-Business Suite, PeopleSoft, GoldenGate oder Oracle Database.
  • Der Alarmbereich fasst Alarme nach Schweregrad zusammen und bietet Detailansichten für weitere Untersuchungen.
  • Stufen-Ansichten für App-Server, Datenbanken und Hosts identifizieren Ressourcen mit der langsamsten Antwortzeit und der höchsten Auslastung.
  • Interaktive Diagramme ermöglichen eine schnelle Bewertung verschiedener Kennzahlen und einen Drilldown zu historischen Daten.

Homepages für die ganzheitliche Überwachung

Erhalten Sie Zugriff auf den Status der Ressource, wichtige Leistungskennzahlen, Alarme und zugehörige Ressourcen.

  • Überprüfen Sie den Status der Ressource und der zugehörigen Komponenten.
  • Sortieren Sie alle offenen Alarme.
  • Setzen Sie Auslastung und Leistung über Zeiträume hinweg in Relation zueinander.
  • Achten Sie auf anstehende Leistungsprobleme anhand von Anomalien in den Leistungsdiagrammen.
  • Verstehen Sie Ressourcenabhängigkeiten für eine ganzheitliche Überwachung und nutzen Sie die Navigationstopologie für schnelle Drilldowns zu abhängigen Ressourcen.

Kuratierte Anwendungsstack-Ansichten

Stack Views bieten einen schnellen Einblick in die kritischen KPIs für die Anwendung und den zugrunde liegenden Infrastruktur-Stack.

  • E-Business Suite Stack View: Überprüfen Sie die Laufzeiten der wichtigsten E-Business Suite-Programme, überprüfen Sie den Status von Concurrent Manager-Anforderungen, überwachen Sie die WebLogic-Heap-Auslastung, die Wartezeiten der Oracle Database, die Host-CPU und die Speichernutzung.
  • PeopleSoft Stack View: Überprüfen Sie den Status der Anwendungsserver-Domänenintegrität und -Auslastung und stellen Sie sicher, dass die Serverprozesse ausgeführt werden. Überprüfen Sie die WebLogic JVM-Speichernutzung und den Thread-Pool-Status, die Wartezeiten der Oracle Database, die Host-CPU und die Speichernutzung.

Dashboards

Vereinheitlichen Sie Metriken, Traces und Protokolle über Observability- und Management-Services hinweg mithilfe von Dashboards.

  • Verwenden Sie sofort einsatzbereite Dashboards für Host, E-Business Suite, PeopleSoft und Oracle Unified Directory, um eine Flotte von Infrastrukturen und Anwendungen zu überwachen.
  • Klonen Sie jedes sofort einsatzbereite Dashboard und erweitern Sie es um Trace- und Protokollinformationen aus anderen Observability- und Management-Services.

Überwachung erweitern und anpassen

Metric Extensions

Fügen Sie benutzerdefinierte Metriken hinzu, um die für Ihre Umgebung spezifischen Bedingungen zu überwachen.

  • Eine UI-basierte Workflow-Anleitung führt Sie durch den Prozess der Erstellung von Metrikdefinitionen, deren Test, Veröffentlichung und Aktivierung für Ihre Ressourcen.
  • Daten aus Metric Extensions werden automatisch auf den Ressourcen-Homepages angezeigt und können zu den Ansichten „Enterprise Health“ und „Alarms“ hinzugefügt werden.
  • Fügen Sie Metric Extensions in Monitoring Templates ein, um Alarme zu generieren, sobald Schwellenwerte überschritten werden.
  • Aktivieren Sie die Anomalieerkennung in Metric Extensions, um Leistungsanomalien in Metrikdiagrammen anzuzeigen.

Importieren von OCI Service-Instanzen

Erweitern Sie Ihre Anwendungstopologie, indem Sie Stack Monitoring-Ressourcen mit anderen OCI-Serviceinstanzen verknüpfen.

  • Importieren Sie die Metrikdaten eines OCI-Services in Stack Monitoring, um eine neue Ressourceninstanz für diesen Service in Stack Monitoring zu erstellen. Beispielsweise können Sie OCI Load Balancer importieren, um den WebLogic-Cluster zu bedienen.
  • Verknüpfen Sie die neue OCI-Serviceressource mit anderen Ressourcen, um Ihre Anwendungstopologie zu erweitern und eine einheitliche Überwachung aller Ressourcen zu erhalten.

Integration mit anderen Datenquellen

Überwachen Sie jede Art von Infrastruktur durch die Integration mit Prometheus, Telegraf, collectd und prozessbasierten benutzerdefinierten Ressourcen.

  • Die Prometheus-Integration erstellt neue Ressourcen aus jeder externen Quelle, die Prometheus-Daten ausgibt.
  • Die Integration von Telegraf und collectd ermöglicht die Überwachung einer Vielzahl von Infrastrukturen und Anwendungen.
  • Überwachen Sie alle auf einem Host ausgeführten Apps, indem Sie die Prozesse identifizieren, aus denen die App besteht. Der Status sowie die CPU- und Speicherauslastung werden automatisch überwacht.

Erste Schritte mit Stack Monitoring


Vertrieb kontaktieren

Möchten Sie mehr über Stack Monitoring erfahren? Einer unserer Experten wird Ihnen gerne helfen.