Stack Monitoring

Oracle Cloud Infrastructure (OCI) Stack Monitoring fournit une surveillance et une gestion des alarmes essentielles pour les applications et l'infrastructure, telles que les hôtes, les GPU, les bases de données et les serveurs d'applications.

OCI Stack Monitoring : Présentation du service (9:23)
  • Surveiller les applications et l'infrastructure en un seul endroit

    Eliminez les cloisonnements et bénéficiez d'une visibilité complète sur l'état de vos systèmes Oracle E-Business Suite, PeopleSoft et GoldenGate, ainsi que sur l'infrastructure, telle que les hôtes, les GPU, les bases de données et les serveurs d'applications exécutés on-premises ou dans le cloud. Étendez la surveillance à n'importe quelle infrastructure avec l'intégration Prometheus, Collectd ou Telegraf. Surveillez toute condition unique à l'aide de mesures personnalisées.

  • Gérer les alarmes à grande échelle

    Utilisez des modèles de surveillance pour gérer toutes les conditions d'alarme pour vos applications E-Business Suite ou PeopleSoft, vos systèmes de bases de données, vos serveurs d'applications et votre parc d'hôtes, y compris l'infrastructure GPU. Les paramètres d'alarme sont automatiquement appliqués au fur et à mesure de la croissance de votre environnement. Pendant les fenêtres d'application de patches, vous pouvez supprimer facilement les alarmes à l'aide des fenêtres de maintenance tenant compte de la topologie.

  • Surveiller l'infrastructure et les workloads des GPU

    Grâce à la surveillance clé en main de l'infrastructure de GPU, utilisez la vue Enterprise Health and Alarms pour effectuer une surveillance interactive sur l'ensemble du parc de GPU. Triage des alarmes ouvertes, évaluation de l'activité sur tous les GPUS, surveillance de l'utilisation des GPU, suivi des températures des GPU et identification des GPU et des erreurs sous-utilisés. Surveillez les processus de workloads et établissez une corrélation avec l'infrastructure sous-jacente.

Fonctionnement de Stack Monitoring

OCI Stack Monitoring fournit une surveillance complète de la pile et une gestion des alarmes des applications et des ressources d'infrastructure exécutées sur site ou dans le cloud. La logique propre à l'application de Stack Monitoring est intégrée en tant que module d'extension à l'agent qui, à son tour, est utilisé pour repérer les ressources et collecter les mesures qui sont ensuite envoyées à OCI. Stack Monitoring crée des ressources et des topologies d'application à partir des résultats de repérage. Les données de statut et de performances clés sont affichées dans l'interface utilisateur d'Enterprise Health and Alarms, les pages d'accueil des ressources et les tableaux de bord de parc et d'application. La création d'alarmes est rationalisée à l'aide de modèles de surveillance qui créent des alarmes dans OCI Monitoring. Elles sont automatiquement affichées et récapitulées dans l'interface utilisateur Stack Monitoring. Grâce au machine learning, les références pour les mesures de performances clés sont automatiquement calculées et les anomalies sont mises en évidence dans les graphiques de performances.

Témoignages clients de Stack Monitoring

Voir tous les témoignages clients

Cas d'usage de Stack Monitoring

  • Surveillance des Applications Oracle, y compris E-Business Suite et PeopleSoft

    Repérez et surveillez tous les composants de votre déploiement d'application E-Business Suite, notamment le gestionnaire de traitements simultanés, le moteur de workflow en arrière-plan, l'émetteur de notifications et les serveurs WebLogic dépendants, les bases de données Oracle et les hôtes. Utilisez la page d'accueil E-Business Suite pour vérifier le statut de tous les composants et alarmes ouvertes. Avec Stack View, vous pouvez rapidement vérifier les signes vitaux de la pile, notamment les programmes à longue durée d'exécution d'E-Business Suite, le statut des demandes du gestionnaire de traitements simultanés, l'utilisation de la mémoire WebLogic et le statut du pool de threads, les temps d'attente d'Oracle Database, l'UC de l'hôte et la mémoire.


    À l'aide de workflows similaires, vous pouvez repérer et surveiller PeopleSoft et ses composants, notamment le domaine de serveur d'applications, l'architecture Internet (PIA) PeopleSoft, Process Scheduler et le serveur WebLogic, Oracle Database et les hôtes dépendants. Utilisez la page d'accueil PeopleSoft pour vérifier le statut de tous les composants et des alarmes ouvertes. Utilisez la vue de pile PeopleSoft pour évaluer le statut et la charge des domaines de serveur d'applications et d'Ordonnanceur de traitements, ainsi que de PIA, d'utilisation des ressources WebLogic et des threads bloqués, des temps d'attente Oracle Database, de l'UC hôte et de la mémoire.


    Obtenir plus de détails sur la surveillance des applications Oracle

  • Surveillez les hôtes cloud et sur site

    Commencez à surveiller les hôtes cloud ou sur site dès qu'un agent y est déployé ou dès qu'une instance de calcul OCI est provisionnée. Surveillez le statut, les alarmes, l'utilisation des ressources (UC, mémoire, swap et utilisation du système de fichiers) et la charge (activité du disque et activité de pagination) sur tous les hôtes cloud et on-premises dans une vue unique. Examinez les hôtes avec une CPU élevée pour déterminer les applications qui consomment la CPU la plus élevée. Utilisez les anomalies affichées dans les graphiques de performances pour déterminer si les utilisations élevées des ressources sont conformes aux valeurs de référence attendues. Si nécessaire, surveillez les conditions propres à votre environnement à l'aide des extensions de mesure.


    Obtenir plus de détails sur la surveillance des hôtes cloud et sur site

  • Surveillez les bases de données et le middleware

    Repérez et surveillez les bases de données et le middleware au même endroit. Surveillez les systèmes Oracle Database complets (comprenant les bases de données pluggables, le processus d'écoute, Automatic Storage Management et le cluster), GoldenGate et les bases de données SQL Server. Surveillez les middlewares tels que WebLogic Servers, Managed File Transfer, SOA et Oracle HTTP Server, ainsi que Tomcat, Apache HTTP Server, JBoss, les serveurs JVM, Oracle Identity Manager et Oracle Unified Directory.


    Utilisez Enterprise Health and Alarms pour trier les alarmes ouvertes et comprendre les performances lentes, l'utilisation élevée des ressources, les erreurs dans la base de données et les niveaux de middleware. Utilisez ses graphiques interactifs pour corréler dynamiquement les 2 mesures de réponse et de charge. Effectuez une analyse descendante des mesures de performances pour consulter l'historique des tendances et identifier les anomalies.


    Obtenir plus de détails sur la surveillance des bases de données et du middleware

  • Ajouter des mesures personnalisées

    Surveillez les conditions propres à votre environnement à l'aide des extensions de mesure. Suivez le workflow guidé Extensions de mesure pour définir le nom et le type de mesures, les scripts personnalisés ou les requêtes SQL. Testez la mesure de manière itérative. Testez la mesure sur les ressources de tests, vérifiez les données et modifiez-la si nécessaire. Une fois testé, publiez et activez l'extension de mesure sur vos ressources. Surveillez les données des extensions de mesure à partir de n'importe quelle interface utilisateur de Stack Monitoring : pages d'accueil, état de l'entreprise, alarmes ou tableaux de bord. Activez la détection d'anomalies pour apprendre automatiquement les références et identifiez les anomalies dans les graphiques de performances. Configurez des règles d'alarmes sur les extensions de mesure pour générer des alarmes lorsque les valeurs dépassent les seuils de performances.


    Obtenir plus de détails sur les mesures personnalisées

  • Surveillez l'infrastructure des GPU

    Surveillez l'état général de votre parc d'infrastructures de GPU à partir d'une vue unique sur l'état de l'entreprise et les alarmes. Interagissez avec cette vue pour trier les alarmes ouvertes sur les hôtes et les GPU, suivre l'utilisation de la CPU et de la mémoire sur tous les hôtes, évaluer l'activité des GPU, l'utilisation de la mémoire, la puissance, la température et la latence sur tous les GPU. Identifiez les problèmes de disponibilité des hôtes ou les points chauds tels que les GPU proches des températures maximales. Suivez les erreurs et les GPU sous-utilisés. Accédez à une vue réseau de cluster spécifique à partir de la vue Enterprise. Continuez le dépannage à l'aide des vues de topologie intégrées pour effectuer une analyse descendante à partir d'un réseau de cluster vers des hôtes et des GPU au sein de blocs réseau ou de blocs locaux dans le réseau de cluster.


    Obtenir plus de détails sur la surveillance de l'infrastructure GPU

  • Gérez les alarmes dans l'ensemble du parc

    Simplifiez la gestion des alarmes pour les applications, les systèmes et le parc d'infrastructures à l'aide de modèles de surveillance. Les modèles de surveillance permettent de définir et de gérer toutes les conditions d'alarme d'une application E-Business Suite ou PeopleSoft, d'un système de bases de données ou d'un parc de serveurs et d'hôtes d'applications. Pendant les périodes d'application de patches, utilisez les fenêtres de maintenance pour fournir un moyen centré sur les ressources de désactiver les alarmes pour un parc d'hôtes ou de serveurs d'applications ou pour des applications telles que E-Business Suite et PeopleSoft.


    Obtenir plus de détails sur les modèles de surveillance

Fonctionnalités de Stack Monitoring

Infrastructure GPU et surveillance des workloads

Surveillance de l'infrastructure des GPU

Découverte de la topologie d'infrastructure GPU.

  • Repère la topologie réseau du cluster, y compris les blocs réseau, les blocs locaux, les hôtes et les GPU.
  • Repère les GPU associés aux hôtes au sein de la topologie réseau du cluster.
  • Fournit des interfaces utilisateur de topologie intégrées pour naviguer dans la topologie réseau du cluster.

Surveillez l'état et les workloads de l'infrastructure GPU

Surveillance descendante de l'état de l'entreprise et des alarmes.

  • Utilisez Enterprise Health and Alarms pour la vue GPU hôte afin de surveiller l'ensemble de l'infrastructure GPU du parc.
  • La région de statut identifie les problèmes de disponibilité de l'hôte.
  • La région Alarms regroupe les alarmes sur tous les hôtes et GPU avec des analyses descendantes pour un tri supplémentaire.
  • Les graphiques de performances des hôtes regroupent l'utilisation de l'UC et de la mémoire sur tous les hôtes et permettent d'identifier les valeurs aberrantes.
  • Les graphiques de performances des GPU regroupent les performances de tous les GPU, y compris l'activité, l'utilisation de la mémoire, la consommation électrique, la température, les latences et les erreurs ECC. Aide à identifier les domaines problématiques, tels que les températures élevées et les erreurs ou les GPU inutilisés pour des workloads supplémentaires.
  • Les vues interactives permettent d'accéder aux données historiques ou à des hôtes ou GPU spécifiques pour un dépannage supplémentaire.
  • Surveillez les processus de charge globale et corréler les performances avec les hôtes et les GPU sous-jacents.

Découverte des applications et de l'infrastructure des applications

Découverte simplifiée

Repérage en un clic pour les applications telles qu'Oracle E-Business Suite et PeopleSoft, ainsi que pour les technologies de pile d'applications.

  • Repère tous les composants d'E-Business Suite, tels que le traitement simultané, le moteur de workflow en arrière-plan et l'émetteur de notifications, ainsi que les serveurs WebLogic dépendants.
  • Repère tous les composants de PeopleSoft et ses composants, tels que le domaine de serveur d'applications, PIA, l'ordonnanceur de processus et OpenSearch, ainsi que les serveurs WebLogic dépendants.
  • Prise en charge du repérage des bases de données et des ressources associées, telles que le système Oracle Database (y compris les bases de données pluggables, le processus d'écoute, Automatic Storage Management et le cluster), la base de données SQL Server et GoldenGate.
  • Prise en charge du repérage pour les middleware tels que les serveurs WebLogic, le transfert de fichiers gérés, SOA, Oracle HTTP Server, Tomcat, Apache HTTP Server, Oracle Identity Manager, Oracle Unified Directory, etc.
  • Détection automatique et surveillance des hôtes sur site et calcul avec déploiement d'agent.

Topologie des applications

Création automatique de la topologie d'application qui associe les applications aux serveurs d'applications et aux bases de données pour permettre le dépannage des problèmes sur l'ensemble de la pile.

  • La topologie d'application E-Business Suite associe E-Business Suite aux serveurs WebLogic dépendants et à Oracle Database.
  • La topologie d'application PeopleSoft associe PeopleSoft aux serveurs WebLogic dépendants et à Oracle Database.
  • La topologie de domaine WebLogic associe ses clusters WebLogic et ses serveurs WebLogic.
  • La topologie des systèmes Oracle Database associe Oracle Database, les bases de données pluggables, les processus d'écoute, le cluster et Automatic Storage Management.
  • La topologie GoldenGate associe des composants tels que le déploiement GoldenGate, le service d'administration, le service de distribution, ainsi que l'extraction et la réplication.

Surveillance de l'état des applications et de l'infrastructure

Surveillance organisée

Chaque type de ressource est automatiquement surveillé pour détecter les signes vitaux liés à sa disponibilité, à sa réponse, à sa charge, à son erreur et à son utilisation, ce qui réduit le nombre de DevOps nécessitant une expertise de domaine pour déterminer les éléments importants à surveiller.

  • La surveillance d'E-Business Suite inclut la durée d'exécution du programme ainsi que le statut du gestionnaire de traitements simultanés et des traitements simultanés à longue durée d'exécution.
  • La surveillance PeopleSoft inclut l'état et la charge du domaine de serveur d'applications, l'état et la charge du domaine de l'ordonnanceur de processus, l'état et la charge PIA, la requête Elasticsearch/OpenSearch et les latences d'extraction.
  • La surveillance WebLogic inclut l'utilisation de la portion de mémoire, les threads bloqués, le taux de demande Web et le temps de traitement des demandes Web.
  • La surveillance d'Oracle Database inclut l'utilisation des tablespaces, les sessions bloquantes, le temps de base de données, l'utilisation de FRA et le débit d'E/S.
  • La surveillance de l'hôte inclut l'utilisation de la CPU, de la mémoire, du swap et du système de fichiers.

Détection d'anomalies basée sur le machine learning

La détection des anomalies permet d'identifier et de résoudre rapidement les problèmes.

  • Fournit une identification visuelle rapide des ressources fonctionnant en dehors des normes historiques.
  • Utilise le machine learning pour calculer automatiquement les références pour les mesures de performances clés.
  • Signale un comportement anormal et fournit des graphiques et des comparaisons utiles.

Gestion des alarmes à grande échelle

Les modèles de surveillance permettent de définir des conditions de règle d'alarmes pour une application, un système ou un parc de ressources.

  • Utilisez des modèles de surveillance certifiés Oracle pour les règles d'alarmes recommandées pour E-Business Suite, PeopleSoft, Oracle Database, le serveur WebLogic, les hôtes et d'autres types de ressource.
  • Au lieu de gérer des règles d'alarmes de mesure individuelles, les modèles de surveillance fournissent un moyen orienté ressource de spécifier et de gérer un ensemble complet de conditions d'alarmes et de notifications pour les ressources indiquées dans le modèle.
  • Les règles d'alarmes OCI Monitoring sont générées et mises à jour automatiquement en fonction du modèle de surveillance.

Fenêtres de maintenance

Les fenêtres de maintenance fournissent un moyen orienté ressources de supprimer les alarmes pour les ressources en cours d'opérations de maintenance.

  • Indiquez les ressources, telles que les applications, les systèmes de bases de données ou les hôtes, dans la fenêtre de maintenance et toutes les alarmes associées seront supprimées.
  • Pour les applications basées sur la topologie, telles qu'E-Business Suite ou PeopleSoft, les fenêtres de maintenance incluent automatiquement tous les membres. Les hôtes en maintenance incluent automatiquement les ressources en cours d'exécution sur l'hôte.
  • Les fenêtres de maintenance ponctuelles et récurrentes sont prises en charge.

Interface utilisateur spécialement conçue pour le dépannage interactif

Vision unifiée sur vos environnements sur site et cloud

Utilisez Enterprise Health and Alarms pour obtenir de la visibilité sur votre entreprise et identifiez rapidement les pannes, les alarmes ouvertes et les points chauds sur vos performances.

  • La région de statut identifie les incidents.
  • La région de statut par type permet d'évaluer le statut d'une pile d'applications ou d'un système complet, tel qu'E-Business Suite, PeopleSoft, GoldenGate ou Oracle Database.
  • La région Alarmes récapitule les alarmes par gravité avec des analyses descendantes pour plus d'informations.
  • Les vues de niveau pour les serveurs d'applications, les bases de données et les hôtes identifient les ressources avec la réponse la plus lente et l'utilisation la plus élevée.
  • Les graphiques interactifs prennent en charge l'évaluation rapide de différentes mesures et l'exploration des données historiques.

Pages d'accueil pour la surveillance globale

Obtenez l'accès au statut de la ressource, aux mesures de performances clés, aux alarmes et aux ressources associées.

  • Vérifiez le statut de la ressource et de ses composants associés.
  • Triage des alarmes ouvertes.
  • Corrélez la charge et les performances sur plusieurs périodes.
  • Surveillez les problèmes de performances en attente grâce aux anomalies affichées dans les graphiques de performances.
  • Appréhendez les dépendances des ressources pour une surveillance globale et utilisez la topologie de navigation pour des analyses descendantes rapides des ressources dépendantes.

Vues de stack d'applications organisées

Les vues de pile fournissent des informations rapides sur les KPI critiques de l'application et de sa pile d'infrastructure sous-jacente.

  • Vue de la pile E-Business Suite : vérifiez les temps d'exécution des principaux programmes E-Business Suite, le statut des demandes de gestionnaire de traitements simultanés, l'utilisation de la portion de mémoire WebLogic, les temps d'attente Oracle Database, l'UC de l'hôte et l'utilisation de la mémoire.
  • Vue de la pile PeopleSoft : vérifiez le statut de l'état et du chargement du domaine du serveur d'applications, puis vérifiez que les processus serveur sont en cours d'exécution. Consultez le statut de l'utilisation de la mémoire JVM de WebLogic et du pool de threads, les temps d'attente Oracle Database, l'UC de l'hôte et l'utilisation de la mémoire.

Tableaux de bord

Unifiez les mesures, les traces et les journaux des services d'observabilité et de gestion à l'aide de tableaux de bord.

  • Utilisez des tableaux de bord prêts à l'emploi pour les hôtes, E-Business Suite, PeopleSoft et Oracle Unified Directory afin de surveiller un parc d'infrastructures et d'applications.
  • Clonez n'importe quel tableau de bord prêt à l'emploi et étendez-le pour inclure la trace et les journaux d'autres services Observability and Management.

Étendez et personnalisez la surveillance

Extensions de mesures

Ajoutez des mesures personnalisées pour surveiller les conditions propres à votre environnement.

  • Le workflow basé sur l'interface utilisateur vous guide tout au long du processus de création, de test, de publication et d'activation des définitions de mesure sur vos ressources.
  • Les données d'extension de mesure apparaissent automatiquement dans les pages d'accueil des ressources et peuvent être ajoutées aux vues Etat d'entreprise et Alarmes.
  • Incluez les extensions de mesure dans les modèles de surveillance pour générer des alarmes lorsque les valeurs dépassent les seuils.
  • Activez la détection d'anomalies sur les extensions de mesure pour afficher les anomalies de performances dans les graphiques de mesures.

Import d'instances OCI Service

Étendez la topologie de votre application en associant des ressources Stack Monitoring à d'autres instances de service OCI.

  • Importez les données de mesures d'un service OCI dans Stack Monitoring afin de créer une instance de ressource pour ce service dans Stack Monitoring. Vous pouvez par exemple importer l'équilibreur de charge OCI vers le cluster de service WebLogic.
  • Associez la nouvelle ressource de service OCI à d'autres ressources pour enrichir votre topologie d'application et obtenez une visibilité de surveillance unifiée sur toutes vos ressources.

Intégration avec d'autres sources de données

Surveillez tout type d'infrastructure grâce à l'intégration avec les ressources personnalisées Prometheus, Telegraf, collectd et basées sur les processus.

  • L'intégration de Prométhée crée de nouvelles ressources à partir de toute source externe émettant des données de Prométhée.
  • L'intégration de Telegraf et Collectd permet la surveillance d'un large éventail d'infrastructures et d'applications.
  • Surveillez toute application en cours d'exécution sur un hôte en identifiant les processus qui composent l'application. Le statut et l'utilisation de l'UC et de la mémoire seront automatiquement surveillés.

Lancez-vous avec Stack Monitoring


Contactez l’équipe commerciale

Vous souhaitez en savoir plus sur Stack Monitoring ? Laissez l’un de nos experts vous aider.