Oracle Cloud Infrastructure (OCI) Stack Monitoring fournit une surveillance et une gestion des alarmes essentielles pour les applications et l'infrastructure, telles que les hôtes, les GPU, les bases de données et les serveurs d'applications.
Eliminez les cloisonnements et bénéficiez d'une visibilité complète sur l'état de vos systèmes Oracle E-Business Suite, PeopleSoft et GoldenGate, ainsi que sur l'infrastructure, telle que les hôtes, les GPU, les bases de données et les serveurs d'applications exécutés on-premises ou dans le cloud. Étendez la surveillance à n'importe quelle infrastructure avec l'intégration Prometheus, Collectd ou Telegraf. Surveillez toute condition unique à l'aide de mesures personnalisées.
Utilisez des modèles de surveillance pour gérer toutes les conditions d'alarme pour vos applications E-Business Suite ou PeopleSoft, vos systèmes de bases de données, vos serveurs d'applications et votre parc d'hôtes, y compris l'infrastructure GPU. Les paramètres d'alarme sont automatiquement appliqués au fur et à mesure de la croissance de votre environnement. Pendant les fenêtres d'application de patches, vous pouvez supprimer facilement les alarmes à l'aide des fenêtres de maintenance tenant compte de la topologie.
Grâce à la surveillance clé en main de l'infrastructure de GPU, utilisez la vue Enterprise Health and Alarms pour effectuer une surveillance interactive sur l'ensemble du parc de GPU. Triage des alarmes ouvertes, évaluation de l'activité sur tous les GPUS, surveillance de l'utilisation des GPU, suivi des températures des GPU et identification des GPU et des erreurs sous-utilisés. Surveillez les processus de workloads et établissez une corrélation avec l'infrastructure sous-jacente.
OCI Stack Monitoring fournit une surveillance complète de la pile et une gestion des alarmes des applications et des ressources d'infrastructure exécutées sur site ou dans le cloud. La logique propre à l'application de Stack Monitoring est intégrée en tant que module d'extension à l'agent qui, à son tour, est utilisé pour repérer les ressources et collecter les mesures qui sont ensuite envoyées à OCI. Stack Monitoring crée des ressources et des topologies d'application à partir des résultats de repérage. Les données de statut et de performances clés sont affichées dans l'interface utilisateur d'Enterprise Health and Alarms, les pages d'accueil des ressources et les tableaux de bord de parc et d'application. La création d'alarmes est rationalisée à l'aide de modèles de surveillance qui créent des alarmes dans OCI Monitoring. Elles sont automatiquement affichées et récapitulées dans l'interface utilisateur Stack Monitoring. Grâce au machine learning, les références pour les mesures de performances clés sont automatiquement calculées et les anomalies sont mises en évidence dans les graphiques de performances.
Repérez et surveillez tous les composants de votre déploiement d'application E-Business Suite, notamment le gestionnaire de traitements simultanés, le moteur de workflow en arrière-plan, l'émetteur de notifications et les serveurs WebLogic dépendants, les bases de données Oracle et les hôtes. Utilisez la page d'accueil E-Business Suite pour vérifier le statut de tous les composants et alarmes ouvertes. Avec Stack View, vous pouvez rapidement vérifier les signes vitaux de la pile, notamment les programmes à longue durée d'exécution d'E-Business Suite, le statut des demandes du gestionnaire de traitements simultanés, l'utilisation de la mémoire WebLogic et le statut du pool de threads, les temps d'attente d'Oracle Database, l'UC de l'hôte et la mémoire.
À l'aide de workflows similaires, vous pouvez repérer et surveiller PeopleSoft et ses composants, notamment le domaine de serveur d'applications, l'architecture Internet (PIA) PeopleSoft, Process Scheduler et le serveur WebLogic, Oracle Database et les hôtes dépendants. Utilisez la page d'accueil PeopleSoft pour vérifier le statut de tous les composants et des alarmes ouvertes. Utilisez la vue de pile PeopleSoft pour évaluer le statut et la charge des domaines de serveur d'applications et d'Ordonnanceur de traitements, ainsi que de PIA, d'utilisation des ressources WebLogic et des threads bloqués, des temps d'attente Oracle Database, de l'UC hôte et de la mémoire.
Obtenir plus de détails sur la surveillance des applications Oracle
Commencez à surveiller les hôtes cloud ou sur site dès qu'un agent y est déployé ou dès qu'une instance de calcul OCI est provisionnée. Surveillez le statut, les alarmes, l'utilisation des ressources (UC, mémoire, swap et utilisation du système de fichiers) et la charge (activité du disque et activité de pagination) sur tous les hôtes cloud et on-premises dans une vue unique. Examinez les hôtes avec une CPU élevée pour déterminer les applications qui consomment la CPU la plus élevée. Utilisez les anomalies affichées dans les graphiques de performances pour déterminer si les utilisations élevées des ressources sont conformes aux valeurs de référence attendues. Si nécessaire, surveillez les conditions propres à votre environnement à l'aide des extensions de mesure.
Obtenir plus de détails sur la surveillance des hôtes cloud et sur site
Repérez et surveillez les bases de données et le middleware au même endroit. Surveillez les systèmes Oracle Database complets (comprenant les bases de données pluggables, le processus d'écoute, Automatic Storage Management et le cluster), GoldenGate et les bases de données SQL Server. Surveillez les middlewares tels que WebLogic Servers, Managed File Transfer, SOA et Oracle HTTP Server, ainsi que Tomcat, Apache HTTP Server, JBoss, les serveurs JVM, Oracle Identity Manager et Oracle Unified Directory.
Utilisez Enterprise Health and Alarms pour trier les alarmes ouvertes et comprendre les performances lentes, l'utilisation élevée des ressources, les erreurs dans la base de données et les niveaux de middleware. Utilisez ses graphiques interactifs pour corréler dynamiquement les 2 mesures de réponse et de charge. Effectuez une analyse descendante des mesures de performances pour consulter l'historique des tendances et identifier les anomalies.
Obtenir plus de détails sur la surveillance des bases de données et du middleware
Surveillez les conditions propres à votre environnement à l'aide des extensions de mesure. Suivez le workflow guidé Extensions de mesure pour définir le nom et le type de mesures, les scripts personnalisés ou les requêtes SQL. Testez la mesure de manière itérative. Testez la mesure sur les ressources de tests, vérifiez les données et modifiez-la si nécessaire. Une fois testé, publiez et activez l'extension de mesure sur vos ressources. Surveillez les données des extensions de mesure à partir de n'importe quelle interface utilisateur de Stack Monitoring : pages d'accueil, état de l'entreprise, alarmes ou tableaux de bord. Activez la détection d'anomalies pour apprendre automatiquement les références et identifiez les anomalies dans les graphiques de performances. Configurez des règles d'alarmes sur les extensions de mesure pour générer des alarmes lorsque les valeurs dépassent les seuils de performances.
Surveillez l'état général de votre parc d'infrastructures de GPU à partir d'une vue unique sur l'état de l'entreprise et les alarmes. Interagissez avec cette vue pour trier les alarmes ouvertes sur les hôtes et les GPU, suivre l'utilisation de la CPU et de la mémoire sur tous les hôtes, évaluer l'activité des GPU, l'utilisation de la mémoire, la puissance, la température et la latence sur tous les GPU. Identifiez les problèmes de disponibilité des hôtes ou les points chauds tels que les GPU proches des températures maximales. Suivez les erreurs et les GPU sous-utilisés. Accédez à une vue réseau de cluster spécifique à partir de la vue Enterprise. Continuez le dépannage à l'aide des vues de topologie intégrées pour effectuer une analyse descendante à partir d'un réseau de cluster vers des hôtes et des GPU au sein de blocs réseau ou de blocs locaux dans le réseau de cluster.
Obtenir plus de détails sur la surveillance de l'infrastructure GPU
Simplifiez la gestion des alarmes pour les applications, les systèmes et le parc d'infrastructures à l'aide de modèles de surveillance. Les modèles de surveillance permettent de définir et de gérer toutes les conditions d'alarme d'une application E-Business Suite ou PeopleSoft, d'un système de bases de données ou d'un parc de serveurs et d'hôtes d'applications. Pendant les périodes d'application de patches, utilisez les fenêtres de maintenance pour fournir un moyen centré sur les ressources de désactiver les alarmes pour un parc d'hôtes ou de serveurs d'applications ou pour des applications telles que E-Business Suite et PeopleSoft.
Découverte de la topologie d'infrastructure GPU.
Surveillance descendante de l'état de l'entreprise et des alarmes.
Repérage en un clic pour les applications telles qu'Oracle E-Business Suite et PeopleSoft, ainsi que pour les technologies de pile d'applications.
Création automatique de la topologie d'application qui associe les applications aux serveurs d'applications et aux bases de données pour permettre le dépannage des problèmes sur l'ensemble de la pile.
Chaque type de ressource est automatiquement surveillé pour détecter les signes vitaux liés à sa disponibilité, à sa réponse, à sa charge, à son erreur et à son utilisation, ce qui réduit le nombre de DevOps nécessitant une expertise de domaine pour déterminer les éléments importants à surveiller.
La détection des anomalies permet d'identifier et de résoudre rapidement les problèmes.
Les modèles de surveillance permettent de définir des conditions de règle d'alarmes pour une application, un système ou un parc de ressources.
Les fenêtres de maintenance fournissent un moyen orienté ressources de supprimer les alarmes pour les ressources en cours d'opérations de maintenance.
Utilisez Enterprise Health and Alarms pour obtenir de la visibilité sur votre entreprise et identifiez rapidement les pannes, les alarmes ouvertes et les points chauds sur vos performances.
Obtenez l'accès au statut de la ressource, aux mesures de performances clés, aux alarmes et aux ressources associées.
Les vues de pile fournissent des informations rapides sur les KPI critiques de l'application et de sa pile d'infrastructure sous-jacente.
Unifiez les mesures, les traces et les journaux des services d'observabilité et de gestion à l'aide de tableaux de bord.
Ajoutez des mesures personnalisées pour surveiller les conditions propres à votre environnement.
Étendez la topologie de votre application en associant des ressources Stack Monitoring à d'autres instances de service OCI.
Surveillez tout type d'infrastructure grâce à l'intégration avec les ressources personnalisées Prometheus, Telegraf, collectd et basées sur les processus.
Vous souhaitez en savoir plus sur Stack Monitoring ? Laissez l’un de nos experts vous aider.