Stack Monitoring

O Oracle Cloud Infrastructure (OCI) Stack Monitoring fornece monitoramento essencial e gerenciamento de alarmes para aplicações e infraestrutura, como hosts, GPUs, bancos de dados e servidores de aplicações.

OCI Stack Monitoring: Visão geral do serviço (9:23)
  • Monitore aplicações e infraestrutura em um só lugar

    Elimine silos e obtenha visibilidade completa da integridade dos seus sistemas Oracle E-Business Suite, PeopleSoft e GoldenGate, bem como da infraestrutura, como hosts, GPUs, bancos de dados e servidores de aplicações em execução on-premises ou na nuvem. Amplie o monitoramento para qualquer infraestrutura com integração com Prometheus, collectd ou Telegraf. Monitore qualquer condição particular com métricas personalizadas.

  • Gerencie alarmes em escala

    Use modelos de monitoramento para gerenciar todas as condições de alarme para suas aplicações E-Business Suite ou PeopleSoft, sistemas de banco de dados, servidores de aplicações e frota de hosts, incluindo infraestrutura de GPU. As configurações de alarme são aplicadas automaticamente conforme seu ambiente cresce. Durante a aplicação de patches durante as janelas, você pode suprimir alarmes facilmente usando janelas de manutenção com reconhecimento de topologia.

  • Monitore a infraestrutura e as cargas de trabalho de GPU

    Com o monitoramento pronto para uso da infraestrutura de GPU, use a visualização Enterprise Health and Alarms para monitorar interativamente toda a frota de GPU. Faça a triagem de alarmes abertos, avalie a atividade em todas as GPUs, monitore a utilização delas, acompanhe as temperaturas da e identifique GPUs subutilizadas e erros. Monitore os processos de carga de trabalho e correlacione-os com a infraestrutura subjacente.

Como o Stack Monitoring funciona

O OCI Stack Monitoring fornece monitoramento de pilha completa e gerenciamento de alarmes de aplicações e recursos de infraestrutura executados on-premises ou na nuvem. A lógica específica de aplicação do Stack Monitoring é agrupada como um plug-in para o agente que, por sua vez, é usado para descobrir recursos e coletar métricas que são então enviadas à OCI. O Stack Monitoring cria recursos e topologias de aplicações a partir de resultados de descoberta. O status e os principais dados de desempenho são exibidos na interface de usuário (IU) do Enterprise Health and Alarms, nas páginas iniciais dos recursos e nos painéis da frota e da aplicação. A criação de alarmes é simplificada usando modelos de monitoramento que criam alarmes no OCI Monitoring e são automaticamente exibidos e resumidos na IU do Stack Monitoring. Usando machine learning, as linhas de base para métricas-chave de desempenho são calculadas automaticamente e as anomalias são destacadas em gráficos de desempenho.

História de sucesso do Stack Monitoring

Veja todas as histórias de clientes

Casos de uso do Stack Monitoring

  • Monitore Oracle Applications, incluindo E-Business Suite e PeopleSoft

    Descubra e monitore todos os componentes da implementação da sua aplicação E-Business Suite, incluindo o Concurrent Manager, o Workflow Background Engine, o Notification Mailer e os servidores WebLogic, bancos de dados Oracle e hosts dependentes. Use a página inicial do E-Business Suite para verificar o status de todos os componentes e abrir alarmes. Com o Stack View, você pode verificar rapidamente sinais na pilha, incluindo programas de longa execução do E-Business Suite, status de solicitações do Concurrent Manager, utilização de memória e status do pool de threads do WebLogic, tempos de espera do Oracle Database, CPU do host e memória.


    Usando fluxos de trabalho semelhantes, você pode descobrir e monitorar o PeopleSoft e seus componentes, incluindo o Application Server Domain, a PeopleSoft Internet Architecture (PIA), o Process Scheduler e o WebLogic Server, o Oracle Database e os hosts dependentes. Use a página inicial do PeopleSoft para verificar o status de todos os componentes e abrir alarmes. Use o PeopleSoft Stack View para avaliar o status e a carga dos domínios do servidor de aplicações e do agendador de processos e PIA, uso de recursos do WebLogic e threads travados, tempos de espera do Oracle Database, CPU do host e memória.


    Obtenha mais detalhes sobre o monitoramento de Oracle Applications

  • Monitore hosts na nuvem e on-premises

    Comece a monitorar hosts na nuvem ou on-premises assim que um agente for implementado nele ou assim que uma instância de computação da OCI for provisionada. Monitore status, alarmes, uso de recursos (CPU, memória, swap e uso do sistema de arquivos) e carga (atividade de disco e de paginação) em todos os hosts na nuvem e on-premises em uma única visualização. Investigue hosts com alto uso de CPU para determinar quais aplicações consomem mais esse tipo de recurso. Use anomalias mostradas em gráficos de desempenho para entender se o alto uso de recursos está dentro das linhas de base esperadas. Se necessário, monitore condições específicas do seu ambiente usando extensões métricas.


    Obtenha mais detalhes sobre o monitoramento de hosts on-premises e na nuvem

  • Monitore bancos de dados e middleware

    Descubra e monitore bancos de dados e middleware em um só lugar. Monitore sistemas completos do Oracle Database (incluindo PDBs, Listener, Automatic Storage Management e Cluster), GoldenGate e bancos de dados SQL Server. Monitore middlewares como WebLogic Servers, Managed File Transfer, SOA e Oracle HTTP Server, bem como Tomcat, Apache HTTP Server, JBoss, servidores JVM, Oracle Identity Manager e Oracle Unified Directory.


    Use o Enterprise Health and Alarms para selecionar alarmes abertos e entender desempenho lento, alto uso de recursos, erros no banco de dados e camadas de middleware. Use seus gráficos interativos para correlacionar dinamicamente quaisquer 2 métricas de resposta e carga. Analise detalhadamente qualquer métrica de desempenho para visualizar tendências históricas e identificar anomalias.


    Obtenha mais detalhes sobre o monitoramento de bancos de dados e middleware

  • Adicione métricas personalizadas

    Monitore condições exclusivas do seu ambiente usando extensões métricas. Siga o fluxo de trabalho guiado para definir o nome e o tipo da métrica, scripts personalizados ou consultas SQL. Teste a métrica de maneira iterativa; experimente-a em recursos de teste, revise os dados e edite a métrica conforme necessário. Depois de testada, publique e ative a extensão de métrica em seus recursos. Monitore os dados das extensões de métricas de qualquer interface de usuário do Stack Monitoring: páginas iniciais, Enterprise Health and Alarms ou painéis. Habilite a detecção de anomalias para aprender automaticamente linhas de base e identificar anomalias em gráficos de desempenho. Configure regras em extensões de métricas para gerar alarmes quando os valores ultrapassarem os limites de desempenho.


    Obtenha mais detalhes sobre métricas personalizadas

  • Monitore a infraestrutura de GPU

    Monitore a integridade geral da sua frota de infraestrutura de GPU a partir de uma única visualização do Enterprise Health and Alarms. Interaja com essa visualização para selecionar alarmes abertos em hosts e GPUs, rastrear a utilização da CPU e da memória em todos os hosts, avaliar a atividade da GPU, a utilização da memória, a energia, a temperatura e a latência em todas as GPUs. Identifique problemas de disponibilidade do host ou pontos de acesso, como GPUs próximas às temperaturas máximas. Rastreie erros e GPUs subutilizadas. Faça uma busca detalhada da visão empresarial até uma visão específica da rede de cluster. Continue solucionando problemas usando as visualizações de topologia integradas para detalhar de uma rede de cluster até hosts e GPUs dentro de blocos de rede ou blocos locais na rede de cluster.


    Obtenha mais detalhes sobre o monitoramento da infraestrutura de GPU

  • Gerencie alarmes em toda a frota

    Simplifique o gerenciamento de alarmes para aplicações, sistemas e frota de infraestrutura usando modelos de monitoramento. Os modelos de monitoramento fornecem uma maneira centrada em recursos para definir e gerenciar todas as condições de alarme para uma aplicação E-Business Suite ou PeopleSoft, sistema de banco de dados ou uma frota de servidores de aplicações e hosts. Durante os períodos de aplicação de patches, use as janelas de manutenção para fornecer uma maneira centrada em recursos para silenciar alarmes para uma frota de hosts ou servidores de aplicações ou para aplicações como o E-Business Suite e o PeopleSoft.


    Obtenha mais detalhes sobre os modelos de monitoramento

Recursos do Stack Monitoring

Infraestrutura de GPU e monitoramento de carga de trabalho

Monitoramento de infraestrutura de GPU

Descoberta da topologia da infraestrutura de GPU.

  • Descobre a topologia de rede do cluster, incluindo blocos de rede, blocos locais, hosts e GPUs.
  • Descobre GPUs associadas aos hosts dentro da topologia de rede do cluster.
  • Fornece interfaces de usuário de topologia integradas para navegar pela topologia de rede do cluster.

Monitore a integridade da infraestrutura da GPU e as cargas de trabalho

Monitoramento de alarmes e integridade empresarial de cima para baixo.

  • Use o Enterprise Health and Alarms para visualizar a GPU do host e monitorar toda a infraestrutura de GPU na frota.
  • A região de status identifica problemas de disponibilidade do host.
  • A região agrega alarmes em todos os hosts e GPUs com detalhamentos para triagem adicional.
  • Os gráficos de desempenho do host agregam a utilização da CPU e da memória em todos os hosts e ajudam a identificar valores discrepantes.
  • Os gráficos agregam o desempenho de todas as GPUs, incluindo atividade, utilização de memória, consumo de energia, temperatura, latências e erros de ECC. Ajuda a identificar áreas problemáticas, como altas temperaturas e erros ou GPUs não utilizadas para cargas de trabalho adicionais.
  • As visualizações interativas detalham dados históricos ou hosts ou GPUs específicos para solução de problemas adicionais.
  • Monitore os processos de carga de trabalho e correlacione o desempenho com hosts e GPUs subjacentes.

Descoberta de aplicações e infraestrutura de aplicações

Descoberta simplificada

Descoberta com um clique para aplicações como Oracle E-Business Suite e PeopleSoft, bem como tecnologias de pilha de aplicações.

  • Descobre todos os componentes do E-Business Suite, como processamento simultâneo, mecanismo de fluxo de trabalho em segundo plano e mailer de notificação, bem como os servidores WebLogic dependentes.
  • Descobre todos os componentes do PeopleSoft, como domínio do servidor de aplicações, PIA, planejador de processos e OpenSearch, bem como os servidores WebLogic dependentes.
  • Suporte de descoberta para bancos de dados e recursos relacionados, como o sistema Oracle Database (incluindo PDBs, Listener, Automatic Storage Management e Cluster), banco de dados SQL Server e GoldenGate.
  • Suporte de descoberta para middleware como WebLogic Servers, Managed File Transfer, SOA, Oracle HTTP Server, Tomcat, Apache HTTP Server, Oracle Identity Manager, Oracle Unified Directory e muito mais.
  • Descoberta automática e monitoramento de hosts on-premises e computação com implementação de agentes.

Topologia de aplicação

Criação automática de topologia de aplicação que associa aplicações a servidores e bancos de dados para permitir a solução de problemas em todo o conjunto.

  • A topologia da aplicação associa o E-Business Suite aos servidores WebLogic dependentes e ao Oracle Database.
  • A topologia da aplicação associa o PeopleSoft aos servidores WebLogic dependentes e ao Oracle Database.
  • A topologia de domínio do WebLogic associa seus clusters WebLogic e WebLogic Servers.
  • A topologia dos sistemas do Oracle Database associa Oracle Database, PDBs, Listeners, Cluster e Automatic Storage Management.
  • A topologia GoldenGate associa componentes como implementação do GoldenGate, serviço de administração, serviço de distribuição e extração e replicação.

Monitoramento da integridade de aplicações e infraestrutura

Monitoramento com curadoria

Cada tipo de recurso é monitorado automaticamente em busca de sinais relevantes relacionados à sua disponibilidade, resposta, carga, erro e utilização, reduzindo a carga do DevOps de exigir conhecimento especializado no domínio para determinar o que é importante monitorar.

  • O monitoramento do E-Business Suite inclui o tempo de execução do programa, bem como o status do Concurrent Manager e solicitações simultâneas de longa execução.
  • O monitoramento do PeopleSoft inclui integridade e carga do domínio do servidor de aplicações, integridade e carga do domínio do agendador de processos, integridade e carga do PIA, consulta do Elasticsearch/OpenSearch e latências de busca.
  • O monitoramento do WebLogic inclui uso de heap, threads travados, taxa de solicitação da web e tempo de processamento de solicitação da web.
  • O monitoramento do Oracle Database inclui uso de tablespace, bloqueio de sessões, tempo de banco de dados, uso de FRA e taxa de transferência de E/S.
  • O monitoramento do host inclui CPU, memória, swap e utilização do sistema de arquivos.

Detecção de anomalias baseada em machine learning

A detecção de anomalias permite a rápida identificação e resolução de problemas.

  • Fornece identificação visual rápida de recursos com desempenho fora das normas históricas.
  • Usa machine learning para calcular automaticamente linhas de base para métricas-chave de desempenho.
  • Sinaliza comportamento anômalo e fornece gráficos e comparações úteis.

Gerenciamento de alarmes em escala

Os modelos de monitoramento fornecem uma maneira orientada a recursos para definir condições de regras de alarme para uma aplicação, um sistema ou conjunto de recursos.

  • Use modelos de monitoramento certificados pela Oracle para regras de alarme recomendadas para E-Business Suite, PeopleSoft, Oracle Database, WebLogic Server, hosts e outros tipos de recursos.
  • Em vez de gerenciar regras de alarme de métrica individuais, os modelos de monitoramento fornecem uma maneira orientada a recursos para especificar e gerenciar um conjunto completo de condições de alarme e notificações para recursos especificados no modelo.
  • As regras de alarme do OCI Monitoring são geradas e atualizadas automaticamente com base no modelo de monitoramento.

Janelas de manutenção

As janelas de manutenção fornecem uma maneira orientada a recursos para suprimir alarmes para recursos passando por operações de manutenção.

  • Especifique os recursos, como aplicações, sistemas de banco de dados ou hosts, na janela de manutenção e todos os alarmes associados serão suprimidos.
  • Para aplicações baseadas em topologia, como E-Business Suite ou PeopleSoft, as janelas de manutenção incluirão automaticamente todos os membros. Os hosts em manutenção incluirão automaticamente os recursos em execução no host.
  • Janelas de manutenção recorrentes e únicas são suportadas.

Interface de usuário especialmente elaborada para solução de problemas interativa

Painel único on-premises e na nuvem

Use o Enterprise Health and Alarms para obter visibilidade em toda a sua empresa e identificar rapidamente interrupções, alarmes abertos e pontos críticos de desempenho.

  • A região de status identifica interrupções.
  • A região de status por tipo permite avaliar o status de uma pilha de aplicações ou o sistema completo, como E-Business Suite, PeopleSoft, GoldenGate ou Oracle Database.
  • A região resume os alarmes por gravidade com detalhamentos para investigação posterior.
  • As visualizações em camadas para servidores de aplicações, bancos de dados e hosts identificam recursos com resposta mais lenta e maior utilização.
  • Gráficos interativos permitem avaliação rápida de diferentes métricas e detalhamento de dados históricos.

Páginas para monitoramento holístico

Tenha acesso ao status do recurso, às principais métricas de desempenho, aos alarmes e aos recursos associados.

  • Verifique o status do recurso e seus componentes relacionados.
  • Faça a triagem de todos os alarmes abertos.
  • Correlacione carga e desempenho ao longo de períodos de tempo.
  • Fique atento a problemas pendentes por meio de anomalias mostradas em gráficos de desempenho.
  • Entenda as dependências de recursos para monitoramento holístico e use a topologia de navegação para detalhamento rápido dos recursos dependentes.

Stack Views de aplicações

As visualizações da pilha fornecem insights rápidos sobre os KPIs críticos para a aplicação e sua pilha de infraestrutura subjacente.

  • Visualização de pilha do E-Business Suite: verifique os tempos de execução dos principais programas do E-Business Suite, verifique o status das solicitações do Concurrent Manager, monitore a utilização do heap do WebLogic, os tempos de espera do Oracle Database, a CPU do host e o uso de memória.
  • PeopleSoft Stack View: verifique o status da integridade do domínio do servidor de aplicações e carregue e verifique se os processos do servidor estão em execução. Revise a utilização de memória e o status do pool de threads do WebLogic JVM, os tempos de espera do Oracle Database, a CPU do host e o uso de memória.

Painéis

Unifique métricas, rastreamentos e logs em serviços de observabilidade e gerenciamento usando painéis.

  • Use painéis prontos para uso para host, E-Business Suite, PeopleSoft e Oracle Unified Directory para monitorar uma frota de infraestrutura e aplicações.
  • Clone qualquer painel pronto para uso e estenda-o para incluir rastreamentos e logs de outros serviços de observabilidade e gerenciamento.

Amplie e personalize o monitoramento

Extensões de métricas

Adicione métricas personalizadas para monitorar condições exclusivas do seu ambiente.

  • O fluxo de trabalho baseado em interface de usuário orienta você no processo de criação de definições de métricas, testes, publicação e ativação delas em seus recursos.
  • Os dados das extensões de métricas aparecem automaticamente nas páginas iniciais dos recursos e podem ser adicionados às visualizações do Enterprise Health and Alarms.
  • Inclua extensões de métricas em modelos de monitoramento para gerar alarmes quando os valores ultrapassarem os limites.
  • Habilite a detecção de anomalias nas extensões de métricas para mostrar anomalias de desempenho em gráficos de métricas.

Importando instâncias do OCI Service

Amplie a topologia da sua aplicação associando recursos do Stack Monitoring a outras instâncias de serviço da OCI.

  • Importe os dados métricos de um serviço da OCI para o Stack Monitoring para criar uma nova instância de recurso. Por exemplo, você pode importar o OCI Load Balancer para atender ao cluster do WebLogic.
  • Associe o novo recurso de serviço da OCI a outros recursos para enriquecer sua topologia de aplicação e obter visibilidade de monitoramento unificada em todos os recursos.

Integração com outras fontes de dados

Monitore qualquer tipo de infraestrutura com integração com Prometheus, Telegraf, collectd e recursos personalizados baseados em processos.

  • A integração do Prometheus cria novos recursos a partir de qualquer fonte externa que emite dados do Prometheus.
  • A integração do Telegraf e do collectd permite o monitoramento de uma ampla variedade de infraestrutura e aplicações.
  • Monitore qualquer aplicação em execução em um host identificando os processos que compõem a aplicação. Ela será monitorada automaticamente quanto ao status e utilização da CPU e da memória.

Conheça o Stack Monitoring


Fale com um especialista

Gostaria de mais sobre o Stack Monitoring? Deixe um de nossos especialistas ajudar.