スタック・モニタリング

Oracle Cloud Infrastructure(OCI)Stack Monitoringは、ホスト、GPU、データベース、アプリケーション・サーバーなどのアプリケーションおよびインフラストラクチャ向けに、重要なモニタリングおよびアラーム管理機能を提供します。

OCI Stack Monitoring: サービスの概要 (9:23)
  • アプリケーションとインフラストラクチャを1箇所でモニタリング

    サイロを排除し、Oracle E-Business Suite、PeopleSoft、GoldenGateシステムだけでなく、オンプレミスまたはクラウドで稼働しているホスト、GPU、データベース、アプリケーション・サーバーなどのインフラストラクチャの健全性をフルスタックで可視化します。Prometheus、collectd、Telegrafの統合により、モニタリングをあらゆるインフラストラクチャに拡張します。カスタム・メトリックを使用して、あらゆる独自の状態をモニターします。

  • アラームを大規模に管理

    モニタリング・テンプレートを使用して、E-Business Suite または PeopleSoft アプリケーション、データベース・システム、アプリケーション・サーバー、およびGPUインフラストラクチャを含むホスト群のすべてのアラーム状況を管理します。アラーム設定は、環境の成長に合わせて自動的に適用されます。パッチ適用ウィンドウ中は、トポロジ対応メンテナンスウィンドウを使用しているアラームを簡単に抑制できます。

  • GPUインフラストラクチャとワークロードをモニター

    GPUインフラストラクチャのターンキー・モニタリングでは、Enterprise Health and Alarmsビューを使用して、GPUフリート全体にわたりインタラクティブにモニターできます。開放性アラームのトリアージ、GPUS全体にわたるアクティビティの評価、GPU公益事業のモニタリング、GPU温度の追跡、利用不足のGPUやエラーの特定。ワークロード・プロセスをモニターし、基盤となるインフラストラクチャと関連付けます。

スタック・モニタリングの仕組み

OCI Stack Monitoringは、オンプレミスまたはクラウドで稼働するアプリケーションおよびインフラストラクチャ・リソースのフルスタック監視およびアラーム管理を提供します。OCI Stack Monitoringは、オンプレミスまたはクラウドで実行されるアプリケーションおよびインフラストラクチャ・リソースのフルスタック・モニタリングおよびアラーム管理を提供します。Stack Monitoringは、ディスカバリーの結果からリソースとアプリケーションのトポロジを作成します。ステータスと主要なパフォーマンス・データは、エンタープライズ・ヘルス&アラーム・ユーザー・インターフェイス(UI)、リソース・ホームページ、フリート・ダッシュボード、アプリケーション・ダッシュボードに表示されます。アラームの作成は、OCIモニタリングでアラームを作成し、自動的にスタックモニタリングUIに表示および要約されるモニタリング・テンプレートを使用して効率化されています。機械学習を使用しているため、 主要なパフォーマンスメトリクスのベースラインが自動的に計算され、異常がパフォーマンスグラフで強調表示されます。

Stack Monitoringによるお客様の成功事例

すべてのお客様事例を見る

スタック・モニタリングのユースケース

  • E-Business SuiteやPeopleSoftを含むOracle Aplicaionをモニター

    Concurrent Manager、Workflow Background Engine、Notification Mailer、依存するWebLogic Server、Oracle Database、ホストなど、E-Business Suiteアプリケーション導入のすべてのコンポーネントを見出して監視します。E-Business Suiteのホームページを使用して、すべてのコンポーネントとオープン・アラームのステータスを確認します。サイロを排除し、Oracle E-Business Suite、PeopleSoft、GoldenGate システム、およびオンプレミスまたはクラウドで実行されているホスト、GPU、データベース、アプリケーション・サーバーなどのインフラストラクチャの健全性をフルスタックで可視化します。


    同様のワークフローを使用して、Application Server Domain、PeopleSoft Internet Architecture(PIA)、Process Scheduler、および依存するWebLogic Server、Oracle Database、ホストなどのPeopleSoftとそのコンポーネントを発見し、モニターできます。PeopleSoftホームページを使用して、すべてのコンポーネントとオープン・アラームのステータスを確認します。PeopleSoftスタック・ビューを使用して、アプリケーション・サーバーおよびプロセス・スケジューラ・ドメインとPIAのステータスとロード、WebLogicリソース使用率とスタックスレッド、Oracle Databaseの待機時間、ホスト CPU、およびメモリを評価します。


    Oracle applicationsの監視に関する詳細

  • クラウドおよびオンプレミス・ホストのモニター

    エージェントが導入されるとすぐに、またはOCIコンピュート・インスタンスがプロビジョニングされるとすぐに、クラウドまたはオンプレミスのホストのモニタリングを開始します。すべてのクラウドおよびオンプレミス・ホストのステータス、アラーム、リソース使用率(CPU、メモリ、スワップ、ファイルシステム使用量)、および負荷(ディスク・アクティビティおよびページング・アクティビティ)を単一のビューでモニターします。CPUが高いホストを調査し、最もCPUを消費しているアプリケーションを特定します。パフォーマンスグラフに表示される異常値を使用して、リソース使用率が高い場合でも想定されるベースライン内に収まっているかどうかを把握します。必要に応じて、Metric Extensionsを使用して、環境に固有の条件をモニターします。


    クラウドとオンプレミス・ホストのモニタリングに関する詳細

  • データベースとミドルウェアのモニター

    データベースとミドルウェアを一か所で、検出し、モニターします。完全なOracle Database システム(PDB、リスナー、自動ストレージ管理、クラスタを含む)、GoldenGate、SQL Serverデータベースをモニターします。WebLogic Server、マネージド・ファイル・トランスファー、SOA、Oracle HTTP Server などのミドルウェア、および Tomcat、Apache HTTP Server、JBoss、JVMサーバー、Oracle Identity Manager、Oracle Unified Directoryをモニターします。


    Enterprise Health and Alarmsを使用して、未処理のアラームを分類し、パフォーマンスの低下、リソースの使用率の高さ、データベース全体やミドルウェア層におけるエラーを把握します。インタラクティブなグラフを使用して、2 つの応答およびロード・メトリクスを動的に関連付けることができます。パフォーマンス・メトリクスをドリルダウンして、過去の傾向を確認し、異常を特定することができます。


    データベースとミドルウェアのモニタリングの詳細

  • カスタム・メトリックの追加

    Metric Extensions を使用して、お客様の環境に固有の条件をモニターします。Metric Extensions のガイド付きワークフローに従って、メトリックの名前とタイプ、カスタム・スクリプト、またはSQLクエリを定義します。メトリックを反復的にテストし、テスト・リソースでメトリックを試し、データをレビューし、必要に応じてメトリックを編集します。テストが完了したら、リソース上でMetric Extensionを公開および有効にします。あらゆるスタック・モニタリングのUI(ホームページ、エンタープライズ・ヘルス&アラーム、ダッシュボード)から、メトリック拡張機能からのデータをモニターします。異常検知を実現し、自動的にベースラインを学習してパフォーマンス・グラフの異常を特定します。Metric Extensionsにアラーム・ルールを設定して、値がパフォーマンスしきい値を超えたときにアラームを生成します。


    カスタム・メトリックの詳細

  • GPUインフラストラクチャの監視

    単一のEnterprise Health and AlarmsビューからGPUインフラストラクチャの全体的な健全性をモニターします。このビューとやりとりして、ホストとGPUにわたるオープン・アラームのトリアージ、全ホストにわたるCPUとメモリの利用状況の追跡、すべてのGPUにおけるGPUアクティビティ、メモリ利用率、電力、温度、レイテンシの評価を行います。ホストの可用性の問題や、GPUが最高温度に近づいているなどのホットスポットを特定します。エラーと使用率の不十分なGPUを追跡します。エンタープライズ・ビューから特定のクラスタ・ネットワーク・ビューにドリルダウンします。組み込みのトポロジ・ビューを使用してトラブルシューティングを継続し、クラスタ・ネットワークのネットワーク・ブロック内またはローカル・ブロック内のホストやGPUにドリルダウンします。


    GPUインフラストラクチャのモニタリングに関する詳細

  • フリート全体のアラームの管理

    モニタリング・テンプレートを使用して、アプリケーション、システム、インフラストラクチャ・フリートのアラーム管理を簡素化します。モニタリング・テンプレートは、E-Business SuiteまたはPeopleSoftアプリケーション、データベース・システム、またはアプリケーション・サーバーとホストのフリートのすべてのアラーム状況を定義および管理するリソース中心の方法を提供します。パッチ適用期間中は、Maintenance Windowsを使用して、ホストやアプリケーション・サーバーのフリート、またはE-Business SuiteやPeopleSoftなどの業務アプリケーションのアラームをミュートするリソース中心の方法を提供します。


    Monitoring Templatesの詳細

Stack Monitoring の機能

GPUインフラストラクチャとワークロードのモニタリング

GPUインフラストラクチャのモニタリング

GPUインフラストラクチャのトポロジを検出します。

  • ネットワーク・ブロック、ローカル・ブロック、ホスト、GPUを含むクラスタ・ネットワークのトポロジを検出します。
  • クラスタ・ネットワーク・トポロジ内のホストに関連する GPUを検出します。
  • クラスタ・ネットワーク・トポロジを全体にわたりナビゲーションするための組み込みトポロジUIを提供します。

GPUインフラストラクチャの健全性とワークロードのモニター

エンタープライズ・ヘルスとアラームをトップダウンでモニタリングします。

  • ホストGPUビューのEnterprise Health and Alarmsを使用して、フリート全体ですべてのGPUインフラストラクチャをモニターします。
  • ステータス領域はホストの可用性の問題を特定します。
  • アラーム領域では、すべてのホストとGPUにわたりアラームが集約され、さらにトリアージするためにドリルダウンが可能です。
  • ホスト・パフォーマンス・グラフは、すべてのホストのCPUおよびメモリ使用量を集約し、異常値の特定を支援します。
  • GPUパフォーマンス・グラフは、アクティビティ、メモリ利用率、消費電力、温度、レイテンシ、ECCエラーなど、すべてのGPUにわたるパフォーマンスを集約します。高温、エラー、追加ワークロードのための未使用GPUなど、問題領域の特定を支援します。
  • インタラクティブなビューでは、履歴データや特定のホストやGPUにドリルダウンして、さらにトラブルシューティングを行うことができます。
  • ワークロード・プロセスをモニターし、元となるホストとGPUのパフォーマンスを相関させます。

アプリケーションとアプリケーション・インフラストラクチャの検出

簡易な検出

Oracle E-Business SuiteやPeopleSoftなどのアプリケーションやアプリケーション・スタック・テクノロジーをワンクリックで検出します。

  • 同時処理、ワークフロー・バックグラウンド・エンジン、通知メーラーなどのE-Business Suiteの全コンポーネント、および依存するWebLogic Serverを検出します。
  • アプリケーション・サーバー・ドメイン、PIA、プロセス・スケジューラー、OpenSearchなどのPeopleSoftとそのコンポーネント、および依存するWebLogic Serverをすべて検出します。
  • Oracle Databaseシステム(PDB、リスナー、自動ストレージ管理、クラスタを含む)、SQL Serverデータベース、GoldenGateなどのデータベースおよび関連リソースの検出サポート。
  • WebLogic Servers、Managed File Transfer、SOA、Oracle HTTP Server、Tomcat、Apache HTTP Server、Oracle Identity Manager、Oracle Unified Directoryなどのミドルウェアの検出サポート。
  • エージェント導入による・オンプレミスホストとコンピュートの自動検出とモニタリング。

アプリケーション・トポロジ

アプリケーションとアプリケーション・サーバーおよびデータベースを関連付けるアプリケーション・トポロジを自動的に作成し、スタック全体にわたる問題のトラブルシューティングを実現します。

  • E-Business Suiteアプリケーション・トポロジは、E-Business Suiteと依存するWebLogic ServerおよびOracle Databaseを関連付けます。
  • PeopleSoftアプリケーション・トポロジは、PeopleSoftと依存関係にあるWebLogic ServerおよびOracle Databaseを関連付けます。
  • WebLogicドメイン・トポロジは、WebLogicクラスタとWebLogic Serverを関連付けます。
  • WebLogicドメイン・トポロジは、WebLogicクラスタとWebLogic Serverを関連付けます。
  • GoldenGateトポロジは、GoldenGate導入、管理サービス、ディストリビューション・サービス、抽出とレプリケーションなどのコンポーネントを関連付けます。

アプリケーションとインフラストラクチャの健全性の監視

キュレーションされたモニタリング

各リソース・タイプは、可用性、レスポンス、ロード、エラー、および利用率に関連する重要な兆候について自動的にモニターされるため、監視の重要性を判断するためにドメインの専門知識を必要とするDevOpsの負担が軽減されます。

  • E-Business Suiteのモニタリングには、プログラムの実行時間のほか、Concurrent Managerおよび長時間実行中の同時リクエストのステータスが含まれます。
  • PeopleSoftモニタリングには、アプリケーション・サーバー・ドメインの健全性と負荷、プロセス・スケジューラー・ドメインの健全性と負荷、PIAの健全性と負荷、Elasticsearch/OpenSearchクエリ、フェッチ・レイテンシが含まれます。
  • WebLogicのモニタリングには、ヒープ使用量、スタック・スレッド、Webリクエスト率、Webリクエスト処理時間が含まれます。
  • Oracle Databaseモニタリングには、表領域使用率、ブロッキング・セッション、データベース時間、FRA使用率、IOスループットが含まれます。
  • ホストのモニタリングには、CPU、メモリ、スワップ、ファイルシステムの使用率が含まれます。

機械学習ベースの異常検知

異常検知は、問題の迅速な特定と解決を実現します。

  • 過去の基準から外れたリソースを視覚的に迅速に識別します。
  • 機械学習を使用して、主要なパフォーマンスメトリクスのベースラインを自動的に計算します。
  • 異常な行動にフラグを立て、役立つグラフや比較情報を提供します。

大規模なアラーム管理

モニタリング・テンプレートは、アプリケーション、システム、またはリソース・フリートに対してアラーム・ルールの条件を設定するリソース指向の方法を提供します。

  • E-Business Suite、PeopleSoft、Oracle Database、WebLogic Server、ホスト、およびその他のリソース・タイプの推奨アラーム・ルールには、オラクル認定のモニタリング・テンプレートを使用します。
  • モニタリング・テンプレートは、個々のメトリック・アラーム・ルールを管理する代わりに、テンプレートで指定されたリソースのアラーム条件と通知を包括的に指定および管理するリソース指向の方法を提供します。
  • OCI モニタリング・アラーム・ルールは、モニタリング・テンプレートに基づいて自動的に生成され、更新されます。

メンテナンス・ウィンドウ

メンテナンス・ウィンドウは、メンテナンス運用中のリソースのアラームを抑制するリソース指向の方法を提供します。

  • メンテナンス・ウィンドウでアプリケーション、データベース・システム、ホストなどのリソースを指定すると、関連するすべてのアラームが抑制されます。
  • E-Business SuiteやPeopleSoftなどのトポロジベースの業務アプリケーションの場合、メンテナンス・ウィンドウには自動的にすべてのメンバーが含まれます。メンテナンス中のホストには、ホスト上で実行中のリソースが自動的に含まれます。
  • 1回限りのメンテナンスウィンドウと継続的なメンテナンスウィンドウがサポートされています。

インタラクティブなトラブルシューティングのために特別にキュレーションされたUI

PSFTのDevOpsは、アプリケーション・サーバー・ドメインの状態とロードのステータスを確認し、サーバー・プロセスが実行中であるか、リクエスト・ボリュームが管理可能であるかを検証したり、WebLogicサーバーのキー・メトリック(JVMメモリー使用率やスレッド・プールのステータスなど)を確認したりできます。

Enterprise Health and Alarmsを使用すると、企業全体の可視性を得て、停止、未解決のアラーム、パフォーマンスのホット・スポットを迅速に特定できます。

  • ステータス領域では、停止が識別されます。
  • タイプ別のステータス領域では、E-Business Suite、PeopleSoft、GoldenGate、Oracle Database などのアプリケーション・スタック全体またはシステムのステータスを評価できます。
  • アラーム領域では、アラームが重大度別にまとめられ、より詳細な調査のためにドリルダウンできます。
  • アプリケーション・サーバー、データベース、およびホストの階層ビューにより、応答が最も遅く、使用率が最も高いリソースを特定できます。
  • インタラクティブなグラフにより、さまざまなメトリックの迅速な評価と履歴データのドリルダウンをサポートします。

包括的な監視のためのホームページ

リソースのステータス、主要なパフォーマンスメトリクス、アラーム、および関連リソースにアクセスできます。

  • リソースとその関連コンポーネントのステータスを確認します。
  • 未解決のアラームをトリアージします。
  • 期間全体の負荷とパフォーマンスを関連付けます。
  • パフォーマンス・グラフに表示される異変を通して、保留中のパフォーマンス問題を監視します。
  • 包括的なモニタリングのためにリソースの依存関係を理解し、ナビゲーションするトポロジを利用して依存するリソースを迅速にドリルダウンします。

キューレートされたアプリケーション・スタック・ビュー

スタック・ビューは、アプリケーションとその基盤となるインフラストラクチャ・スタックの重要なKPIに関する迅速なインサイトを提供します。

  • E-Business Suiteスタック・ビュー: 上位のE-Business Suiteプログラムの実行時間の確認、Concurrent Managerリクエストのステータスの確認、WebLogicヒープ使用率の監視、Oracle Databaseの待機時間、ホストCPU、およびメモリ使用量の監視を行います。
  • PeopleSoft Stack View:アプリケーション・サーバー・ドメインの健全性とロードのステータスを確認し、サーバー・プロセスが実行されていることを検証します。WebLogic JVM メモリ使用率とスレッドプールステータス、オラクルデータベースの待機時間、ホスト CPU、およびメモリ使用量をレビューします。

ダッシュボード

ダッシュボードを使用して、可観測性および管理サービス全体でメトリック、トレースおよびログを統合します。

  • ホスト、E-Business Suite、PeopleSoft、Oracle Unified Directory用のすぐに使用できるダッシュボードを使用して、インフラストラクチャとアプリケーションのフリートをモニターします。
  • すぐに利用可能なダッシュボードをクローニングし、他の可観測性サービスやマネージド・サービスからのトレースやログを含めるように拡張します。

モニタリングの拡張とカスタマイズ

メトリック拡張

カスタム・メトリックを追加して、お客様の環境固有の条件をモニタリングします。

  • UIベースのワークフローは、メトリック定義の作成、テスト、パブリッシュ、リソースでの実現のプロセスをガイドします。
  • Metric Extensionsのデータは自動的にリソースのホームページに表示され、Enterprise HealthおよびAlarmsビューに追加できます。
  • Monitoring TemplatesにMetric Extensionsを含めることで、値がしきい値を超えたときにアラームを生成します。
  • Metric Extensionsの異常検知を有効にして、パフォーマンス異常をメトリック・グラフに表示します。

OCIサービス・インスタンスのインポート

Stack Monitoringリソースを他のOCIサービスインスタンスに関連付けることで、アプリケーション・トポロジを拡張します。

  • OCIサービスの指標データをStack Monitoringにインポートして、Stack Monitoringにそのサービスの新しいリソースインスタンスを作成します。たとえば、OCIロード・バランサーをインポートして、WebLogicクラスタを提供することができます。
  • 新しいOCIサービスリソースを他のリソースと関連付け、アプリケーション・トポロジを充実させ、すべてのリソースにわたり統合的なモニタリングを可視化します。

他のデータソースとの統合

Prometheus、Telegraf、collectd、プロセスベースのカスタム・リソースとの統合により、あらゆるタイプのインフラストラクチャをモニターします。

  • Prometheusの統合は、Prometheusのデータを発するあらゆる外部ソースから新しいリソースを作成します。
  • Telegrafとcollectdの統合は、さまざまなインフラストラクチャとアプリケーションのモニタリングを実現します。
  • アプリケーションを構成するプロセスを特定することで、ホスト上で実行されるあらゆるアプリケーションをモニターします。アプリのステータス、CPUとメモリの使用率が自動的にモニターされます。

Stack Monitoringを使い始める


営業へのお問い合わせ

スタック・モニタリングの詳細をご希望の場合は、当社のエキスパートにお問い合わせください。