Stack Monitoring

Oracle Cloud Infrastructure(OCI) Stack Monitoring은 호스트, GPU, 데이터베이스, 앱 서버 등 애플리케이션과 인프라를 위한 필수 모니터링 및 경보 관리를 제공합니다.

OCI Stack Monitoring: 서비스 개요(9:23)
  • 한곳에서 모니터링하는 앱 및 인프라

    사일로를 없애고 Oracle E-Business Suite, PeopleSoft, GoldenGate 시스템은 물론 호스트, GPU, 데이터베이스, 앱 서버 등 온프레미스 또는 클라우드에서 실행되는 인프라의 상태를 풀스택 가시성으로 확인할 수 있습니다. Prometheus, collectd, Telegraf 통합을 활용해 모든 인프라로 모니터링 범위를 확장할 수 있습니다. 커스텀 메트릭으로 모든 고유 조건을 모니터링할 수 있습니다.

  • 대규모로 경보 관리하기

    Monitoring Templates을 사용해 E-Business Suite 또는 PeopleSoft 애플리케이션, 데이터베이스 시스템, 앱 서버, GPU 인프라를 포함한 호스트 플릿의 모든 경보 조건을 관리할 수 있습니다. 경보 설정은 환경이 확장됨에 따라 자동으로 적용됩니다. 윈도우 패치가 진행되는 동안 토폴로지 인식 Maintenance Window를 사용해 경보를 쉽게 해제할 수 있습니다.

  • GPU 인프라 및 워크로드 모니터링

    GPU 인프라의 턴키 모니터링을 바탕으로 Enterprise Health and Alarms를 사용해 GPU 플릿 전반을 인터랙티브 방식으로 모니터링할 수 있습니다. 미결 경보를 분류하고, 전체 GPU의 활동을 평가하고, GPU 활용을 모니터링하고, GPU 온도를 추적하고, 사용량이 적은 GPU 및 오류를 식별할 수 있습니다. 워크로드 프로세스를 모니터링하고 이를 기반 인프라와 상호 연계할 수 있습니다.

Stack Monitoring의 작동 방식

OCI Stack Monitoring은 온프레미스 또는 클라우드에서 실행되는 애플리케이션 및 인프라 리소스에 대한 풀스택 모니터링 및 경보 관리를 제공합니다. Stack Monitoring의 앱별 논리는 에이전트에 대한 플러그인으로 번들화되어, 후에 OCI로 전송되는 리소스를 검색하고 메트릭을 수집하는 데 사용됩니다. Stack Monitoring은 검색 결과를 바탕으로 리소스 및 애플리케이션 토폴로지를 생성합니다. 상태 및 주요 성능 데이터는 Enterprise Health and Alarms 사용자 인터페이스(UI), 리소스 홈페이지, 플릿 및 애플리케이션 대시보드에 표시됩니다. 경보 생성은 경보를 OCI Monitoring 내에 생성하는 Monitoring Templates을 사용해 간소화되며, Stack Monitoring UI에 자동으로 표시 및 요약됩니다. 주요 성능 메트릭의 기준선이 머신러닝을 사용해 자동으로 계산되며, 이상 값은 성능 차트에 강조 표시됩니다.

Stack Monitoring 고객 성공 사례

모든 고객 사례 보기

Stack Monitoring 사용 사례

  • E-Business Suite, PeopleSoft 등 Oracle Applications 모니터링하기

    Concurrent Manager, Workflow Background Engine, Notification Mailer, 종속 WebLogic Servers, Oracle Databases 호스트 등 E-Business Suite 애플리케이션 배포의 모든 구성 요소를 검색 및 모니터링할 수 있습니다. E-Business Suite 홈페이지를 사용해 전체 구성 요소 및 미결 경보의 상태를 확인할 수 있습니다. Stack View를 사용하면 E-Business Suite 장기 실행 프로그램, Concurrent Manager 요청 상태, WebLogic 메모리 활용률 및 스레드 풀 상태, Oracle Database 대기 시간, 호스트 CPU, 메모리 등 스택 전반의 주요 징후를 빠르게 확인할 수 있습니다.


    유사한 워크플로를 사용해 Application Server Domain, PeopleSoft Internet Architecture(PIA), Process Scheduler, 종속 WebLogic Server, Oracle Database, 호스트 등 PeopleSoft 및 구성 요소를 검색 및 모니터링할 수 있습니다. PeopleSoft 홈페이지를 사용해 전체 구성 요소 및 미결 경보의 상태를 확인할 수 있습니다. PeopleSoft Stack View를 사용해 애플리케이션 서버의 상태 및 로드, 프로세스 스케줄러 도메인 및 PIA, WebLogic 리소스 사용량 및 잠긴 스레드, Oracle Database 대기 시간, 호스트 CPU, 메모리를 평가할 수 있습니다.


    Oracle애플리케이션 모니터링에 대한 세부 정보 확인하기

  • 클라우드 및 온프레미스 호스트 모니터링

    에이전트가 배포되는 즉시 또는 OCI 컴퓨트 인스턴스가 프로비저닝되는 즉시 클라우드 또는 온프레미스를 모니터링할 수 있습니다. 전체 클라우드 및 온프레미스 호스트 전반의 상태, 경보, 리소스 사용량(CPU, 메모리, 스왑, 파일 시스템 사용량) 및 로드(디스크 활동, 페이징 활동)를 단일 뷰에서 모니터링할 수 있습니다. 높은 CPU를 보유한 호스트를 조사하여 CPU를 가장 많이 소비하는 앱을 확인할 수 있습니다. 성능 차트에 표시된 이상 값을 사용해 높은 리소스 사용량이 예상된 기준 범위 안에 있는지 파악할 수 있습니다. 필요 시 Metric Extensions을 사용해 환경별 조건을 모니터링할 수 있습니다.


    클라우드 및 온프레미스 호스트 모니터링에 관한 세부 내용 확인하기

  • 데이터베이스 및 미들웨어 모니터링하기

    데이터베이스와 미들웨어를 한곳에서 검색 및 모니터링할 수 있습니다. 완전한 Oracle Database 시스템(PDB, Listener, Automatic Storage Management, Cluster 등), GoldenGate, SQL Server 데이터베이스를 모니터링할 수 있습니다. WebLogic Servers, Managed File Transfer, SOA, Oracle HTTP Server와 같은 미들웨어는 물론, Tomcat, Apache HTTP Server, JBoss, JVM 서버 Oracle Identity Manager, Oracle Unified Directory까지 모니터링할 수 있습니다.


    Enterprise Health and Alarms을 사용해 미결 경보를 분류하고, 느린 성능, 높은 리소스 사용량, 데이터베이스 및 미들웨어 계층 전반의 오류를 파악할 수 있습니다. 인터랙티브 방식 차트를 사용해 모든 2개 응답 및 로드 메트릭을 동적으로 연계할 수 있습니다. 모든 성능 메트릭을 드릴다운하여 과거 추세를 확인하고 이상 값을 식별할 수 있습니다.


    데이터베이스 및 미들웨어 모니터링에 관한 세부 정보 확인하기

  • 커스텀 메트릭 추가하기

    Metric Extensions을 사용해 환경별 조건을 모니터링할 수 있습니다. Metric Extensions 안내식 워크플로를 따라 메트릭 이름, 유형, 커스텀 스크립트, SQL 쿼리를 정의할 수 있습니다. 인터랙티브 방식으로 메트릭을 테스트하고, 테스트 리소스에 대한 메트릭을 시험해 보고, 데이터를 검토하고, 필요 시 메트릭을 편집할 수 있습니다. 테스트가 완료된 후 리소스에 관한 Metric Extension을 게시 및 활성화할 수 있습니다. Stack Monitoring UI에서 수집한 Metric Extensions 데이터(홈페이지, Enterprise Health and Alarms, 대시보드 등)를 모니터링할 수 있습니다. 이상 감지 기능을 활성화해 기준선을 자동으로 파악하고 성능 차트의 이상 값을 식별할 수 있습니다. Metric Extensions에서 경보 규칙을 설정해 값이 성능 임계 값을 초과할 때 경보가 발생하도록 할 수 있습니다.


    커스텀 메트릭에 관한 세부 정보 확인하기

  • GPU 인프라 모니터링

    단일 Enterprise Health and Alarms 뷰를 통해 GPU 인프라 플릿의 전반적인 상태를 모니터링할 수 있습니다. 이 뷰를 활용해 호스트 및 GPU 전반의 미결 경보를 분류하고, 전체 호스트 전반의 CPU 및 메모리 활용률을 추적하고, 전체 GPU 전반의 GPU 활동, 메모리 활용률, 전력, 온도, 지연성을 평가할 수 있습니다. 호스트 가용성 문제 또는 최대 온도에 근접한 GPU 등 핫스팟을 파악할 수 있습니다. 오류 및 활용률이 낮은 GPU를 추적할 수 있습니다. 엔터프라이즈 뷰에서 특정 클러스터 네트워크 뷰로 드릴다운할 수 있습니다. 내장 토폴로지 뷰를 사용해 클러스터 네트워크에서 네트워크 블록 또는 로컬 블록 내 호스트 및 GPU로 드릴다운하는 방식으로 계속해서 문제를 해결해 나갈 수 있습니다.


    GPU 인프라 모니터링에 관한 세부 정보 확인하기

  • 플릿 전반의 경보 관리

    Monitoring Templates을 사용해 애플리케이션, 시스템, 인프라 플릿 경보 관리를 간소화할 수 있습니다. Monitoring Templates은 리소스를 중심에 두고 E-Business Suite 또는 PeopleSoft 애플리케이션, 데이터베이스 시스템 또는 애플리케이션 서버 및 호스트의 플릿을 위한 모든 알람 조건을 정의 및 관리합니다. 패치 기간 중 Maintenance Windows를 사용해 리소스 중심적인 방식으로 호스트 또는 앱 서버 플릿용 알람 또는 E-Business Suite, PeopleSoft와 같은 애플리케이션용 알람을 무음으로 전환할 수 있습니다.


    Monitoring Templates에 관한 세부 정보 확인하기

Stack Monitoring 기능

GPU 인프라 및 워크로드 모니터링

GPU 인프라 모니터링

GPU 인프라 토폴로지를 검색할 수 있습니다.

  • 네트워크 블록, 로컬 블록, 호스트, GPU 등 클러스터 네트워크 토폴로지를 검색할 수 있습니다.
  • 클러스터 네트워크 토폴로지 내 호스트와 관련된 GPU를 검색할 수 있습니다.
  • 클러스터 네트워크 토폴로지 전반의 탐색을 위해 내장형 토폴로지 UI를 제공합니다.

GPU 인프라 상태 및 워크로드 모니터링

엔터프라이즈 상태 및 경보 모니터링을 하향식으로 할 수 있습니다.

  • 호스트 GPU 뷰를 위한 Enterprise Health and Alarms을 사용해 플릿 전반의 전체 GPU 인프라를 모니터링할 수 있습니다.
  • 상태 영역은 호스트 가용성 문제를 파악합니다.
  • 경보 영역은 추가적인 분류를 위해 드릴 다운 기능을 통해 전체 호스트 및 GPU 전반의 경보를 집계합니다.
  • 호스트 성능 차트는 전체 호스트 전반의 CPU 및 메모리 활용률을 집계해 이상 값을 파악할 수 있게 지원합니다.
  • GPU 성능 차트는 활동, 메모리 활용률, 전력 사용량, 온도, 지연성, ECC 오류 등 전체 GPU 전반의 성능을 집계합니다. 고온 및 오류 또는 추가 워크로드에 활용되지 않는 GPU와 같은 문제 영역의 파악을 지원합니다.
  • 인터랙티브 뷰는 기록 데이터, 특정 호스트 또는 GPU로 드릴다운해 추가적으로 문제를 해결합니다.
  • 워크로드 프로세스를 모니터링하고, 성능과 기본 호스트 및 GPU를 상호 연계합니다.

애플리케이션 및 애플리케이션 인프라 검색

간소화된 검색

Oracle E-Business Suite, PeopleSoft 및 애플리케이션 스택 기술 등 애플리케이션을 위한 원클릭 검색을 지원합니다.

  • 동시 처리, 워크플로 백그라운드 엔진, 통지 메일러, 종속 WebLogic Servers 등 E-Business Suite의 모든 구성 요소를 검색할 수 있습니다.
  • 애플리케이션 서버 도메인, PIA, 프로세스 스케줄러, OpenSearch, 종속 WebLogic Servers 등 PeopleSoft 및 그 구성 요소의 모든 구성 요소를 검색할 수 있습니다.
  • Oracle Database 시스템(PDB, Listener, Automatic Storage Management, Cluster 등)과 같은 데이터베이스 및 관련 리소스와 SQL Server 데이터베이스 및 GoldenGate 검색을 지원합니다.
  • WebLogic Servers, Managed File Transfer, SOA, Oracle HTTP Server, Tomcat, Apache HTTP Server, Oracle Identity Manager, Oracle Unified Directory 등 미들웨어 검색을 지원합니다.
  • 온프레미스 호스트의 자동 검색 및 모니터링과 에이전트 배포 컴퓨팅을 지원합니다.

애플리케이션 토폴로지

애플리케이션을 앱 서버 및 데이터베이스에 연계해 스택 전반의 문제 해결을 지원하는 애플리케이션 토폴로지의 자동 생성을 지원합니다.

  • E-Business Suite 애플리케이션 토폴로지는 E-Business Suite을 종속 WebLogic Servers 및 Oracle Database에 연계합니다.
  • PeopleSoft 애플리케이션 토폴로지는 PeopleSoft를 종속 WebLogic Servers 및 Oracle Database와 연계합니다.
  • WebLogic 도메인 토폴로지는 자체 WebLogic 클러스터 및 WebLogic Servers를 연계합니다.
  • Oracle Database 시스템 토폴로지는 Oracle Database, PDBs, Listeners, Cluster, Automatic Storage Management를 연계합니다.
  • GoldenGate 토폴로지는 GoldenGate, 배포, 관리자 서비스, 분산 서비스, 추출 및 복제와 같은 구성 요소를 연계합니다.

애플리케이션 및 인프라 상태 모니터링

선별 모니터링

각 리소스 유형에 대한 모니터링은 가용성, 응답, 로드, 오류, 활용률과 관련된 핵심 활성 징후에 대해 자동으로 이루어집니다. 그 결과 주요 모니터링 대상 결정을 위한 도메인 전문성의 수준에 관한 DevOps의 부담을 줄일 수 있습니다.

  • E-Business Suite 모니터링 대상에는 프로그램 실행 시간 및 Concurrent Manager와 장기 실행 동시 작업 요청이 포함됩니다.
  • PeopleSoft 모니터링 대상에는 애플리케이션 서버 도메인 상태 및 로드, 프로세스 스케줄러 도메인 상태 및 로드, PIA 상태 및 로드, Elasticsearch/OpenSearch 쿼리, 패치 지연성이 포함됩니다.
  • WebLogic 모니터링 대상에는 힙 사용량, 잠긴 스레드, 웹 요청률, 웹 요청 처리 시간이 포함됩니다.
  • Oracle Database 모니터링 대상에는 테이블스페이스 사용량, 차단 세션, 데이터베이스 시간, FRA 사용량, IO 처리량이 포함됩니다.
  • 호스트 모니터링 대상에는 CPU, 메모리, 스왑, 파일 시스템 활용률이 포함됩니다.

머신러닝 기반 이상 감지

이상 감지는 신속한 문제 식별 및 해결을 지원합니다.

  • 과거의 규범을 벗어난 리소스 성능을 빠르게 파악해 시각 자료를 제공합니다.
  • 머신러닝을 사용해 핵심 성능 메트릭에 대한 기준선을 자동으로 계산할 수 있습니다.
  • 이상 활동에 플래그를 지정하고, 유용한 차트 및 비교 값을 제공합니다.

대규모 경보 관리

Monitoring Templates은 애플리케이션, 시스템, 리소스 플립에 대한 경보 규칙 조건을 리소스 지향적으로 설정합니다.

  • E-Business Suite, PeopleSoft, Oracle Database, WebLogic Server, 호스트 및 기타 리소스 유형에 대해 Oracle 인증 Monitoring Templates의 권장 경보 규칙을 사용할 수 있습니다.
  • 모니터링 템플릿은 메트릭 경보 규칙을 개별적으로 관리하는 방식이 아닌, 전체 경보 및 통지 조건 세트를 템플릿에서 리소스별로 지정 및 관리하는 리소스 지향적인 방식을 제공합니다.
  • OCI Monitoring 경보 규칙은 모니터링 템플릿을 기반으로 자동으로 생성 및 업데이트됩니다.

Maintenance Windows

Maintenance Windows는 유지 보수 작업이 진행 중인 리소스의 경보를 생략하도록 하는 리소스 지향적인 방식을 제공합니다.

  • Maintenance Window에 애플리케이션, 데이터베이스 시스템 또는 호스트와 같은 리소스를 특정하면 모든 관련 경보가 생략됩니다.
  • E-Business Suite, PeopleSoft와 같은 토폴로지 기반 애플리케이션의 경우 Maintenance Windows가 모든 멤버들을 자동으로 포함시킵니다. 유지 관리 호스트에는 호스트에서 실행되는 리소스가 자동으로 포함됩니다.
  • 일회성 및 반복 Maintenance Windows가 지원됩니다.

인터랙티브 방식의 문제 해결을 위한 특별히 선별된 UI

온프레미스 및 클라우드 전반에 제공되는 단일 화면

Enterprise Health and Alarms을 사용해 전사적 가시성을 확보하고 가동 중단, 미결 경보, 성능 핫스팟을 신속히 파악할 수 있습니다.

  • 상태 영역에서 가동 중단을 파악할 수 있습니다.
  • 유형별 상태 영역은 E-Business Suite, PeopleSoft, GoldenGate, Oracle Database와 같은 전체 앱 스택 또는 시스템의 상태 평가를 지원합니다.
  • 경보 영역은 추가 조사를 위해 드릴 다운을 사용해 심각도별로 경보를 요약합니다.
  • 앱 서버, 데이터베이스, 호스트용 계층 뷰는 응답 시간이 가장 낮은 리소스와 활용도가 가장 높은 리소스를 파악합니다.
  • 인터랙티브 차트는 다양한 메트릭에 대한 빠른 평가와, 기록 데이터에 대한 드릴 다운을 지원합니다.

전체적 모니터링을 위한 홈페이지

리소스의 상태, 주요 성능 메트릭, 경보, 관련 리소스에 액세스합니다.

  • 리소스의 상태 및 관련 구성 요소의 상태를 확인합니다.
  • 모든 미결 경보를 분류합니다.
  • 시간대별로 로드와 성능을 연계합니다.
  • 성능 차트에 표시된 이상 값을 통해 대기 중인 성능 관련 문제를 확인합니다.
  • 전체적 모니터링을 위한 리소스 종속성을 이해하고 종속 리소스로의 신속한 드릴 다운을 위해 탐색 토폴로지를 사용합니다.

선별된 애플리케이션 Stack Views

Stack Views는 애플리케이션의 핵심 KPI와 기본 인프라 스택에 대한 인사이트를 빠르게 제공합니다.

  • E-Business Suite Stack View: 상위 E-Business Suite의 실행 시간을 확인하고, Concurrent Manager 요청 상태를 확인하고, WebLogic 힙 활용률, Oracle Database 대기 시간, 호스트 CPU 및 메모리 사용량을 모니터링합니다.
  • PeopleSoft Stack View: 애플리케이션 서버 도메인 건전성의 상태를 확인하고 서버 프로세스의 실행 여부를 검증합니다. WebLogic JVM 메모리 활용률과 스레드 풀 상태, Oracle Database 대기 시간, 호스트 CPU, 메모리 사용량을 검토합니다.

대시보드

대시보드를 사용해 Observability and Management 서비스 전반의 메트릭, 추적 및 로그를 통합합니다.

  • 호스트, E-Business Suite, PeopleSoft, Oracle Unified Directory를 위한 즉시 사용 가능한 대시보드를 사용해 인프라 및 애플리케이션 플릿을 모니터링합니다.
  • 모든 즉시 사용 가능한 대시보드를 복제하고, 타 Observability and Management 서비스의 추적 및 로그를 포함하도록 확장합니다.

모니터링 확장 및 커스텀화

메트릭 확장

고객 고유의 환경 조건을 모니터링하기 위한 커스텀 메트릭을 추가합니다.

  • UI 기반 워크플로가 메트릭 정의 생성, 테스트, 게시 과정과 이를 리소스에서 활성화시키는 과정까지 모두 안내합니다.
  • Metric Extensions 데이터는 리소스 홈페이지에 자동으로 나타나며, Enterprise Health and Alarms 뷰에 추가될 수 있습니다.
  • Metric Extensions을 Monitoring Templates에 추가해 수치가 임계 값을 초과하는 경우 경보를 발생시킬 수 있습니다.
  • Metric Extensions에서 이상 감지를 실행해 메트릭 차트에서 성능 이상을 표시합니다.

OCI Service 인스턴스 가져오기

Stack Monitoring 리소스를 타 OCI 서비스 인스턴스와 연계함으로써 애플리케이션 토폴로지를 확장할 수 있습니다.

  • OCI 서비스의 메트릭 데이터를 Stack Monitoring으로 가져와 Stack Monitoring에서 해당 서비스를 위한 새로운 리소스 인스턴스를 생성할 수 있습니다. 예를 들어 OCI Load Balancer를 서비스 WebLogic 클러스터로 가져올 수 있습니다.
  • 새로운 OCI 서비스 리소스를 타 리소스와 연계해 애플리케이션 토폴로지를 강화하고 전체 리소스 전반에 대해 통합된 모니터링 가시성을 확보할 수 있습니다.

타 데이터 소스와의 통합

Prometheus, Telegraf, collectd 및 프로세스 기반 커스텀 리소스와의 통합을 통해 모든 유형의 인프라를 모니터링할 수 있습니다.

  • Prometheus 통합은 Prometheus 데이터를 내보내는 모든 외부 소스로부터 새로운 리소스를 생성할 수 있습니다.
  • Telegraf 및 collectd 통합은 광범위한 인프라 및 앱의 모니터링을 지원합니다.
  • 호스트에서 실행되는 모든 앱을 앱을 구성하는 프로세스를 식별하는 방식으로 모니터링할 수 있습니다. 상태, CPU 및 메모리 활용률에 대한 모니터링이 자동으로 실행됩니다.

Stack Monitoring 시작하기


영업팀에 문의하기

Stack Monitoring에 대해 더 자세히 알고 싶으신가요? Oracle의 전문가가 도와 드리겠습니다.