📉 모니터링 및 알림¶
학습 안내
등록된 서버의 리소스를 실시간으로 감시하고, 장애 징후 포착 시 트리거를 통해 담당자에게 즉각적인 알림을 전송하는 메커니즘을 학습합니다.
1. 시스템 요약 및 정보 수집¶
시스템의 하드웨어 사양, OS 정보, 설치된 프로그램 현황을 체계적으로 수집합니다.
- 시스템 요약: 하드웨어 리소스, OS 커널 버전, Agent 버전 등을 한눈에 확인합니다.
- 템플릿 활용: 수집 항목을 템플릿화하여 그룹별로 일괄 적용할 수 있습니다.
- 수동 갱신: 필요 시 갱신 버튼을 눌러 정보를 실시간으로 최신화합니다.
- 변경 이력: 구성 정보가 변경된 항목(예: 디스크 증설, OS 패치 등)을 타임라인별로 추적합니다.
2. 실시간 모니터링 및 플러그인¶
상세 지표 수집을 위해 모니터링 플러그인을 설치하고 운계합니다.
플러그인 관리¶
- 설치: CPU, 메모리, 디스크 사용량, 네트워크 트래픽 등 필요한 플러그인을 시스템별로 설치합니다.
- 모니터링 간격: 데이터 수집 시간 주기(기본 60초)를 조정할 수 있습니다.
- 차트 보기: 실시간 지표를 시각화된 대시보드 형태의 차트로 조회합니다.
주요 플러그인 종류¶
- 시스템 리소스: CPU/메모리/디스크 사용률
- 네트워크: 핑(Ping) 손실률, 회선 사용량(SNMP)
- 데이터베이스: Oracle 세션, MS-SQL 온라인 정보 등
3. 트리거 및 알림 설정¶
특정 조건 만족 시 상태 변화(경고/심각)를 발생시키고 알림을 발송합니다.
트리거 정의¶
- 조건 설정: 'CPU 사용량이 90% 이상 5분 유지'와 같은 세부 임계치를 정의합니다.
- 중요도 지정: 장애의 심각도에 따라 경고(Warning) 또는 심각(Critical) 단계로 구분합니다.
알림 수신 관리¶
- 알림 사용자: 트리거 동작 시 알림을 받을 담당자 또는 사용자 그룹을 지정합니다.
- 수신 방법: 웹 UI 알림, 이메일, 문자 등 설정된 채널을 통해 전달됩니다.