본문 바로가기

prometheus3

[Grafana] 특정 파드 지속 장애 시 Slack Alert 제작 메트릭을 관측하고 얻는 자료들은 비즈니스 적으로 많은 가치가 있으나, 실시간으로 발생하는 특정 이벤트에 대한 대처(서버 다운 등)를 하기 위하여 수집되는 모든 데이터들을 24시간 동안 지켜본다는 것은 비현실적이고 불필요한 일이다.  그렇기 때문에 수집을 통하여 얻은 데이터가 특정 조건을 충족하면 이벤트가 발생했다는 알람을 만드는 것이 가장 효율적이라고 볼 수 있다.  Prometheus / Grafana Stack에서는 Alertmanager 또는 Grafana에서 알람을 만들어서 협업 툴을 통하여 받을 수 있는데, 이번 글은 특정 알람을 설정하고, 이를 Slack에서 받는 방법에 대하여 알아볼 것이다. 1. Slack Webhook Slack은 협업 툴로 많이 사용되고 다양한 오픈 소스들과 통합하기도 .. 2024. 10. 28.
[Kong] Kubernetes 환경 내 Prometheus의 Metric 수집 및 확인 쿠버네티스 클러스터에서 Ingress Controller로 Nginx나 Kong이 많이 이용된다.  여기서 Ingress(Gateway)를 통하여, 클러스터에 들어오는 트래픽과 Latency는 UX 개선에 참고할 수 있는 중요한 Metric이다.  해당 글을 통하여, Helm 차트로 설치한 Kong Proxy(Gateway)의 메트릭을 Prometheus를 이용하여 수집하고 Grafana 대시보드를 이용하여 확인하는 과정을 알아볼 것이다.  1. Helm values.yaml 수정 admin 활성화 메트릭을 수집하기 위하여 kong admin을 활성화시켜 주고 http 이용을 위하여 활성화한다. [Default에서 수정한 옵션] admin.enabled : false  ->  true admin.type.. 2024. 8. 2.
[Prometheus] Kube-Proxy Metric 활성화 사내에서 kube-prometheus-stack을 이용하여 쿠버네티스 클러스터 모니터링을 구축하던 차였다. 기본적으로 Apiserver 및 노드와 파드의 상태를 모니터링하는 부분은 별 문제가 없으나,일부 Helm에서 생성되는 쿠버네티스 컴포넌트의 대시보드가 아래처럼 아무런 데이터가 나오지 않았다.   데이터가 없는 주요 컴포넌트는 kube-proxy, etcd, kube-controller-manager, kube-scheduler가 있었다. 우선 kube-proxy부터 순차적으로 자료 조사를 진행하였다.   해당 원인은 쉽게 파악이 되었고 해결하였는데, ConfigMap에서 kube-proxy의 Metric수집을 위한 주소가 없기 때문이라는 것을 파악했다.    Troubleshoot # kube-sy.. 2024. 4. 4.