grafana4 [Tempo] Tempo란 마이크로 서비스 아키텍처가 많은 기업에서 채택되어 사용되면서, 그에 따라 아키텍처의 복잡도도 함께 증가되었다. 복잡도로 인하여, 에러나 지연이 발생하면, 정확히 어떤 마이크로 서비스에서 문제가 발생하는지 파악하는 것도 어려워졌다. 이러한 문제를 해결하기 위하여 분산 추적의 필요성이 생겼고, 이번 글에서 소개하는 Tempo가 Grafana Labs에서 개발한 분산 추적 솔루션이다.Grafana Tempo https://grafana.com/oss/tempo/ Grafana Tempo OSS | Distributed tracing backendIntroduction to Grafana Tempo Grafana Tempo is an open source, easy-to-use, and high-scale.. 2024. 11. 22. [Grafana] 특정 파드 지속 장애 시 Slack Alert 제작 메트릭을 관측하고 얻는 자료들은 비즈니스 적으로 많은 가치가 있으나, 실시간으로 발생하는 특정 이벤트에 대한 대처(서버 다운 등)를 하기 위하여 수집되는 모든 데이터들을 24시간 동안 지켜본다는 것은 비현실적이고 불필요한 일이다. 그렇기 때문에 수집을 통하여 얻은 데이터가 특정 조건을 충족하면 이벤트가 발생했다는 알람을 만드는 것이 가장 효율적이라고 볼 수 있다. Prometheus / Grafana Stack에서는 Alertmanager 또는 Grafana에서 알람을 만들어서 협업 툴을 통하여 받을 수 있는데, 이번 글은 특정 알람을 설정하고, 이를 Slack에서 받는 방법에 대하여 알아볼 것이다. 1. Slack Webhook Slack은 협업 툴로 많이 사용되고 다양한 오픈 소스들과 통합하기도 .. 2024. 10. 28. [Prometheus] Kube-Proxy Metric 활성화 사내에서 kube-prometheus-stack을 이용하여 쿠버네티스 클러스터 모니터링을 구축하던 차였다. 기본적으로 Apiserver 및 노드와 파드의 상태를 모니터링하는 부분은 별 문제가 없으나,일부 Helm에서 생성되는 쿠버네티스 컴포넌트의 대시보드가 아래처럼 아무런 데이터가 나오지 않았다. 데이터가 없는 주요 컴포넌트는 kube-proxy, etcd, kube-controller-manager, kube-scheduler가 있었다. 우선 kube-proxy부터 순차적으로 자료 조사를 진행하였다. 해당 원인은 쉽게 파악이 되었고 해결하였는데, ConfigMap에서 kube-proxy의 Metric수집을 위한 주소가 없기 때문이라는 것을 파악했다. Troubleshoot # kube-sy.. 2024. 4. 4. [SRE] USE / RED Method 시스템을 구축하고 운영하는 데 있어 성능과 장애를 모니터링하는 것은 중요한 부분이지만 어떠한 기준을 가지고 성능을 측정하고 수치화할 수 있는지에 대하여는 다른 이야기이다. 그러한 부분에서 모니터링의 성능 측정에 대한 다양한 방법론이 제기되었다. 해당 글에서는 이 중 대표적으로 많이 이용되는 USE 방법론과 RED 방법론에 대하여 알아볼 것이다. 1. USE Method USE 방법론은 Brendan Gregg가 고안한 방법론으로, 시스템에 중점을 둔 체크리스트를 구성하여 리소스의 병목 현상이나 오류를 신속하게 식별하여 서버를 분석하는 방법이다. https://www.brendangregg.com/usemethod.html The USE Method The USE Method Boeing 707 Emerg.. 2024. 3. 30. 이전 1 다음