Your Logs Have the Answer. You Just Can't Find It Fast Enough.

개요

로그 데이터의 단편화는 문제 해결에 오랜 시간을 소요하게 만들며, Steadwing은 여러 로깅 플랫폼을 병렬로 검색하고 컨텍스트를 제공하여 이 문제를 해결합니다.

주요 내용

* 로그 데이터의 단편화 문제: 여러 팀이 각기 다른 시점에 다양한 로깅 플랫폼(CloudWatch, Elasticsearch, Loki, GCP Logging 등)을 도입하면서 로그 데이터가 분산되어, 문제 발생 시 근본 원인을 찾는 데 어려움을 겪습니다.
* 효율적인 로그 검색의 어려움: 인시던트 발생 시 엔지니어는 어떤 서비스가 영향을 받았는지, 해당 서비스가 어떤 플랫폼에 로그를 남기는지 파악해야 하며, 각 플랫폼의 고유한 쿼리 언어와 시간 범위 설정에 대한 지식이 필요합니다. 또한, 컨텍스트 없이 로그를 검색하는 것은 추측에 의존하게 되어 비효율적입니다.
* 중복 노력의 발생: 여러 엔지니어가 동시에 인시던트 조사에 참여할 때, 각자 다른 플랫폼에서 독립적으로 로그를 검색하면서 중복된 노력이 발생하고 전체적인 조사 시간을 지연시킵니다.
* Steadwing의 병렬 검색 및 컨텍스트 제공: Steadwing은 AWS CloudWatch, GCP Cloud Logging, Elasticsearch, Mezmo, Scalyr, Grafana Loki와 같은 다양한 로깅 플랫폼을 지원하며, 인시던트 발생 시 모든 플랫폼의 로그를 병렬로 동시에 검색합니다. PagerDuty 알림 시간, GitHub 배포 데이터, Datadog 메트릭 이상 등의 컨텍스트 정보를 활용하여 검색 범위를 좁히고 관련 로그를 신속하게 제공합니다.
* 기존 시스템 유지 및 통합: Steadwing은 기존 로깅 인프라를 변경하거나 새로운 플랫폼으로 마이그레이션할 필요 없이, 이미 사용 중인 로깅 플랫폼들을 하나의 시스템처럼 검색할 수 있도록 지원합니다.

시사점

로그 데이터의 파편화로 인한 인시던트 대응 지연 문제를 해결하기 위해, 기존의 분산된 로깅 환경을 그대로 유지하면서도 Steadwing과 같은 도구를 활용하여 로그를 통합적으로 검색하고 컨텍스트를 제공함으로써 문제 해결 속도를 획기적으로 단축할 수 있습니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions