MCP as Observability Interface: Connecting AI Agents to Kernel Tracepoints
개요
MCP(Model Context Protocol)는 AI 에이전트가 인프라 데이터에 직접 접근할 수 있는 인터페이스로 부상하고 있으며, 이를 통해 기존의 메트릭 파이프라인을 우회하여 커널 트레이스포인트에 대한 직접적인 관찰 가능성을 제공하는 방식이 탐구되고 있습니다.
주요 내용
* MCP의 부상: Datadog이 MCP 서버를 출시하여 대시보드를 AI 에이전트와 연결하는 동시에, Qualys는 MCP 서버를 새로운 섀도우 IT 위험으로 지목했습니다.
* 두 가지 MCP 관찰 가능성 접근 방식:
* 기존 플랫폼 래핑: Datadog의 접근 방식으로, 기존 메트릭, 로그, 트레이스를 MCP 도구를 통해 노출하여 AI 에이전트가 사전에 처리된 데이터에 접근하게 합니다. 이는 성숙한 관찰 가능성 스택을 가진 팀에 적합합니다.
* MCP 네이티브 관찰 가능성 구축: eBPF 에이전트를 사용하여 CUDA Runtime 및 Driver API를 추적하고, 결과를 SQLite에 저장하며, 모든 것을 MCP 도구를 통해 직접 노출하는 방식입니다. 이는 AI 에이전트가 집계된 데이터가 아닌 원시 커널 이벤트에 직접 접근하여 근본 원인 조사를 가능하게 합니다.
* MCP 네이티브 관찰 가능성 실례: vLLM TTFT 회귀 사례에서 MCP 네이티브 접근 방식은 상세한 CUDA API 호출, 커널 컨텍스트 스위치, 메모리 할당 등의 원시 데이터를 AI 에이전트(Claude)가 직접 분석하도록 하여, 일반적인 집계 메트릭으로는 발견하기 어려운 'logprobs computation'이 디코드 루프를 차단하여 256배 속도 저하를 유발한 근본 원인을 30초 이내에 식별했습니다.
* 보안 측면: MCP 서버의 보안은 중요한 문제로, 특히 정적 시크릿 의존성 및 GPU 인프라에 접근하는 경우 타이밍 정보, 메모리 레이아웃, 모델 아키텍처 세부 정보 노출 가능성이 있습니다. Ingero의 접근 방식은 MCP 서버를 eBPF 추적 파이프라인과 동일한 프로세스 내에서 실행하여 AI 에이전트와 커널 수준 텔레메트리 간의 데이터 계층을 제거하고 실시간 인과 관계 분석을 가능하게 합니다.
* 오픈 소스 및 실습: Ingero 프로젝트는 오픈 소스로 제공되며, GitHub에서 소스 코드를 클론하고 로컬에서 MCP 서버를 실행하여 Claude와 같은 MCP 클라이언트와 연결하여 직접 조사해 볼 수 있습니다.
시사점
MCP가 AI 에이전트와 인프라 데이터 간의 직접적인 연결 인터페이스로 자리 잡으면서, 기존의 집계 중심 관찰 가능성에서 벗어나 원시 커널 수준 데이터에 대한 AI 기반의 실시간 근본 원인 분석이 가능해질 것으로 기대됩니다.
댓글
GitHub Discussions