Compass v0.9 · LongMemEval-S 56.6% · cross-agent memory federation
개요
Compass v0.9은 50K 토큰 길이의 대화 기록에서 LLM의 검색, 계산, 업데이트, 시간적 추론 능력을 평가하는 LongMemEval-S 벤치마크에서 56.6%의 정확도를 달성했으며, 이는 기존 SOTA(State-Of-The-Art)와 유사한 성능을 훨씬 낮은 비용으로 구현합니다. 핵심 기능은 여러 클라이언트(Claude Desktop, Cursor 등)에서 동일한 사용자 ID를 통해 메모리를 공유하는 크로스 에이전트 메모리 연합입니다.
주요 내용
* LongMemEval-S 벤치마크 달성: DeepSeek V3.2, 로컬 bge-m3 임베딩 모델, 5가지 구성 요소 파이프라인을 사용하여 500개의 질문으로 구성된 LongMemEval-S에서 56.6%의 정확도를 기록했습니다. 이는 기존 Zep SOTA의 성능과 일치하지만 비용은 1/15 수준입니다.
* 주요 성능 향상 기여 요소:
* 다각적 쿼리 재작성 (Multi-angle query rewriting): 사용자가 불명확하게 질의할 경우, 이를 3가지 각도(직접, 주제 추출, 대화형 마커)로 재작성하여 관련성 높은 정보를 찾는 데 가장 큰 기여(27점)를 했습니다.
* 다중 세션 프롬프트 분해 (Multi-session decompose prompt): 여러 세션의 대화 기록을 LLM에 제공할 때 발생하는 오류를 줄이기 위해 세션별로 분해하여 집계하도록 지시하는 방식(8점)을 사용했습니다.
* 지식 업데이트 타임스탬프 프롬프트 (knowledge-update timestamp prompt): 최신 정보를 우선시하도록 지시하여 2-3점의 성능 향상을 얻었습니다.
* 컨텍스트 확장 (context expansion): LLM의 입력 컨텍스트 창을 2400자에서 3500자로 확장하여 2점의 향상을 보였습니다.
* 실패한 개입: Neo4j 그래프 재랭킹, 이중 모델 라우터, MiniMax 1024의 특정 프롬프트 사용 등은 오히려 성능을 저하시켰습니다. 특히 MiniMax 1024는 시스템적인 실패를 유발하는 것으로 나타났습니다.
* 크로스 에이전트 메모리 연합 (Cross-agent memory federation): Compass의 가장 중요한 기능으로, Claude Desktop, Cursor, Cline 등 여러 클라이언트에서 동일한 user_id를 사용하면 모든 클라이언트가 동일한 메모리를 공유하게 됩니다. 이는 기존의 메모리 솔루션(claude-mem, Mem0, Letta, A-MEM, Zep)에서는 지원되지 않는 기능입니다.
* 설치 및 통합: Compass v0.9은 pip install nautilus-compass 또는 npx -y @nautilus/compass-mcp를 통해 설치할 수 있으며, MCP(Multi-Client Protocol) 서버, A2A(Agent-to-Agent) 어댑터, npm 래퍼 등을 포함합니다. Nautilus 에이전트와의 통합은 한 줄의 코드(attach_memory(agent))로 가능합니다.
* 드리프트 감지 (Drift detection): LLM이 일관성 없는 행동을 보이는 "드리프트"를 감지하는 기능이 포함되어 있습니다. 25개의 긍정적 앵커와 35개의 부정적 앵커 문장을 사용하여 임베딩의 코사인 유사도를 측정하며, 200개 질문 테스트 세트에서 AUC 0.92를 기록했습니다. LLM은 세션 후에도 드리프트 여부를 자체 감사하며, 그 결과를 drift: green | yellow | red 형태로 보고합니다.
* 비용 효율성: 중국 지역에서의 프로덕션 배포 시, GPU 및 LLM API 비용을 고려하더라도 GPT-4o + Claude Sonnet 사용 시보다 20배 이상 저렴하여 100K 이상의 월간 활성 사용자(MAU)를 가진 SaaS 서비스를 저렴한 예산으로 운영할 수 있습니다.
* 라이선스 및 로드맵: MIT 라이선스로 제공되며, 향후 E2EE(End-to-End Encryption) 기본 지원, 지역 분할, 논문 발표 등을 포함하는 로드맵을 가지고 있습니다.
* v0.9.5 업데이트: A2A v1 프로토콜이 라이브 되었고, SQLite 성능이 예상보다 우수하여 Postgres 전환 임계치가 500만 행으로 상향 조정되었습니다. 또한, DeepSeek V3.2를 사용한 크로스 저지(cross-judge) 재현 결과가 제시되었습니다.
시사점
Compass v0.9은 LLM의 장기 기억 능력 및 멀티 클라이언트 환경에서의 메모리 공유라는 두 가지 중요한 측면에서 상당한 발전을 이루었으며, 이는 AI 에이전트의 실용적인 적용 가능성을 높이고 비용 효율적인 배포를 가능하게 합니다.
댓글
GitHub Discussions