Is Grep All You Need? How Agent Harnesses Reshape Agentic Search
개요
LLM 에이전트 분야의 최근 발전으로 사용자를 대신하여 정보를 검색하고, 도구를 호출하며, 대규모 코퍼스를 추론하는 복잡한 에이전트 워크플로우가 가능해졌습니다. 이 연구는 에이전트 검색 시스템에서 RAG 채택 증가에도 불구하고, 검색 전략 선택이 에이전트 아키텍처 및 도구 호출 패러다임과 어떻게 상호 작용하는지에 대한 체계적인 비교가 부족하다는 점을 지적합니다.
주요 내용
- 에이전트 루프에서 도구 결과가 모델에 어떻게 제시되는지, 그리고 검색이 더 많은 관련 없는 주변 텍스트를 처리해야 할 때 성능이 어떻게 변하는지와 같은 중요한 실무적 차원이 아직 충분히 탐구되지 않았습니다.
- 첫 번째 실험에서는 116개의 질문으로 구성된 LongMemEval 샘플에 대해 grep과 벡터 검색을 비교했으며, 커스텀 에이전트 하네스(Chronos) 및 제공업체 네이티브 CLI 하네스(Claude Code, Codex, Gemini CLI)를 사용하여 인라인 도구 결과와 파일 기반 도구 결과 모두에 대해 평가했습니다.
- 두 번째 실험에서는 점진적으로 관련 없는 대화 기록을 혼합하면서 grep만 사용하거나 벡터 검색만 사용하는 검색을 비교하여, 각 쿼리가 중요한 구절 옆에 더 많은 방해 요소가 포함된 상황을 시뮬레이션했습니다.
- Chronos 및 제공업체 CLI 전반에 걸쳐, grep은 일반적으로 벡터 검색보다 높은 정확도를 보였습니다.
- 전반적인 점수는 근본적인 대화 데이터가 동일하더라도 어떤 하네스와 도구 호출 스타일이 사용되는지에 따라 크게 달라졌습니다.
시사점
이 경험적 연구는 에이전트 검색에서 grep과 벡터 검색 간의 성능 차이를 분석하고, 다양한 에이전트 아키텍처 및 도구 호출 방식이 검색 전략 선택과 어떻게 상호 작용하는지에 대한 중요한 통찰을 제공하며, 향후 에이전트 시스템 설계 및 성능 최적화를 위한 방향을 제시합니다.
원문을 불러오는 중...
댓글
GitHub Discussions