GraphRAG Benchmark: A 2 Million Token Comparison of LLM-only, Basic RAG, and GraphRAG

개요

GraphRAG Benchmark는 2백만 토큰 규모의 과학 논문 데이터셋을 사용하여 LLM-only, Basic RAG, GraphRAG 세 가지 검색 패러다임을 효율성과 정확성 측면에서 비교하는 벤치마크 플랫폼입니다.

주요 내용

  • 벤치마크 목적: 그래프 구조 검색이 기존 벡터 기반 RAG보다 적은 토큰 사용량, 낮은 비용, 더 나은 답변 품질을 제공하는지 검증합니다.
  • 벤치마크 대상: LLM-only (질문 직접 전달), Basic RAG (ChromaDB 사용), GraphRAG (NetworkX 사용) 세 가지 파이프라인을 비교합니다.
  • 데이터셋: Hugging Face의 armanc/scientific_papers 데이터셋에서 약 2백만 토큰을 샘플링하여 사용했습니다. 과학 논문은 메소드, 데이터셋, 작업, 개념, 실험 결과 등 복잡한 정보와 문서 간 의존성을 포함하여 GraphRAG에 적합합니다.
  • 평가 지표: 토큰 사용량, 지연 시간 (Latency), 비용, LLM-as-a-Judge 패스율, BERTScore F1 점수를 측정합니다.
  • 아키텍처: Next.js 기반 프론트엔드와 FastAPI 기반 백엔드로 구성되며, Hugging Face Spaces에 배포되었습니다.
  • 실행 환경: LLM-only, Basic RAG (ChromaDB), GraphRAG (NetworkX)의 워크플로우를 독립적으로 실행하고, Llama-3.1-8B-Instruct 모델과 BERTScore를 이용해 답변 정확성을 평가합니다.
  • 벤치마크 결과: GraphRAG는 Basic RAG 대비 토큰 사용량 50.6% 감소, 지연 시간 57.2% 감소, 비용 약 50% 감소, LLM Judge 패스율 5%p 증가, BERTScore F1 0.07p 증가를 달성했습니다. LLM-only와 비교했을 때는 더욱 큰 개선 효과를 보였습니다.
  • GraphRAG의 강점: 문서 간의 명시적인 관계를 모델링하고 그래프를 탐색하여 관련된 증거만을 검색함으로써, 적은 컨텍스트로도 더 집중되고 정확한 답변을 생성할 수 있습니다. 이는 특히 여러 문서에 걸쳐 정보를 연결해야 하는 다중 스텝 추론 (Multi-hop reasoning)에 유리합니다.
  • TigerGraph에서 NetworkX로 전환: 초기에는 TigerGraph를 사용했으나, 인증 문제, Docker 설정 복잡성, 리소스 오버헤드 등의 운영상의 어려움으로 인해 벤치마크 자체의 방법론 검증에 집중하기 위해 인프라 부담이 적은 NetworkX를 주요 엔진으로 채택했습니다.
  • 핵심 시사점: 그래프 구조가 검색 성능을 향상시키며, 적은 컨텍스트로도 정확도를 높일 수 있습니다. 또한, 토큰 절감뿐만 아니라 답변 품질 검증이 중요하며, 벤치마크의 재현성이 필수적입니다.
  • 재현성: GitHub 저장소를 통해 코드를 공개하여 누구나 벤치마크를 재현하고 검증할 수 있도록 했습니다.

시사점

GraphRAG는 단순한 학술적 개념을 넘어 실제 검색 시스템에서 측정 가능한 이점을 제공하며, 특히 복잡한 정보 검색 및 다중 스텝 추론이 필요한 영역에서 효율성과 정확성을 크게 향상시킬 수 있는 실용적인 패러다임임을 입증했습니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions