From 62% to 94% RAG Accuracy: The 5 Architecture Changes That Actually Moved the Needle
개요
생산 RAG(Retrieval-Augmented Generation) 시스템의 정확도를 62%에서 94%로 6주 만에 5가지 아키텍처 변경을 통해 향상시킨 경험을 설명하며, 각 변경 사항의 영향과 수치를 제시합니다.
주요 내용
- 평가 환경 구축: 150개의 실제 프로덕션 쿼리와 도메인 전문가가 작성한 참조 답변을 기반으로 RAGAS를 활용하여 충실성, 답변 관련성, 컨텍스트 정확도, 컨텍스트 재현율 네 가지 차원에서 메트릭을 측정했습니다. 이를 통해 베이스라인 정확도 62%, 멀티 문서 쿼리 41%, 정확한 일치 검색 58%, 잘못된 자신감 비율 68%를 확인했습니다.
- 변경 1: 시맨틱 청킹 (Semantic Chunking): 고정된 윈도우 크기의 청킹이 논리적 관계를 단절시키는 문제를 해결하기 위해 문장 수준 임베딩 유사성을 기반으로 자연스러운 주제/섹션 경계를 감지하여 문서를 분할했습니다. 이 변경으로 멀티 홉 쿼리 정확도가 31% 향상되었습니다.
- 변경 2: 하이브리드 검색 (Hybrid Search) 및 RRF (Reciprocal Rank Fusion): 개념적 유사성에 강한 시맨틱 검색과 특정 용어 일치에 강한 BM25 키워드 검색을 병렬로 수행하고, Reciprocal Rank Fusion (RRF)으로 두 결과를 융합했습니다. 이를 통해 특정 용어 검색의 정확도가 크게 향상되었습니다.
- 변경 3: 크로스-인코더 재순위 (Cross-Encoder Re-ranking): 초기 검색에서 얻은 후보 청크들을 쿼리와 함께 처리하여 관련성을 직접 평가하는 크로스-인코더를 사용하여 최종적으로 LLM에 전달할 청크의 관련성을 높였습니다. 이를 통해 LLM이 필요로 하는 정보의 유용성을 향상시켰습니다.
- 변경 4: 소스 계층 구조 + 메타데이터 태깅 (Source Hierarchy + Metadata Tagging): 문서의 출처, 업데이트 날짜, 그리고
source_authority(1=주요, 2=보조, 3=추가) 메타데이터를 추가하여 충돌하는 정보 발생 시 권위가 높은 소스의 정보를 우선하도록 했습니다. 이를 통해 오래되거나 덜 신뢰할 수 있는 문서로 인해 발생하는 잘못된 답변을 줄였습니다. - 변경 5: 구조화된 평가 스위트 (Structured Evaluation Suite): 아키텍처 변경이 아닌 프로세스 변경으로, CI/CD 파이프라인에 평가 스위트를 통합하여 배포 시마다 성능 저하를 감지하고 차단하는 게이트를 설정했습니다. 이는 다른 모든 변경 사항의 검증을 가능하게 했습니다.
시사점
5가지 아키텍처 변경을 통해 RAG 시스템의 전반적인 정확도를 62%에서 94%로 크게 향상시켰으며, 특히 잘못된 자신감 비율을 68%에서 12%로 감소시켜 LLM의 응답 신뢰도를 높였습니다. 모델 자체보다 검색 아키텍처 개선이 RAG 시스템 성능 향상에 더 효과적임을 시사하며, 프로덕션 환경에서의 지속적인 평가와 개선의 중요성을 강조합니다.
원문을 불러오는 중...
댓글
GitHub Discussions