Faithfulness gate: the agent layer most teams skip
개요
AI 에이전트의 응답이 검색된 컨텍스트에 기반하는지 확인하는 'Faithfulness gate'라는 검증 계층은 대부분의 팀이 간과하지만, 고객의 불만을 방지하고 AI 시스템의 신뢰성을 높이는 데 매우 효과적이다.
주요 내용
* Faithfulness gate의 필요성: B2B SaaS 팀에서 AI 어시스턴트가 고객 문의에 잘못된 정보를 제공하여 발생한 문제를 해결하는 과정에서, 더 큰 LLM 모델로 교체하는 것이 아닌, 응답의 근거를 확인하는 'Faithfulness gate'가 필요함이 강조되었다.
* Faithfulness의 정의: Faithfulness는 에이전트의 응답이 검색된 컨텍스트에 의해 뒷받침되는지 여부를 측정하며, 응답의 정확성(correctness)과는 구분된다. 컨텍스트만으로 검증 가능하며, 인간의 개입 없이도 확인할 수 있다.
* Faithfulness gate의 작동 방식: 에이전트가 응답을 생성한 후, 별도의 LLM 호출(judge)을 통해 응답에서 원자적 주장(atomic claims)을 추출하고, 이 주장들이 검색된 컨텍스트에 의해 지지되는지 확인한다. 검증된 주장 비율이 일정 임계값(기본 0.85) 미만이면 응답이 거부된다.
* 모델 크기보다 중요한 이유: 더 큰 LLM은 더 자신감 있게 환각(hallucination)을 일으킬 수 있으며, Faithfulness gate는 모델의 자신감이나 작성 능력과는 무관하게 응답의 주장이 검색된 컨텍스트에서 추적 가능한지 여부에만 집중한다.
* 임계값 설정: Faithfulness 임계값은 0.95 이상(법률, 의료 등 고위험 분야), 0.85~0.95(B2B SaaS 기본값), 0.70~0.85(사용자 자가 검증 가능한 내부 도구) 등으로 설정될 수 있다.
* gate 실패 시 대처 방안: 에이전트는 컨텍스트를 보강하여 재시도하거나, "이용 가능한 정보로는 자신 있게 답변할 수 없다"고 알리거나, 인간 상담원에게 에스컬레이션하는 세 가지 옵션을 가질 수 있다.
* 실제 적용 사례: RAG 기반 고객 지원 에이전트에 Faithfulness gate를 적용한 결과, 고객 보고 오류가 60% 감소했으며, 불필요한 답변 거부로 인한 사용자 경험 저하 우려와 달리, "모르겠다"는 답변이 긍정적으로 받아들여졌다. 또한, 실패한 검사 로그는 문서 개선을 위한 귀중한 자료가 되었다.
* Faithfulness gate의 한계: Faithfulness gate는 잘못된 컨텍스트 검색, 오래된 컨텍스트, 미묘하게 잘못된 추론 등은 직접적으로 잡아내지 못하므로, 다른 평가 방법과의 병행이 필요하다.
* Sapota의 권장 사항: 실제 사용되는 에이전트에는 Faithfulness gate를 적용하고, 저비용 judge 모델을 사용하며, 0.85부터 시작하여 임계값을 조정하고, 재시도 및 폴백 정책을 구현하며, 실패 로그를 기록해야 한다.
시사점
Faithfulness gate는 AI 에이전트의 성능을 추상적으로 개선하는 것이 아니라, 고객에게 잘못된 정보를 확신에 차서 전달하는 치명적인 오류를 방지하는 핵심적인 역할을 수행하므로, 생산 환경의 AI 에이전트 구축 시 필수적으로 고려해야 할 계층이다.
댓글
GitHub Discussions