How Conversation Memory Improves Conversation experience
개요
대화 메모리(conversation memory)를 활성화하면 Copilot Studio의 검색 쿼리 생성 품질이 향상되어 검색된 RAG 문서의 관련성이 높아집니다.
주요 내용
* 대화 메모리의 중요성: LLM의 성능은 런타임 시 검색되는 정보에 크게 의존하며, 모호하거나 도메인 맥락이 부족한 쿼리는 환각(hallucination), 관련 없는 결과, 중요 규정 누락을 초래할 수 있습니다. 잘 구성된 쿼리는 이러한 문제를 최소화하고 관련성을 높입니다.
* 실험 설정: Copilot Studio의 "검색 쿼리 생성" 컴포넌트를 사용하여 대화 기록(메모리) 포함 여부에 따른 검색 쿼리 품질 및 RAG 문서 관련성을 비교하는 실험을 진행했습니다. EU AI Act와 같은 법률/규제 텍스트를 소스로 사용했습니다.
* 실험 구성:
* 메모리 ON: 현재 대화의 이전 3개 메시지를 쿼리 생성에 포함시켰습니다.
* 메모리 OFF: 대화 기록을 포함하지 않고 각 사용자 메시지에서 새로 쿼리를 생성했습니다.
* 관찰 결과 (메모리 ON):
* 첫 번째 질문("EU AI Act 적용 여부")에 대해 "EU AI Act 적용 가능성 AI 도구 채용 지원자 CV 심사"와 같이 맥락에 맞는 키워드 검색 쿼리가 생성되었습니다.
* 이어지는 질문에서도 이전 대화 내용을 반영하여 "EU AI Act 고위험 CV 심사 실무적 영향", "EU AI Act에서 고위험 AI 도구 채용 지원자 CV 심사 출시 전 준비해야 할 문서", "EU AI Act에서 고위험 AI 도구 출시를 위한 필수 문서 서명 담당자(제공자 또는 제3자)", "EU AI Act에서 문서 준비 및 규정 준수 없이 고위험 AI 도구 출시 시 결과" 등 이전 메시지와의 관련성이 높은 구체적인 검색 쿼리가 생성되었습니다.
* 관찰 결과 (메모리 OFF):
* 첫 번째 질문에 대해서는 메모리 ON과 유사한 쿼리가 생성되었으나,
* 이어지는 질문에서는 "고위험 의미 실무적 영향", "출시 전 준비된 문서", "문서 서명 책임자 본인 또는 제3자 승인", "준비 없이 출시할 경우 잠재적 결과 위험"과 같이 이전 대화의 구체적인 맥락(AI 도구, CV 심사, EU AI Act 등)이 누락된 일반적인 키워드 검색 쿼리가 생성되었습니다.
* 주요 분석 및 특징:
* 도메인 고정: 메모리가 활성화되면 후속 쿼리가 동일한 주제에 집중되지만, 메모리가 없으면 맥락이 일반적인 단어로 이동할 수 있습니다.
* 대명사 및 참조 해결: 메모리는 "it", "that document"와 같은 암묵적인 참조를 구체적인 개체로 해결하는 데 도움을 주지만, 메모리가 없으면 후속 질문이 모호해집니다.
* 용어 유지: 메모리는 기술 용어, 역할, 산출물과 같은 특정 도메인 어휘를 유지시켜 검색 일치 가능성을 높이지만, 메모리가 없으면 이러한 용어가 모호한 동의어로 대체되는 경향이 있습니다.
* 쿼리 구체화 및 진화: 메모리를 사용하면 대화가 진행될수록 쿼리가 더 풍부하고 대상이 명확해지지만, 메모리가 없으면 쿼리의 구체성이 떨어집니다.
* 검색 정확도 및 다운스트림 품질: 더 집중된 쿼리는 고품질 검색 결과를 생성하여 환각을 줄이고 최종 답변의 정확성을 향상시킵니다.
* 성능 저하 패턴: 대화 맥락에 의존하는 대화는 기록이 제외될 때 쿼리 유용성이 일관되게 저하되며, 초기 대화에서 멀어질수록 쿼리 신호가 약해집니다.
시사점
정확한 언어나 다중 턴 상호 작용에 의존하는 RAG 시스템은 대화 메모리(또는 컨텍스트 유지)를 통해 실질적인 개선을 얻을 수 있습니다. 후속 질문, 조건부 추론 또는 이전에 소개된 개체에 대한 참조가 필요한 애플리케이션의 경우, 쿼리 생성기가 집중된 검색을 생성할 수 있도록 작고 목표 지향적인 히스토리 창을 포함해야 합니다.
댓글
GitHub Discussions