Function-calling eval was a 2024 problem. Tool-using agents are the 2026 one.

개요

에이전트의 도구 사용 능력 평가는 단순한 도구 선택 정확도를 넘어, 인자 추출, 결과 활용, 오류 복구 등 네 가지 계층으로 분리하여 평가해야 하며, 이는 프로덕션 환경에서의 성공적인 동작을 보장하는 데 필수적이다.

주요 내용

* 기존 평가 방식의 한계: 도구 호출 정확도만 측정하는 방식은 에이전트의 실제 실행 능력을 제대로 평가하지 못하며, 인자 오류, 응답 미확인, 재시도 정책 실패 등 실패 원인을 파악하기 어렵다.
* 네 가지 평가 문제로의 재정의:
* 도구 선택 (Tool Selection): 올바른 도구를 선택하거나 도구를 호출하지 않아야 하는 경우를 정확히 구분하는 것이 중요하다.
* 인자 추출 (Argument Extraction): 스키마 유효성 검사뿐만 아니라, 사용자의 의도를 정확히 반영하는 의미론적으로 올바른 인자를 추출해야 한다.
* 결과 활용 (Result Utilization): 도구에서 반환된 결과를 제대로 이해하고 이를 바탕으로 다음 단계를 수행해야 한다. (예: 숫자 오류, 이전 지식으로 대체, 결과에서 벗어나는 동작)
* 오류 복구 (Error Recovery): 도구 호출 실패 시 (4xx 오류, 타임아웃 등) 적절한 재시도, 대체, 또는 에스컬레이션과 같은 복구 메커니즘이 작동해야 한다.
* 계층별 평가 구축: 각 계층별로 분리된 평가를 통해 문제의 근본 원인을 신속하게 파악할 수 있다. Pydantic을 활용한 스키마 유효성 검사와 LLM 심판을 통한 의미론적 검사를 수행한다.
* 궤적(Trajectory) 수준의 평가: 여러 단계를 거치는 에이전트의 경우, 각 단계의 성공률뿐만 아니라 전체 궤적의 성공률을 종합적으로 평가해야 한다.
* 공개 벤치마크의 한계: BFCL, τ-bench와 같은 공개 벤치마크는 모델의 기본적인 도구 호출 능력을 평가하는 데 유용하지만, 특정 도구 레지스트리, 스키마, 비즈니스 정책에 대한 평가에는 한계가 있다.
* 개인 평가 세트의 중요성: 프로덕션 환경에서 발생하는 실패 사례를 포함하고, 도구, 인자, 오류 코드별로 계층화된 개인 평가 세트가 실제 배포를 결정하는 데 더 중요하다.

시사점

에이전트의 실제 프로덕션 환경에서의 신뢰성을 확보하기 위해서는 단편적인 지표에 의존하기보다, 도구 선택, 인자 추출, 결과 활용, 오류 복구라는 네 가지 핵심 영역을 체계적으로 평가하는 다층적 접근 방식이 필수적이다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions