Hierarchical skill KB improves performance of weaker models
개요
SkillX는 언어 모델 에이전트의 성능 향상을 위해 재사용 가능한 계층적 행동을 추출하고 구조화된 지식 베이스(Knowledge Base, KB)로 구축하는 방법론입니다.
주요 내용
- 기존 에이전트의 한계: 현재 언어 모델 에이전트들은 각 인스턴스가 독립적인 학습 에피소드를 탐색하며 동일한 하위 작업을 반복적으로 재발견하는 비효율적인 패러다임을 따릅니다. 이는 탐색 예산을 증가시키고 장기 과제 수행에 어려움을 초래합니다.
- SkillX의 접근 방식: SkillX는 집합적인 궤적(trajectory) 풀에서 재사용 가능하고 계층적인 행동을 추출하는 자동화된 파이프라인을 통해 기존 방식의 한계를 극복합니다.
- 계층적 지식 베이스 (SkillKB): SkillX는 실행 흔적을 전략 계획(strategic plans), 기능 스킬(functional skills), 원자적 스킬(atomic skills)의 세 가지 계층으로 이루어진 지식 베이스로 증류합니다.
- 반복적 정제 및 확장: 구축된 SkillKB는 실행 피드백을 기반으로 각 항목을 반복적으로 정제하고, 탐색적 생성을 통해 적용 범위를 확장합니다.
- 성능 향상: Qwen3-32B와 같은 기본 모델에 SkillKB를 적용한 결과, 여러 벤치마크에서 약 10점의 성능 향상이 관찰되었습니다. 또한, 중복 단계와 컨텍스트 길이를 줄여 추론을 간소화하는 효과를 보입니다.
- 계층 구조의 중요성: 평가에 따르면, 구조화된 계층 자체가 성능 향상을 이끄는 주요 요인입니다.
- 평가 제한점 및 향후 연구 과제: 평가는 소수의 장기, 사용자 상호작용 기반 스위트(AppWorld, BFCL-v3, τ²-Bench)에 국한되었으며, 초기 스킬 추출을 위해 강력한 백본(GLM-4.6)을 가정했습니다. 희소한 데모나 외부 메모리 모듈을 통합한 에이전트 도메인으로의 확장성, 이기종 로그 대신 단일 고용량 교사로부터 생성된 스킬 라이브러리의 성능, 그리고 계층 구조가 개인 워크로드에서도 재현 가능한지에 대한 연구가 필요합니다.
시사점
SkillX 접근 방식은 작은 모델이 더 큰 모델의 전문성을 계승할 수 있게 하여, 개인 워크로드에 맞는 계층을 구축하고 추론 시 경량 검색 레이어를 추가함으로써 엣지 하드웨어에서도 경쟁력 있는 성능을 제공할 가능성을 시사합니다.
원문을 불러오는 중...
댓글
GitHub Discussions