I Dropped Multi-Agent Coordination for a 5-Layer Falsification Battery

개요

Swarm Orchestrator는 실험적으로 다중 에이전트 병렬 조정 계층을 제거하고, 5단계 검증 배터리에 모든 검증 부담을 집중시킨다. 이는 조정 자체의 가치인지, 또는 조정이 생성하는 검증 압력의 가치인지를 측정하기 위한 실험이며, 비용 절감 효과도 기대된다.

주요 내용

* 검증 배터리 구조:
* 5단계로 구성되며, 각 패치는 이 배터리를 통과해야 성공으로 간주된다.
* 1단계와 2단계는 하드 게이트(Hard Gate)로, 통과하지 못하면 즉시 실패 처리된다.
* 3, 4, 5단계는 자문(Advisory)으로, 결과가 전체 점수에 영향을 미친다.
* 하드 게이트 실패 시, 어테스테이션(Attestation)이나 최종 성공 신호 전에 실패가 발생한다.
* 단계별 검증 내용:
* 1단계: Differential Gate (Hard): 변경 사항에 대한 회귀 테스트를 생성하고, 기본 커밋에서는 실패하고 패치 커밋에서는 통과하는지 확인한다.
* 2단계: Mutation Gate (Hard): 변경된 파일에 대해 St Ryder(JS/TS), mutmut(Python), PITest(Java)와 같은 변이 도구를 실행하여 테스트 커버리지를 확인한다. 변이 점수가 일정 기준 미만이면 실패 처리된다.
* 3단계: Cheat Detector (Advisory): 에이전트가 자주 사용하는 단축키 패턴(예: 테스트 수정, 복잡성 불일치, Mock 사용)을 정적 분석으로 감지한다.
* 4단계: Property Gate (Advisory): 수정된 함수의 매개변수 타입을 파악하여 적절한 임의 테스트 전략을 생성하고 실행하여 반례를 찾는다.
* 5단계: Attestation (Advisory on First Run): Git 노트의 in-toto SLSA v1.0 봉투를 검증하고 cosign 서명을 확인하여 패치의 무결성을 보증한다. 첫 실행 시에는 검증 후 Git 노트에 기록한다.
* 실행 위치: 실제 프로덕션 오케스트레이터, CI 환경의 합성 캘리브레이션 코퍼스, SWE-bench 하네스에서 실행된다.
* 평가 방식: 하드 게이트 통과 후, 자문 계층의 결과에 가중치를 부여하여 종합 점수를 계산한다. 자문 게이트 실패 시 일정 페널티가 부과된다. 종합 점수가 낮거나 자문 계층에 경고가 있을 경우 인간 검토가 필요하게 된다.
* 실험 목적: 다중 에이전트 조정의 가치가 조정 자체인지, 아니면 검증 압력인지 명확히 하고, 이를 기반으로 v8 멀티 에이전트 개발 방향을 결정하기 위함이다.

시사점

이 실험은 복잡한 다중 에이전트 시스템에서 검증 압력이 에이전트 조정 자체만큼이나 중요한 가치임을 시사할 수 있으며, 향후 시스템 설계에 있어 검증 계층의 중요성을 강조한다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions