Show HN: OSS Agent I built topped the TerminalBench on Gemini-3-flash-preview
개요
Dirac은 Gemini-3-flash-preview 모델을 사용하여 Terminal-Bench-2 리더보드에서 65.2%의 점수로 1위를 차지한 오픈소스 AI 코딩 에이전트입니다.
주요 내용
- Dirac은 컨텍스트 길이에 따른 모델의 추론 능력 저하 현상을 인지하고, 컨텍스트를 효율적으로 관리하여 정확성 및 비용을 개선하고 대규모 변경 사항을 단일 작업 내에서 처리 가능하도록 설계되었습니다.
- 해시 기반 병렬 편집, AST(추상 구문 트리) 조작 및 고급 최적화를 통해 API 비용을 평균 64.8% 절감하면서 더 나은 성능과 속도를 제공합니다.
- 복잡하고 실제적인 코드 리팩토링 작업에 대한 평가에서 Dirac은 경쟁사의 비용 대비 훨씬 높은 정확도를 일관되게 달성했습니다.
- Gemini-3-flash-preview 모델 사용 시, Dirac은 Google의 공식 베이스라인(47.6%) 및 최고 성능의 클로즈드 소스 에이전트인 Junie CLI(64.3%)를 능가하는 점수를 기록했습니다.
- Dirac은 Gemini-3-flash-preview 모델에 대해 65.2%의 점수로 Terminal-Bench-2 리더보드 상위권을 차지했으며, 이는 벤치마크별 정보나 AGENTS.md 파일 없이 달성되었습니다.
- Hash-Anchored Edits 기능은 안정적인 라인 해시를 사용하여 기존 라인 번호 기반 편집의 "번역 오류" 문제를 방지합니다.
- AST-Native Precision은 TypeScript, Python, C++ 등 언어 구문에 대한 이해를 바탕으로 함수 추출 또는 클래스 리팩토링과 같은 구조적 조작을 100% 정확도로 수행합니다.
- Multi-File Batching은 여러 파일을 단일 LLM 라운드트립으로 처리하여 지연 시간과 API 비용을 줄입니다.
- High-Bandwidth Context는 최적화된 컨텍스트 큐레이션을 통해 토큰 낭비를 최소화하고 에이전트를 빠르고 효율적으로 유지합니다.
- Autonomous Tool Use 기능을 통해 파일을 읽고 쓸 수 있으며, 터미널 명령어를 실행하고 헤드리스 브라우저를 사용하는 등 통제 가능한 워크플로우를 제공합니다.
- AGENTS.md 파일을 사용하여 프로젝트별 지침으로 Dirac의 동작을 사용자 정의할 수 있으며,
.ai,.claude,.agents디렉토리에서 Claude의 스킬을 자동으로 읽어옵니다. - Dirac은 네이티브 툴 호출 기능을 지원하는 모델만 사용하며, MCP는 지원하지 않습니다.
- VS Code 확장 프로그램 또는 npm을 통한 CLI 설치가 가능하며, CLI는 인증, 첫 작업 실행, 환경 변수 설정을 통한 API 키 제공 등의 기능을 지원합니다.
시사점
Dirac은 오픈소스 코딩 에이전트로서 성능, 비용 효율성, 정확성 측면에서 기존 솔루션을 능가하며, 개발 생산성을 크게 향상시킬 잠재력을 보여줍니다.
원문을 불러오는 중...
댓글
GitHub Discussions