The Agentic Gap: Claude Oneshots, Gemma Fails
개요
이 실험은 실제 웹사이트 기능 개발 시, Anthropic의 Claude Opus 4.6과 Google의 Gemma 4 27B 모델의 실제 작업 능력 차이를 비교한다. Gemma 4가 벤치마크에서 뛰어난 속도를 보였음에도 불구하고, 복잡한 개발 작업에서는 Opus 4.6이 압도적인 성능을 보여주었다.
주요 내용
* 실험 설정: vibescoder.dev의 기존 코드베이스에 공개 검색 기능을 추가하는 실제 백로그 항목을 대상으로, 동일한 프롬프트와 작업 환경에서 두 모델을 테스트했다.
* Opus 4.6의 수행: 단 한 번의 프롬프트로 8분 만에 종단간(end-to-end) 검색 기능 개발을 완료했다. Cmd+K 검색 다이얼로그, 전체 검색 페이지, 가중치 기반 검색 API, 접근성 및 모바일 지원까지 구현했으며, 기존 디자인 시스템과 잘 통합되었다.
* Gemma 4의 수행: 여러 차례의 프롬프트와 명시적인 지시에도 불구하고, Gemma 4는 계획 수립 단계에 머무르거나 부분적인 코드만 생성하고 작업을 완료하지 못했다. 총 8번의 프롬프트에도 불구하고 커밋된 코드는 없었다.
* AGENTS.md 실험: 명시적인 에이전트 지침을 포함한 AGENTS.md 파일을 추가하여 Gemma 4의 행동을 개선하려 했으나, 모델은 지침을 읽고도 여전히 계획 수립 후 중단하는 패턴을 반복했다.
* 기술적 검토 (Opus): Opus 4.6의 코드는 완벽하지는 않았으나(중복 로직, 타입 캐스팅 오류, Suspense 미적용 등), PR 검토 단계에서 10분 내외로 수정 가능한 수준이었으며, 기능 구현, 아키텍처, UX 측면에서 높은 완성도를 보였다.
* 학습 내용: 벤치마크는 코드 생성 능력을 측정하지만, 실제 기능 개발에 필요한 '에이전시(agency)'는 테스트하지 못한다. Gemma 4는 명확한 사양에 따른 코드 생성은 잘 하지만, 코드베이스를 읽고, 의사 결정하며, 여러 단계를 거쳐 작업을 완료하는 능력은 부족하다. Opus 4.6은 벤치마크 속도는 느릴지라도 실제 프로덕션 환경에서 가치를 창출했다.
* Gemma 4 재실험 예고: Gemma 4가 낮은 성능을 보인 이유로, 과도한 추론 토큰 사용으로 인한 토큰 예산 소진 가능성을 제기하며, llama.cpp를 직접 사용하여 추론 예산 및 VRAM 설정을 최적화한 재실험을 예고했다.
시사점
벤치마크 점수만으로는 실제 개발 환경에서의 AI 모델 성능을 완전히 평가할 수 없으며, 복잡한 기능을 자율적으로 구현하는 에이전트 개발 능력은 현재 클라우드 기반 모델이 로컬 모델보다 앞서고 있다. Gemma 4와 같은 로컬 모델의 에이전시 문제는 모델 자체의 한계일 수도, 혹은 설정 최적화를 통해 개선될 여지가 있을 수도 있다.
댓글
GitHub Discussions