Antigravity 2.0 Tops the OpenSCAD Architectural 3D LLM Benchmark
개요
OpenSCAD 아키텍처 3D LLM 벤치마크에서 Antigravity 2.0이 가장 높은 평가를 받으며, LLM의 공간 기하학적 처리 능력과 OpenSCAD를 활용한 파라메트릭 CAD 코드 생성 가능성을 보여줍니다.
주요 내용
* 벤치마크 목표: 여러 AI 코딩 도구에 동일한 건축 참조 자료를 제공하고 OpenSCAD로 판테온을 생성하도록 하여, 공간 기하학적 이해도를 측정합니다.
* OpenSCAD 선택 이유: OpenSCAD는 단순 텍스트 코드와 명확한 구문으로 LLM의 구조적 추론에 적합하며, 생성된 모델의 검사, 재현, 수정이 용이합니다.
* 벤치마크 결과:
* Cursor (Composer 2.5): 가장 빠른 속도를 보였으나, 가장 낮은 품질의 결과물을 생성했습니다.
* Codex (5.5 High): 높은 디테일을 포함했으나, 최종 STL 내보내기에서 문제가 발생했습니다.
* Claude Code (Opus 4.7): Cursor보다 나은 구조를 가졌으나, Monochromatic 하고 덜 설득력 있는 결과를 보였습니다.
* Claude Code (Sonnet 4.6): 원자율 배치 중 가장 균형 잡힌 형태와 질량을 보여주었으나, 가장 느린 속도를 기록했습니다.
* Google Antigravity 2.0 (Gemini 3.5 Flash High): 가장 높은 완전 자율 생성 결과를 달성했으며, 실제 판테온 치수를 사용하고 내부 천장 패턴을 구현했습니다.
* ModelRift (Gemini Flash 3.0): 인간 개입 워크플로우를 통해 가장 좋은 결과를 얻었으며, 시각적 피드백을 활용하여 모델을 개선했습니다.
* 워크플로우의 중요성: 모델 자체의 성능뿐만 아니라, 코드 편집기 내에서 참조 이미지를 직접 보여주거나, 렌더링 미리보기를 통해 시각적 컨텍스트를 제공하는 클라이언트 워크플로우가 결과에 큰 영향을 미쳤습니다.
* 성능 요인: 속도가 품질을 반드시 보장하지 않으며, 기하학적 판단, 카메라 설정, 최종 메시의 정확성이 중요한 요소로 작용했습니다.
* 미리보기와 내보내기의 차이: 렌더링 미리보기와 최종 STL 메시의 동일성이 보장되지 않을 수 있으며, 출력물 검증 시 최종 메시 검사가 필요합니다.
* 인간 개입의 가치: 완전 자율 생성은 아직 한계가 있으며, ModelRift의 주석 모드와 같이 시각적 피드백을 통한 인간-AI 협업이 복잡한 공간 기하학 작업에서 효율적입니다.
시사점
LLM이 OpenSCAD를 활용하여 건축 모델을 생성하는 데 상당한 진전을 보였으며, 특히 Antigravity 2.0은 자율 생성 작업에서 높은 품질을 달성했으나, 복잡한 공간 기하학 작업에서는 시각적 피드백을 포함하는 인간-AI 협업 워크플로우가 현재로서는 더 정확하고 효과적인 것으로 나타났습니다.
댓글
GitHub Discussions