GPT-5.5 Released: First Fully Retrained Base Model Since GPT-4.5, 1M Context, $5/$30 Pricing

Dev.to 2026년 4월 24일

devaiopenaigptbenchmarks

개요

OpenAI가 2026년 4월 23일 출시한 GPT-5.5는 GPT-4.5 이후 최초로 완전히 재훈련된 기본 모델로, 100만 토큰의 컨텍스트 창을 제공하며 특히 에이전트 워크플로우에서 성능이 향상되었습니다.

주요 내용

- 완전 재훈련된 기본 모델: GPT-5.5는 이전 GPT-5.x 모델들이 기존 기본 모델의 후처리 반복이었던 것과 달리, 아키텍처, 사전 훈련 코퍼스, 에이전트 중심 목표 등이 모두 재검토된 완전히 새로운 기본 모델입니다.
- 에이전트 모델로서의 포지셔닝: GPT-5.5는 "일련의 행동을 취하고, 도구를 사용하며, 자체 작업을 확인하고, 작업이 완료될 때까지 계속 진행"하는 에이전트 모델로 명시적으로 포지셔닝되었습니다.
- 두 가지 변형 제공:
* GPT-5.5 Thinking (openai/gpt-5.5): ChatGPT 및 Codex의 기본 모델로 사용되며, 100만 토큰의 컨텍스트 창(Codex는 400K)을 가지며, 입력 100만 토큰당 $5, 출력 100만 토큰당 $30의 가격입니다.
* GPT-5.5 Pro (openai/gpt-5.5-pro): 높은 정확도와 지연 시간을 특징으로 하는 변형으로, 입력 100만 토큰당 $30, 출력 100만 토큰당 $180의 가격입니다.
- 벤치마크 성능:
* 강점: Terminal-Bench 2.0 (82.7%), GDPval (84.9%), OSWorld-Verified (78.7%), Toolathalon (55.6%), FrontierMath T4 (Pro 변형, 39.6%), CyberGym (81.8%) 등 에이전트 및 계획/실행 관련 벤치마크에서 GPT-5.4 및 경쟁 모델 대비 우위를 보입니다. Artificial Analysis Intelligence Index에서는 60점으로 최고 점수를 기록했습니다.
* 약점: SWE-Bench Pro (58.6% vs Opus 4.7의 64.3%), MCP-Atlas (75.3% vs Opus 4.7의 77.3%), Multilingual Q&A (83.2% vs Opus 4.7의 91.5%) 등 코드베이스 해결, 다국어 이해 관련 벤치마크에서는 Opus 4.7이 더 나은 성능을 보입니다.
- 환각(Hallucination) 문제: AA-Omniscience 벤치마크에서 GPT-5.5는 57%의 최고 정확도를 기록했지만, 86%의 가장 높은 환각률도 함께 나타났습니다. 이는 모델이 틀렸을 때 자신감 있게 잘못된 정보를 생성할 가능성이 있음을 시사합니다.
- 가격 인상: GPT-5.5는 GPT-5.4 대비 토큰당 가격이 2배 인상되었습니다 ($5/$30). OpenAI는 토큰 효율성 개선(약 40% 토큰 감소)으로 실제 운영 비용은 약 20% 증가하는 효과가 있다고 설명합니다. 그럼에도 Opus 4.7 대비 동등한 지능에서 더 저렴한 비용으로 추정됩니다.
- 100만 토큰 컨텍스트 창: API 개발자는 응답 및 채팅 완료에서 100만 토큰을 사용할 수 있으며, Codex 사용자는 400K로 제한됩니다. 100만 토큰 컨텍스트 창은 비용이 많이 들기 때문에 실제 필요한 작업에 사용해야 합니다.
- 커뮤니티 반응: 개발자들은 GPT-5.5의 성능 향상, 특히 에이전트 워크플로우에서의 개선을 인정하지만, 가격 인상과 특정 벤치마크에서의 경쟁 모델 대비 성능 등을 고려할 때 무조건적인 전환보다는 신중한 평가가 필요하다는 반응입니다.

시사점

GPT-5.5는 에이전트 기능과 긴 컨텍스트 처리에 있어 상당한 발전이 있었으나, 특정 작업에서는 여전히 경쟁 모델이 더 적합할 수 있으며, 높아진 가격과 환각률에 대한 고려가 필요하므로 실제 적용 시에는 충분한 테스트가 권장됩니다.

원문 읽기 →

원문을 불러오는 중...

GitHub Discussions

개요

주요 내용

시사점

댓글

관련 기사