Measuring Claude 4.7's tokenizer costs

개요

Anthropic의 Claude Opus 4.7 모델은 이전 버전인 4.6에 비해 토큰 수가 약 1.0~1.35배 증가했으며, 실제 기술 문서 및 코드 파일에서는 1.45배까지 증가하는 것으로 측정되었습니다.

주요 내용

  • 토큰 사용량 증가 측정: count_tokens API를 사용하여 실제 Claude Code 사용자 콘텐츠(CLAUDE.md, 사용자 프롬프트, 블로그 발췌, git 로그, 터미널 출력, 스택 트레이스, 코드 diff) 및 다양한 합성 콘텐츠(영어 구문, 코드, 구조화된 데이터, CJK, 이모지, 수학 기호)에 대해 Claude Opus 4.6과 4.7의 토큰 사용량을 비교했습니다.
  • 실제 콘텐츠에서의 토큰 비율:
  • CLAUDE.md (실제 파일): 1.445x
  • 사용자 프롬프트: 1.373x
  • 블로그 발췌: 1.368x
  • git 커밋 로그: 1.344x
  • 터미널 출력: 1.291x
  • Python 스택 트레이스: 1.250x
  • 코드 diff: 1.212x
  • 7개 샘플에 대한 가중 평균 비율: 1.325x
  • 콘텐츠 유형별 토큰 비율:
  • 기술 문서 (영어): 1.47x
  • 쉘 스크립트: 1.39x
  • TypeScript 코드: 1.36x
  • 스페인어 구문: 1.35x
  • 코드 블록 포함 Markdown: 1.34x
  • Python 코드: 1.29x
  • 영어 구문: 1.20x
  • CJK (중국어, 일본어, 한국어) 및 이모지, 기호 콘텐츠는 1.005–1.07x로 상대적으로 적게 증가했습니다.
  • 토크나이저 변경점 추정: 영어 및 코드 콘텐츠에서 토큰 수가 더 많이 증가한 것은 4.7 버전이 공통적인 영어 및 코드 패턴에 대해 더 짧거나 적은 부분 단어 병합을 사용하기 때문으로 추정됩니다. 코드 콘텐츠가 고유한 구문보다 더 큰 영향을 받았습니다.
  • 성능 개선 가능성: Anthropic은 토크나이저 변경의 이유로 "더 직접적인 지시 이행, 특히 낮은 노력 수준에서"를 제시했습니다. IFEval 벤치마크를 사용한 테스트에서 Claude Opus 4.7은 4.6에 비해 엄격한 지시 이행에서 85% → 90% (+5pp)의 미미하지만 일관된 개선을 보였습니다.
  • 비용 영향:
  • 동일한 세션에서 더 많은 토큰이 사용되므로 실제 세션당 비용이 약 20~30% 증가합니다.
  • Max 플랜 사용자는 달러 비용보다는 토큰 제한에 더 빨리 도달하게 됩니다.
  • 모델 ID 변경 시 프롬프트 캐시가 무효화되며, 4.7 버전의 더 큰 토큰 사용량으로 인해 콜드 스타트 비용이 더 비쌉니다.
  • 캐시 상호작용: 토큰 증가율은 캐시 쓰기 및 읽기 비용 모두에 영향을 미치며, 특히 캐시에서 벗어나는(cache-bust) 이벤트나 TTL 만료 후 첫 세션의 비용 증가를 야기합니다.

시사점

Claude Opus 4.7의 토큰 사용량 증가는 영어 및 코드 콘텐츠에서 약 1.3~1.45배였으며, 이는 엄격한 지시 이행 능력에서 약 5%p의 소폭 개선을 가져왔습니다. 하지만 이는 세션당 비용을 20~30% 증가시키므로, 사용자는 이러한 변경 사항을 고려하여 비용 및 사용량 계획을 조정해야 합니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions