Playwright MCP burns 114k tokens for one workflow. Here's why, and what to do about it.
개요
Playwright MCP 워크플로우에서 발생하는 높은 토큰 사용량은 LLM을 런타임에 실행하는 구조적 특성에서 비롯되며, 이는 컴파일 타임 방식에 비해 토큰 비용이 발생하는 원인입니다.
주요 내용
- Playwright MCP 워크플로우는 현재 페이지의 접근성 트리, base64 인코딩된 스크린샷, 콘솔 출력, 액션 결과 및 오류 컨텍스트 등 LLM이 다음 액션을 결정하는 데 필요한 정보를 매 호출마다 모델에 전송합니다.
- 7단계 내비게이션 및 폼 제출 워크플로우에서 약 114,000 토큰이 사용되었으며, 이는 각 단계별로 페이지 복잡도에 비례하는 토큰 비용과 세션 시작 시 스키마 주입 비용이 합산된 결과입니다.
- 탭 포지(tap forge)와 같은 컴파일러 기반 접근 방식은 대부분의 브라우저 자동화가 반복적인 워크플로우라는 점에 착안하여, 최초 실행 시 LLM이 프로그램을 작성하고 이후에는 컴파일된 코드를 사용하여 토큰 소모 없이 빠르게 실행합니다.
- Playwright MCP는 워크플로우가 매번 고유하거나, 사이트 구조가 자주 변경되거나, 프로토타이핑 단계일 때 유리합니다.
- 컴파일된 탭은 동일한 워크플로우를 약 5회 이상 실행하거나, 모니터링 및 오프라인 실행이 필요할 때 더 효율적입니다.
- 컴파일 기반 도구는 100K 토큰을 사용하는 Playwright MCP 실행 한 번의 비용($0.50)으로 한 달간 무제한 사용이 가능할 정도로 낮은 손익분기점을 가집니다.
- 컴파일 기반 접근 방식은 LLM의 비결정성으로 인한 출력 불일치 문제를 해결하며, 핑거프린트 차이점 비교를 통해 사전에 구조 변경을 감지하여 실패를 proactively 탐지합니다.
- Playwright MCP는 유연성이 높은 브라우저 에이전트 설정이지만, 런타임 LLM 실행에는 비용이 발생하며, 워크플로우의 반복성에 따라 컴파일 타임 방식이 더 경제적일 수 있습니다.
시사점
브라우저 에이전트 도구 선택 시 LLM을 런타임에 실행할 것인지, 아니면 초기 학습 후 컴파일된 코드를 사용할 것인지에 대한 트레이드오프를 고려해야 하며, 대부분의 프로덕션 스크래퍼의 경우 워크로드가 반복적이므로 컴파일 타임 방식이 유리할 수 있습니다.
원문을 불러오는 중...
댓글
GitHub Discussions