LLMCap – A proxy that hard-stops LLM API calls when you hit a dollar cap

개요

LLMCap은 LLM API 호출 시 발생하는 비용을 미리 설정한 달러 금액으로 엄격하게 제한하여 예기치 않은 요금 발생을 방지하는 프록시 서비스이다.

주요 내용

  • 핵심 기능: LLM API 호출 시 설정된 달러 금액 상한선에 도달하면 더 이상 API 호출을 허용하지 않고 즉시 차단한다. 이는 알림 기능이 아닌 강제 중단 방식이다.
  • 지원 Provider: Anthropic, OpenAI, Google Gemini, Mistral, Cohere 등 주요 LLM Provider를 지원한다.
  • 설치 및 연동: 코드 변경은 단 한 줄로 간편하며, 3분 안에 설정이 가능하다.
  • 작동 방식: 사용자의 애플리케이션에서 LLM Provider로 요청이 전달되기 전 LLMCap 프록시를 거치며, 설정된 예산이 소진되면 HTTP 429 응답을 반환하여 Provider까지 요청이 도달하지 않도록 한다.
  • 스트리밍 지원: 스트리밍 응답도 지원하며, 예산 초과 시 실시간으로 연결을 종료하고 429 이벤트를 전송한다. 예산을 초과하게 만든 토큰은 요금이 부과되지 않는다.
  • 도구 및 통합:
  • VS Code Extension: VS Code 내에서 실시간 비용 현황, 사용량, 차단된 요청 수를 확인할 수 있다.
  • PyPI (CLI): macOS, Linux, Windows에서 명령줄 인터페이스를 통해 비용 확인, 로그 열람, 키 관리 등을 수행할 수 있다.
  • Desktop (Windows Tray App): 시스템 트레이 아이콘으로 실시간 사용량을 표시하며, 우클릭을 통해 통계 및 빠른 작업을 수행할 수 있다.
  • 가격 정책: 3일 무료 체험 후 월 $19부터 시작하는 Starter 플랜을 제공하며, API 키 2개, 모든 Provider 지원, 일별/월별 예산 설정, 30일 감사 로그, 1명 사용자, 이메일 지원 등이 포함된다.
  • 보안: Provider API 키는 LLMCap이 보거나 저장하지 않으며, 요청 시 헤더를 통해 전달된 후 즉시 폐기된다. LLMCap은 자체 해시된 프록시 키만 저장한다.
  • 자가 호스팅: 프록시 자체는 FastAPI와 Redis를 사용하여 오픈 소스로 개발되었으며, 향후 자가 호스팅 기능이 로드맵에 포함되어 있다.

시사점

LLMCap은 LLM API 사용 비용을 예측 가능하게 관리하고 예산 초과로 인한 재정적 부담을 근본적으로 차단함으로써, 개발자가 LLM 기술을 실험하고 프로덕션 환경에 배포하는 데 있어 비용 리스크를 효과적으로 관리할 수 있도록 지원한다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions