I built a Rust entropy monitor to route LLM inference — here's what the benchmark showed
개요
로컬 LLM 추론의 비용을 절감하고 클라우드 API의 가치를 극대화하기 위해 Rust 엔트로피 모니터를 활용한 계층적 추론 아키텍처인 Buddy System이 개발되었다.
주요 내용
* Buddy System 아키텍처: 로컬에서 Gemma 3 4B 모델이 추론을 생성하며, Rust EntropyMonitor가 토큰 생성 시마다 전체 어휘에 대한 Shannon entropy를 계산한다.
* 불확실성 감지 및 라우팅: 엔트로피 임계값(0.8) 초과 시, spaCy NER이 모델이 불확실해하는 특정 개체명이나 명사구를 식별한다.
* 클라우드 연동: Sentence-transformers retriever가 관련 문단 청크를 찾아 Sonnet 모델에 전달하며, Sonnet은 불확실한 사실과 해당 문서(grounding document)를 바탕으로 질의한다.
* 비동기 API 호출: 모든 클라우드 호출은 로컬 생성 완료 후 비동기적으로 이루어져 추론이 API 호출로 인해 차단되지 않는다.
* 클래식 도구 활용: 수학, 날짜, 단위와 같은 결정론적 답변은 저비용으로 처리하기 위해 로컬 및 클라우드 계층 사이에 배치된다.
* 벤치마크 결과: 7개 HuggingFace 데이터셋, 총 140개 샘플에 대한 3가지 조건(로컬 전용, Buddy System, Advisor 패턴) 비교 결과, Buddy System은 로컬 전용 대비 정확도 70.7%와 비용 $0.00에서 71.4%와 $0.21로 소폭 향상되었다.
* Advisor 패턴의 한계: Haiku → Opus 순차적 검토 패턴은 SQuAD v2와 HotpotQA에서 로컬 전용 대비 정확도가 하락했는데, 이는 검토 모델이 원본 문서를 받지 못하고 파라미터 메모리에 의존하기 때문인 것으로 분석되었다. Buddy System은 검색 단계를 통해 원본 문서를 검토 계층에 전달함으로써 이 문제를 해결한다.
시사점
Buddy System은 로컬 LLM의 한계를 보완하고 클라우드 API를 효율적으로 활용하여 정확도를 유지하면서도 비용을 절감할 수 있는 실용적인 아키텍처를 제시하며, 특히 검토 모델에 적절한 컨텍스트를 제공하는 것의 중요성을 강조한다.
댓글
GitHub Discussions