Show HN: Find the best local LLM for your hardware, ranked by benchmarks

개요

whichllm은 사용자의 하드웨어 사양(GPU, CPU, RAM)을 자동으로 감지하여, 해당 시스템에 최적으로 실행될 수 있는 HuggingFace의 LLM 모델을 벤치마크 기준으로 순위 매겨 추천하는 도구입니다.

주요 내용

  • 하드웨어 자동 감지 및 모델 추천: NVIDIA, AMD, Apple Silicon GPU 및 CPU 환경을 감지하고, 시스템의 VRAM, RAM, CPU 코어 수 등을 고려하여 HuggingFace에서 최적의 LLM을 찾아냅니다.
  • 실제 벤치마크 기반 순위: 단순한 모델 크기나 "설치 가능 여부"를 넘어, LiveBench, Artificial Analysis, Aider, Chatbot Arena ELO, Open LLM Leaderboard 등 실제 벤치마크 점수를 통합하여 모델의 성능을 객관적으로 평가하고 순위를 매깁니다.
  • 최신성 및 증거 기반 평가: 최신 벤치마크 데이터를 활용하며, 각 점수는 직접 측정, 변형, 기본 모델, 보간, 자체 보고 등 출처와 신뢰도에 따라 가중치가 부여되고 조정됩니다.
  • 하드웨어별 모델 추천 예시: RTX 5090 (32GB VRAM)에는 Qwen3.6-27B (Q6_K), RTX 4090/3090 (24GB VRAM)에는 Qwen3.6-27B (Q5_K_M), RTX 4060 (8GB VRAM)에는 Qwen3-14B (Q3_K_M), Apple M3 Max (36GB VRAM)에는 Qwen3.6-27B (Q5_K_M), CPU 전용 환경에는 gpt-oss-20b (MoE)를 추천합니다.
  • 단일 명령어로 실행 및 코드 스니펫 제공: whichllm run <model_name> 명령어로 모델을 다운로드하고 바로 채팅 세션을 시작할 수 있으며, whichllm snippet <model_name> 명령어로 해당 모델을 실행하는 Python 코드 스니펫을 생성해 줍니다.
  • 다양한 필터링 및 시뮬레이션 기능: --gpu 옵션으로 특정 GPU 환경을 시뮬레이션하여 구매 전 테스트하거나, --top, --quant, --min-speed, --evidence, --direct 등의 옵션으로 결과 필터링이 가능합니다.
  • Ollama 및 쉘 스크립트 통합: Ollama와 연동하여 최적의 모델을 바로 실행하거나, 쉘 별칭 설정을 통해 명령어 단축이 가능합니다.

시사점

whichllm은 LLM 모델의 성능을 하드웨어 적합성뿐만 아니라 실제 벤치마크 결과에 기반하여 평가함으로써, 사용자가 자신의 시스템에서 최고의 경험을 얻을 수 있도록 돕는 실용적인 도구입니다. 이를 통해 복잡한 LLM 선택 과정을 단순화하고, 사용자에게 투명하고 신뢰할 수 있는 정보를 제공합니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions