Putting the GPU to Work: Running Local LLMs on a Home Lab
개요
RTX 5090 GPU를 활용하여 로컬 환경에서 LLM을 구동하고 이를 Coder Agents에 통합하는 방법을 설명합니다.
주요 내용
* VRAM의 중요성: 로컬 LLM 성능에 가장 중요한 요소는 CPU 코어, 시스템 RAM, 디스크 속도가 아닌 VRAM 용량입니다. VRAM 용량에 따라 실행 가능한 모델의 크기와 유용성이 결정됩니다.
* 8-12GB VRAM: 7B 모델 (Qwen3:8b, DeepSeek-Coder 6.7B)
* 16GB VRAM: 14B-20B 모델 (DeepSeek R1 14B, Codestral 25.12)
* 24-32GB VRAM: 27B-35B 모델 (agentic coding에 최적)
* 32GB+ VRAM / 통합: 70B 양자화 모델, Qwen3-Coder-Next
* Ollama 설치 및 설정: bash 스크립트를 사용하여 하드웨어 검증, Ollama 설치, 서비스 구성(모델 유지 시간 설정), 모델 다운로드, 검증 단계를 자동화합니다. KEEP_ALIVE 설정을 통해 모델을 VRAM에 더 오래 유지하여 콜드 스타트를 줄일 수 있습니다.
* 모델 선택 및 역할: 각 코딩 작업에 맞는 특정 모델을 선택합니다.
* Primary: qwen3.5:35b-a3b (all-rounder, MoE 아키텍처로 속도와 품질 균형)
* Coding: devstral (multi-file edit, terminal automation, code repair에 특화)
* Reasoning: deepseek-r1:14b (chain-of-thought 추론, 버그 발견에 유용)
* Autocomplete: codestral:22b (IDE 탭 완성에 최적화된 빠른 모델)
* Embeddings: nomic-embed-text (코드베이스 검색 및 RAG를 위한 경량 모델)
* Dev Tools 통합: Ollama는 OpenAI API 형식으로 통신하는 모든 도구와 통합될 수 있습니다. Coder Agents 대시보드에서 OpenAI 호환 제공업체로 Ollama를 설정하여 로컬 모델을 클라우드 제공업체와 함께 사용할 수 있습니다.
* Coder Agents 연동: Coder Agents의 Admin > Providers에서 'OpenAI Compatible'을 선택하고 Ollama의 로컬 API 엔드포인트(http://127.0.0.1:11434/v1)와 API 키(placeholder)를 설정합니다. 이후 Models 탭에서 사용하고자 하는 로컬 모델들을 추가합니다.
* 실행 결과 및 장단점: 로컬 모델은 Coder Agents 내에서 파일 읽기, 쉘 명령어 실행, 코드 편집 등 실제 에이전트 작업을 성공적으로 수행합니다. 클라우드 제공업체 대비 약간의 지연 시간이 있지만, API 비용 절감, 데이터 프라이버시, 무제한 사용 등의 장점이 있습니다.
* Ollama vs vLLM: 단일 개발자 워크스테이션 환경에서는 Ollama의 간편함과 효율성이 뛰어나지만, 여러 사용자가 동시 접근하는 환경에서는 vLLM이 더 높은 처리량을 제공합니다.
시사점
로컬 GPU의 VRAM을 최대한 활용하여 Ollama를 통해 다양한 LLM을 구동하고 개발 도구와 통합함으로써, 비용 효율적이고 프라이버시가 보장되는 자체 AI 개발 환경을 구축할 수 있습니다.
댓글
GitHub Discussions