Show HN: Forge – Guardrails take an 8B model from 53% to 99% on agentic tasks

개요

Forge는 자체 호스팅 LLM의 도구 호출 신뢰성을 향상시키는 레이어로, 가드레일(구조 복구, 재시도 안내, 단계 강제) 및 컨텍스트 관리(VRAM 기반 예산, 계층적 압축)를 통해 8B 모델의 성능을 다단계 에이전트 워크플로우에서 53%에서 99%로 향상시킵니다.

주요 내용

  • Forge의 핵심 기능:
  • 가드레일(Guardrails): 잘못된 형식의 도구 호출을 복구하고, 재시도를 안내하며, 필수 단계를 강제하여 LLM의 응답 신뢰성을 높입니다.
  • 컨텍스트 관리(Context Management): VRAM 기반 예산을 활용하고 계층적 압축을 통해 컨텍스트 정보를 효율적으로 관리하여 LLM의 메모리 사용을 최적화합니다.
  • 다양한 사용 방식:
  • WorkflowRunner: 도구를 정의하고 백엔드를 선택하여 구조화된 에이전트 루프를 실행하며, 시스템 프롬프트, 도구 실행, 컨텍스트 압축, 가드레일 등의 전체 생명주기를 관리합니다.
  • SlotWorker: 우선순위 큐 방식으로 공유 추론 슬롯에 접근할 수 있게 하며, 전문 워크플로우가 GPU 슬롯을 공유하는 멀티 에이전트 아키텍처에 적합합니다.
  • Guardrails 미들웨어: 자체 오케스트레이션 루프 내에서 Forge의 신뢰성 스택을 컴포저블 미들웨어로 활용할 수 있습니다.
  • 프록시 서버: OpenAI 호환 프록시로, 클라이언트와 로컬 모델 서버 사이에 배치되어 가드레일을 투명하게 적용하며, Ollama, llama-server, Llamafile, Anthropic 등 다양한 백엔드를 지원합니다.
  • 성능 및 평가: Forge를 사용하면 Ministral-3 8B Instruct Q8 모델이 llama-server 백엔드에서 26개 시나리오 평가에서 86.5%의 점수를 기록하며, 가장 어려운 티어에서는 76%의 성능을 보입니다.
  • 백엔드 지원: Ollama(쉬운 설정), llama-server(최고 성능), Llamafile(제로 의존성), Anthropic(API 기반) 등 다양한 LLM 백엔드를 지원합니다.
  • 평가 도구(Eval Harness): 26개 시나리오를 통해 모델과 백엔드 조합의 다단계 도구 호출 워크플로우 탐색 신뢰성을 측정합니다.

시사점

Forge는 자체 호스팅 LLM 환경에서 에이전트 작업의 신뢰성과 성능을 크게 향상시켜, 더 복잡하고 안정적인 AI 애플리케이션 개발을 가능하게 합니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions