LLM Foundry: the boring stack that makes an LLM actually useful

개요

LLM Foundry는 LLM 자체보다는 LLM을 실제 업무에 유용하게 만드는 워크샵 역할을 하는 레이어로, 메모리 시스템, 의미론적 검색, 도구 사용, 테스트, 장애 복구 계획 등 LLM을 실질적으로 활용 가능하게 하는 요소들을 통합합니다.

주요 내용

  • LLM Foundry의 최신 버전은 키워드 매칭을 넘어선 임베딩 기반의 의미론적 검색을 통한 메모리 검색 기능을 제공합니다.
  • OpenAI 호환 엔드포인트, Anthropic, Hugging Face 등을 지원하는 다중 공급자 지원 및 장애 조치 기능을 갖추고 있습니다.
  • 압축과 메모리를 결합하여 긴 작업도 컴팩트한 작업 컨텍스트로 축소할 수 있습니다.
  • 에이전트 추적(agent traces)을 학습 데이터로 내보낼 수 있는 기능을 제공합니다.
  • 시스템의 테스트 가능성을 위해 벤치마크 및 하네스 실행 기능을 포함합니다.
  • 유용한 모델 스택은 일반적으로 작업 읽기, 관련 메모리 복구, 불필요한 내용 압축, 모델 질문, 답변 확인, 필요한 경우 도구 사용, 추적 저장, 결과 벤치마킹 등의 과정을 거칩니다.
  • 오케스트레이션은 기반 모델의 근본적인 능력을 마법처럼 향상시키지는 못하지만, 모델의 동작, 신뢰성, 회상 능력, 워크플로우 품질을 개선할 수 있습니다.
  • 오케스트레이션은 모델이 덜 관련성 없는 텍스트를 보게 하고, 더 자주 올바른 컨텍스트를 검색하며, 추측 대신 도구를 호출하고, 검사 및 점수 매기기가 가능하도록 하여 모델을 훨씬 더 유용하게 만듭니다.
  • 의미론적 검색은 작업 문구가 바뀌어도 의미가 동일할 때 관련 컨텍스트를 놓치지 않도록 하여, 요청 방식이 달라도 유용한 정보를 놓치기 어렵게 만듭니다.
  • LLM Foundry의 목표는 로컬 또는 원격 모델, OpenAI 호환 또는 Anthropic 백엔드, 압축 및 재사용 가능한 메모리, 학습 데이터가 될 수 있는 추적, 개선 여부를 알 수 있는 벤치마크 등 실용적인 운영 계층을 구축하는 것입니다.
  • 벤치마크 결과(체크 결과 50%, 추론 하네스 60%, 코딩 하네스 100%, 도구 사용 하네스 100%, 메모리 하네스 100%)는 시스템이 측정 가능하고 개선될 수 있음을 보여줍니다.

시사점

LLM Foundry는 LLM을 단순히 시연용이 아닌 실제 장기 작업, 연구 및 제품 워크플로우에 신뢰할 수 있고 유용하게 만들 수 있는 인프라를 제공하며, 이를 통해 AI 프로젝트의 실질적인 활용도를 높일 수 있습니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions