This startup’s new mechanistic interpretability tool lets you debug LLMs

MIT Technology Review 2026년 4월 30일

techartificial intelligenceapp

개요

Goodfire는 LLM 내부 작동 방식을 과학적으로 이해하고 디버깅할 수 있도록 돕는 mechanistic interpretability 도구인 Silico를 출시했습니다.

주요 내용

Mechanistic Interpretability의 중요성: ChatGPT, Gemini와 같은 LLM은 뛰어난 성능을 보이지만, 그 작동 원리가 명확히 알려져 있지 않아 오류 수정이나 원치 않는 동작 방지에 어려움이 있습니다. Mechanistic interpretability는 AI 모델 내부의 뉴런과 연결 경로를 매핑하여 작동 방식을 이해하려는 기술입니다.
Goodfire의 Silico 도구: Silico는 기존 내부에서 사용하던 mechanistic interpretability 기법들을 통합하여 제품화한 것으로, 에이전트를 활용하여 복잡한 해석 작업을 자동화합니다. 이를 통해 인간 연구원이 수행하던 해석 작업의 상당 부분을 자동화하여 플랫폼 사용성을 높였습니다.
Silico의 기능:
세부 모델 분석: 학습된 모델의 특정 뉴런 또는 뉴런 그룹에 초점을 맞춰 해당 뉴런의 작동 방식을 실험하고 입력 값에 따른 활성화 여부를 확인할 수 있습니다.
경로 추적: 특정 뉴런의 상하위 뉴런과의 연결 관계를 추적하여 서로 간의 영향력을 파악할 수 있습니다.
행동 수정: 특정 뉴런과 연결된 파라미터를 조정하여 특정 행동을 증폭시키거나 억제할 수 있습니다. 예를 들어, 투명성 관련 뉴런을 강화하여 기업이 AI의 기만적 행동을 공개하도록 설득하는 데 활용되었습니다.
학습 과정 개입: 특정 학습 데이터를 필터링하여 원치 않는 파라미터 값이 설정되는 것을 방지합니다. 예를 들어, 9.11과 9.9를 비교하는 수학 문제에서 성경 구절이나 코드 저장소의 영향으로 오답이 발생하는 경우, 해당 뉴런의 영향을 줄여 모델을 재학습시킬 수 있습니다.
의견: Silico는 유용한 도구로 평가받지만, "알케미에 정밀함을 더하는 것"이라는 시각도 존재합니다. 그럼에도 불구하고 Silico는 탑 티어 연구소에서만 가능했던 해석 기법을 중소규모 기업이나 연구팀에게 제공함으로써, 자체 모델을 구축하거나 오픈소스 모델을 수정하는 데 기여할 수 있습니다.

시사점

Silico는 LLM의 내부 작동 방식을 투명하게 이해하고 제어할 수 있게 함으로써, AI 모델 개발을 보다 예측 가능하고 정밀한 엔지니어링 프로세스로 전환하는 데 기여할 수 있으며, 의료 및 금융과 같은 안전이 중요한 분야에서 더욱 신뢰할 수 있는 모델 구축을 지원할 수 있습니다.

원문 읽기 →

원문을 불러오는 중...

GitHub Discussions

개요

주요 내용

시사점

댓글

관련 기사