Shared expert pool reduces parameters while maintaining performance

개요

UniPool과 MASCing은 Mixture-of-Experts (MoE) 모델의 파라미터 수를 줄이면서 성능을 유지하거나 향상시키고, 안전성을 강화하는 새로운 접근 방식을 제시한다.

주요 내용

  • UniPool: 공유된 expert 풀 도입
  • 기존 MoE는 각 트랜스포머 레이어마다 별도의 expert 세트를 할당하여 모델 깊이가 깊어질수록 총 expert 파라미터 수가 선형적으로 증가하는 문제를 가지고 있었다.
  • UniPool은 레이어별로 고유한 expert 세트를 가지는 대신, 모든 라우터가 공유하는 하나의 expert 풀을 도입하여 파라미터 수 증가를 억제한다.
  • 이러한 구조는 모델 깊이와 expert 파라미터 수 사이의 엄격한 결합을 해제한다.
  • 풀 레벨 보조 손실(pool-level auxiliary loss)을 통해 학습이 안정화되며, 이는 파라미터가 실제로 소유되는 전역 expert 풀의 활용도를 균형 있게 조절한다.
  • UniPool은 다양한 규모에서 기존 MoE 대비 일관된 성능 향상을 보였으며, 기존 expert 파라미터 예산의 41.6%~66.7%만 사용하는 변형 모델도 기존 레이어별 MoE와 동등하거나 더 나은 성능을 달성했다.
  • MASCing: MoE 추론 안전성 강화
  • MASCing은 MoE 모델의 추론 안전성 문제를 해결하기 위해 개발되었다.
  • LSTM 기반 서브로게이트 모델을 훈련하여 레이어 간 라우팅 종속성을 모델링하고, 행동 관련 expert 서킷을 식별하는 스티어링 행렬(steering matrix)을 학습한다.
  • 추론 시, 이 스티어링 행렬은 라우팅 게이트에 "스티어링 마스크(steering masks)"를 주입하여 별도의 재훈련 없이 기본 expert 선택을 재정의한다.
  • MASCing은 적대적 탈옥 벤치마크에서 방어 성공률을 평균 52.5%에서 83.9%로 크게 향상시켰다.

시사점

UniPool은 expert 파라미터 수를 줄이면서도 성능을 유지하려는 엔지니어들에게 공유 expert 풀과 풀 레벨 보조 손실을 통합하는 구체적인 첫 단계를 제공하며, MASCing은 새로운 안전 요구사항에 맞춰 스티어링 마스크를 생성하고 추론 그래프에 적용함으로써 비용 효율적인 제어가 가능한 대규모 모델을 구축할 수 있는 경로를 제시한다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions