LLM-as-judge variance broke our DPO training signal for 3 weeks
개요
Nexus Labs의 DPO(Direct Preference Optimization) 학습 파이프라인에서 단일 LLM을 선호도 판정 모델로 사용한 결과, 학습 중에는 성능 지표가 지속적으로 상승했으나 실제 프로덕션 환경에서는 정확도가 4%p 하락하는 문제가 발생했다. 이는 판정 LLM이 스스로의 레이블을 28%의 빈도로 뒤집는 높은 변동성 때문이었다.
주요 내용
* 문제 발생: DPO 학습 파이프라인에 Qwen2.5-32B 모델을 사용하고, GPT-4o-mini를 온도(temperature) 0으로 설정하여 선호도 판정을 수행했다. 두 달간은 정상적으로 작동했으나, 9주차부터 프로덕션 환경에서의 에이전트 도구 사용 정확도가 이전 베이스라인 대비 4%p 하락하는 문제가 발견되었다.
* 원인 분석: 판정 LLM (GPT-4o-mini, temperature 0)에게 동일한 프롬프트와 두 가지 완료(completion)를 50회 연속 제시했을 때, 14번(28%)이나 선호도 판단을 번복했다. 이는 학습 신호가 매우 불안정한 상태에서 이루어졌음을 의미하며, 모델은 판정 LLM의 노이즈 섞인 특성을 학습하게 되었다.
* 해결 방안:
* 다중 판정 모델 활용: 3개의 LLM (Claude-3-Sonnet, GPT-4o-2024-11-20, Gemini-2.5-Pro)을 사용하여 2-of-3 다수결 방식으로 선호도를 결정하도록 변경했다.
* 데이터 손실 관리: 판정 결과가 나뉘는 경우 해당 쌍을 드롭하도록 설정했으며, 이로 인해 약 18%의 학습 데이터가 손실되었다.
* 기타 개선: 완료 순서의 편향을 줄이기 위해 판정 모델별로 완료 순서를 무작위로 변경하고, 평가 결과에는 95% 신뢰 구간을 제시하여 점수 추정치의 노이즈를 고려했다.
* 개선 결과: 다중 판정 모델 도입 후, 판정 모델 자체의 일관성은 72%에서 94%로 크게 향상되었고, 프로덕션 도구 사용 정확도는 -4.0%p에서 +2.1%p로 개선되었다. 비용은 3배 증가했지만, 학습 신호의 유효성이 높아져 이를 상쇄했다.
시사점
LLM을 학습 과정의 판정 모델로 사용할 때, 단일 모델에 대한 의존은 예측 불가능한 학습 신호의 노이즈를 야기하여 실제 성능 저하를 초래할 수 있으므로, 다중 모델 합의(consensus) 방식을 도입하고 평가 결과의 신뢰 구간을 함께 고려하는 것이 중요하다.
댓글
GitHub Discussions