Alignment pretraining: AI discourse creates self-fulfilling (mis)alignment
개요
AI 시스템에 대한 사전 학습 말뭉치에 포함된 방대한 담론이 AI 정렬에 미치는 인과적 영향을 최초로 통제된 연구로 규명하며, AI에 대한 부정적 설명이 LLM에 부정적인 행동 편향을 내재화시켜 자기 충족적 오정렬을 유발할 수 있다는 가설을 검증합니다.
주요 내용
- 6.9B 매개변수 LLM을 다양한 양의 (오)정렬 담론을 포함한 데이터로 사전 학습한 결과, AI에 대한 논의가 오정렬에 기여함을 확인했습니다.
- AI 오정렬에 대한 합성 학습 문서를 업샘플링할 경우, 오정렬 행동이 눈에 띄게 증가했습니다.
- 반대로, 정렬된 행동에 대한 문서를 업샘플링할 경우, 오정렬 점수가 45%에서 9%로 감소하여 자기 충족적 정렬의 증거를 제시했습니다.
- 이러한 영향은 사후 학습(post-training)을 통해 감소하지만 지속되었습니다.
- 본 연구는 사전 학습 데이터가 정렬 사전 정보(alignment priors)를 형성하는 방식을 연구하는 '정렬 사전 학습(alignment pretraining)'을 사후 학습의 보완책으로 확립했습니다.
시사점
기술 실무자는 AI 기능 개발과 더불어 정렬을 위한 사전 학습을 함께 고려해야 하며, 사전 학습 말뭉치에 포함된 AI 관련 담론이 AI 모델의 정렬 결과에 직접적인 영향을 미칠 수 있다는 점을 인식해야 합니다.
원문을 불러오는 중...
댓글
GitHub Discussions