𝗪𝗵𝗮𝘁 𝗜 𝗟𝗲𝗮𝗿𝗻𝗲𝗱 𝗳𝗿𝗼𝗺 𝗖𝗵𝗮𝗽𝘁𝗲𝗿 𝟮 𝗼𝗳 𝗔𝗜 𝗘𝗻𝗴𝗶𝗻𝗲𝗲𝗿𝗶𝗻𝗴: 𝗪𝗵𝘆 𝗦𝗮𝗺𝗽𝗹𝗶𝗻𝗴 𝗖𝗵𝗮𝗻𝗴𝗲𝘀 𝗘𝘃𝗲𝗿𝘆𝘁𝗵𝗶𝗻𝗴
개요
AI 엔지니어링 2장에서는 AI 모델의 동작에 직접적인 영향을 미치는 '샘플링(Sampling)'의 중요성을 강조하며, 훈련 데이터의 양뿐만 아니라 품질, 다양성, 그리고 컴퓨팅 자원과의 균형이 모델 성능에 미치는 영향을 탐구합니다.
주요 내용
* 훈련의 진정한 의미: 단순히 더 많은 데이터를 사용하는 것보다 데이터의 양, 품질, 다양성 간의 적절한 균형이 모델의 패턴 학습 및 일반화 능력에 더 중요합니다.
* 컴퓨팅과 트레이드오프: 모델의 크기와 데이터셋은 컴퓨팅 자원과 직결되며, 이는 비용으로 이어집니다. Chinchilla Scaling Law는 파라미터 수와 토큰 수의 비율(1:20)을 제시하며, 모델 성장에 따라 데이터도 함께 증가해야 효율적인 훈련이 가능함을 설명합니다. 이는 모델 선택, 파인튜닝, 비용 대비 성능 결정에 중요한 가이드라인을 제공합니다.
* 사전 훈련된 모델에서 실제 시스템으로: 사전 훈련된 모델은 다음 토큰 예측에 최적화되어 있으며, 실제 사용을 위해서는 지도 파인튜닝(Supervised Fine-Tuning)과 인간 피드백 기반 강화학습(RLHF)을 통한 후처리 과정이 필수적입니다. RLHF는 보상 모델을 활용하여 모델의 응답을 평가하고 개선하는 피드백 루프를 구축합니다.
* 인터넷 데이터의 품질 위험: 인터넷 규모의 데이터로 훈련되는 AI 모델은 온라인상의 부정확하거나 오해의 소지가 있는 정보에 영향을 받을 수 있습니다. AI 생성 콘텐츠의 증가와 악의적인 정보 주입은 미래 모델의 훈련 데이터 무결성에 대한 위험을 증가시킵니다.
* AI의 비일관성 원인: AI 모델은 확률적 시스템(Probabilistic Systems)으로, 동일한 입력에도 다른 출력을 생성할 수 있으며, 이는 샘플링에 의해 발생합니다. 이는 환각(Hallucinations) 현상의 원인이기도 합니다.
* 확률적 시스템을 고려한 설계: AI 시스템은 예측 가능한 백엔드 시스템과 달리 확률적 특성을 내포하고 있으므로, 출력 검증, 프롬프트 및 제약 조건 활용, 파인튜닝을 통한 일관성 확보 등 이를 고려한 설계가 필요합니다.
시사점
AI 모델의 예측 불가능성은 샘플링 과정에서 비롯되지만, 이는 동시에 모델의 유연성과 유용성을 부여하는 요소이기도 합니다. 이러한 트레이드오프를 이해하는 것이 AI 엔지니어링의 실용성을 높이는 핵심입니다.
댓글
GitHub Discussions