The LLM warnings Google fired Timnit Gebru over have all come true

개요

Timnit Gebru가 구글에서 해고된 이유가 된 대규모 언어 모델(LLM)에 대한 경고가 4년이 지난 현재 현실화되었으며, 이는 인터넷 데이터의 규모, 편향 증폭, 환경 비용, 문서화 부족, 문화적 권력 집중 등 다양한 측면에서 나타나고 있습니다.

주요 내용

* 규모와 이해 부족: 인터넷에서 대규모로 데이터를 수집하여 학습시킨 LLM은 실제 언어 이해 없이 통계적 패턴을 반복하는 'stochastic parrots'와 같으며, 이러한 겉보기 지능은 사용자 및 개발자를 속여 신뢰할 수 없는 출력을 믿게 합니다. 이는 '환각(hallucination)' 문제로 이어집니다.
* 편향 증폭: 인터넷 훈련 데이터는 지배적인 관점을 과대 표현하고 소외된 관점을 과소 표현하는데, LLM은 이러한 편향을 단순히 흡수하는 것을 넘어 증폭시킵니다. 이는 채용, 의료, 대출 승인 등 다양한 분야에서 차별을 야기하고 불평등을 고착화합니다.
* 환경 비용: 단일 LLM 학습에 드는 탄소 배출량은 자동차 5대의 평생 배출량과 맞먹으며, LLM 경쟁으로 인한 환경 발자국은 점차 산업 전체와 맞먹는 수준이 될 것입니다.
* 문서화 부족: LLM 훈련 데이터셋은 너무 커서 실제 감사(audit)가 불가능하며, 어떤 모델이 어떤 데이터를 기반으로 학습되었는지 명확히 알기 어렵습니다. 이는 LAION-5B 데이터셋에서 아동 성적 학대 자료가 발견된 사례처럼 심각한 문제를 야기합니다.
* 문화적 권력 집중: LLM 개발 및 학습 비용을 감당할 수 있는 소수의 기업이 언어 및 문화적 권력을 중앙 집중화하게 되며, 훈련 데이터에 적게 포함된 언어는 점점 더 열악해질 수 있습니다. AI 생성 콘텐츠의 증가는 이러한 현상을 가속화하고 있습니다.
* 인센티브 구조의 문제: AI 기술은 유사한 배경을 가진 소수의 연구자들에 의해 개발되며, 안전 및 윤리 문제보다 제품 출시 속도를 우선시하는 인센티브 구조 때문에 이러한 문제들이 해결되지 못하고 있습니다.

시사점

Timnit Gebru의 경고는 LLM의 잠재적 위험성을 미리 경고했으나, 당시 구글은 그녀를 해고함으로써 이러한 경고의 진실성을 증명했습니다. 이는 AI 안전 및 윤리에 대한 내부 고발자들의 목소리를 억압하며, 독립적인 AI 연구 기관의 중요성을 부각시킵니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions