Book publishers sue Meta over AI’s ‘word-for-word’ copying
개요
다섯 곳의 주요 출판사와 한 명의 작가가 Meta를 상대로 Llama AI 모델 학습 시 저작권이 있는 자료를 대규모로 침해했다는 소송을 제기했습니다.
주요 내용
* Macmillan, McGraw Hill, Elsevier, Hachette, Cengage 및 작가 Scott Turow는 Meta가 허가 없이 책과 학술 논문을 반복적으로 복사하여 AI 모델을 학습시켰다고 주장합니다.
* 소송은 Meta가 LibGen, Anna’s Archive, Sci-Hub 등 "악명 높은 불법 복제 사이트"에서 저작권이 있는 작품을 의도적으로 복제하여 AI 모델에 사용했다고 비난합니다.
* 또한, Meta가 Common Crawl 데이터셋에 포함된 저작권이 있는 자료를 사용하여 Llama를 학습시켰으며, 이 데이터셋에는 무단 복제물이 다수 포함되어 있다고 주장합니다.
* 이로 인해 Llama는 저작권이 있는 자료의 "단어 그대로 또는 거의 그대로의 복제본"을 출력하는 것으로 나타났습니다. 예를 들어, Cengage의 교재 일부를 입력하자 Llama가 해당 섹션의 내용을 단어 그대로 이어 출력했습니다.
* 과거에도 여러 작가가 Meta를 상대로 저작권 침해 소송을 제기한 바 있으며, 당시 연방 판사는 Meta의 손을 들어주었지만, AI 모델 학습에 저작권이 있는 자료를 사용하는 것이 합법적이라는 의미는 아니라고 언급했습니다.
* Anthropic 역시 작가들로부터 저작권 침해 소송을 당했으며, 연방 판사는 합법적으로 구매한 책을 허가 없이 AI 모델 학습에 사용하는 것은 공정 이용으로 간주될 수 있다고 판결했으나, Anthropic이 불법 복제한 수백만 건의 저작물에 대한 작가들의 소송은 진행하도록 허용했습니다. Anthropic은 작년, 작가들에게 15억 달러를 지급하고 해당 소송을 합의했습니다.
* Turow와 출판사 그룹은 Meta에게 손해 배상을 청구하고, 불법 행위 금지를 법원에 요청했습니다. 또한, Meta가 Llama AI 모델 학습에 사용한 책, 학술 논문 등 저작권이 있는 자료 목록을 제공하도록 요구했습니다.
시사점
이번 소송은 AI 학습 데이터의 저작권 문제에 대한 중요한 법적 논쟁을 촉발하며, AI 개발 기업들이 저작권 보호 조치를 더욱 강화해야 할 필요성을 제기합니다.
댓글
GitHub Discussions