Rich Sutton on AI creativity and discovery

Hacker News 2026년 6월 10일

tech

개요

리치 서튼은 현재의 생성형 AI가 지도 학습(supervised learning)으로 훈련될 경우, 새로운 발견을 할 수 없다고 주장하며, 과학 및 수학 분야에서의 진정한 창의성과 발견은 지도 학습 이상의 메커니즘을 필요로 한다고 설명한다.

주요 내용

* 생성형 AI의 한계: 현재의 생성형 AI(대규모 언어 모델, 이미지/비디오 생성 모델 등)는 대량의 예제를 통해 학습하여 유사한 결과물을 생성하는 데 능숙하지만, "좋은(good)" 결과와 "새로운(novel)" 결과가 동시에 나오기 어렵다. '좋은' 부분은 학습 데이터에 기반하며, '새로운' 부분은 무작위성(stochasticity)이나 환각(hallucinations)에서 비롯된다.
* 진정한 창의성과 발견: 과학 및 수학 분야에서는 '좋으면서도 새로운' 결과, 즉 진정한 창의성과 발견이 필수적이다. 이러한 발견은 단순히 지도 학습이나 패턴 인식, 예측, 월드 모델링만으로는 달성될 수 없다.
* '발견(Discovery)'의 핵심 메커니즘: 서튼은 창의성과 발견을 위해서는 '평가(Evaluation)' 단계가 필수적이며, 이는 '변이(Variation)', '평가(Evaluation)', '선택적 유지(Selective retention)'라는 세 단계를 포함한다고 설명한다.
* 지도 학습과 발견의 차이: 지도 학습 기반의 생성형 AI는 변이는 가능하지만, 생성된 결과물에 대한 평가 메커니즘이 부족하여 발견으로 이어지기 어렵다. 예를 들어, 챗봇이 인터넷 정보 요약을 할 때 새로운 아이디어를 내는 것은 환각으로 간주될 수 있다.
* 발견을 위한 AI 시스템: AlphaGo, AlphaZero, AlphaFold, Claude-Code 등은 인간의 움직임, 체스 스타일, 과학적 발전, 프로그래밍 코드 생성 등에서 '좋으면서도 새로운' 결과를 도출하여 실제 발견에 기여했다. 이 시스템들은 단순 지도 학습을 넘어선 추가적인 기능을 갖추고 있다.
* 강화 학습과 발견: 강화 학습(reinforcement learning), 기악 학습(instrumental learning), 조작적 조건화(operant conditioning) 등은 '발견'의 개념과 유사하며, 많은 시도를 통해 가장 효과적인 방법을 찾는 과정을 포함한다.
* 백프로파게이션(Backpropagation)과 변이: 딥러닝의 백프로파게이션 알고리즘은 결정론적이지만, 초기 가중치(weight)의 무작위 초기화는 변이의 한 형태로 작용한다. 하지만 이 변이는 일회성으로 끝나거나 시간이 지나면 학습 능력을 잃을 수 있다는 약점이 있다. '지속적 백프로파게이션(continual backpropagation)'은 신경망의 일부 뉴런을 주기적으로 재초기화하여 변이를 지속시키는 방법을 제시한다.
* 자율적인 창의성과 발견: 완전한 자율성을 갖춘 창의성과 발견을 위해서는 명확한 목표와 평가 기준이 있어야 하며, 이를 통해 AI가 스스로 평가하고 발전해 나갈 수 있다.

시사점

AI가 진정한 창의성과 발견 능력을 갖추기 위해서는 지도 학습을 넘어서는 '평가'와 '선택적 유지' 메커니즘을 포함하는 강화 학습과 같은 접근 방식이 필수적이며, 인간과 AI가 공동의 목표를 공유할 때 AI의 과학적 잠재력을 극대화할 수 있다.

원문 읽기 →

원문을 불러오는 중...

GitHub Discussions

개요

주요 내용

시사점

댓글

관련 기사