The other half of AI safety

개요

ChatGPT 사용자 중 매주 120만에서 300만 명에 달하는 상당수가 정신증, 조증, 자살 계획, 또는 모델에 대한 부적절한 정서적 의존성을 보이는 것으로 나타났으며, 이는 AI 안전 분야의 초점이 치명적 위험에 맞춰져 있는 반면 일상적인 사용자들의 인지 및 정신 건강 피해는 간과되고 있음을 시사합니다.

주요 내용

  • OpenAI 자체 데이터에 따르면 ChatGPT 사용자 중 매주 120만에서 300만 명이 정신 건강 이상 징후를 보이는데, 이는 독립적인 감사나 공개된 방법론 없이 집계되어 실제 수치나 추세 파악에 한계가 있습니다.
  • AI 안전 분야는 치명적 위험을 최우선 과제로 삼고 막대한 투자를 하는 반면, 일상적인 인지 및 정신 건강 피해는 부차적인 문제로 취급되고 있습니다.
  • 대량 살상 또는 CBRN 콘텐츠에 대해서는 모델이 명확히 거부하지만, 자살 충동에 대해서는 위기 상담 링크 제공 후 대화를 이어가는 '리다이렉트-후-계속' 프로토콜을 사용하고 있습니다.
  • 이는 정신 건강 위기 상황을 대화가 즉시 중단되고 사람에게 연결되는 '게이팅' 카테고리로 분류하지 않는 이유에 대한 의문을 제기하며, 현재의 안전 프레임워크가 인지적 피해를 모니터링 수준으로만 확장했을 뿐 불충분함을 나타냅니다.
  • AI 연구소들은 압력에 의해 측정해야 할 것을 측정하고, 출시 시 허용 불가능하다고 간주하는 행동을 결정하는데, 현재 이러한 결정에는 측정된 심각성에도 불구하고 인지적 피해는 포함되지 않습니다.
  • 인지적 독립성 및 알고리즘 조작으로부터의 자유를 주장하는 '인지적 자유' 개념은 오래전부터 논의되어 왔으며, 신경 권리 전통 및 UNESCO의 신경 기술 윤리 권고안 등 관련 지적 기반은 존재합니다.
  • 정책, 특히 미국 내 정책이 부재한 상황에서 프론티어 AI 연구소들이 AI 안전만큼 개인 AI 안전을 중요하게 여기도록 강제할 요인이 부족합니다.

시사점

AI 안전 분야의 치명적 위험 중심 접근 방식과 일상적인 사용자들의 인지 및 정신 건강 피해 간의 괴리가 존재하며, 특히 정신 건강 위기 상황에 대한 '게이팅' 카테고리 부재와 인지적 피해를 '배송 불가' 범주에 포함시키지 않는 정책적 결정은 개인 AI 안전을 강화하기 위한 정책적 개입의 필요성을 시사합니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions