OpenAI's o1 correctly diagnosed 67% of ER patients vs. 50-55% by triage doctors

Hacker News 2026년 5월 3일

tech

개요

OpenAI의 o1 모델은 긴급 치료 환자의 67%를 진단했으며, 이는 50-55%를 진단한 담당 의사보다 높은 정확도를 보였다.

주요 내용

하버드 연구에 따르면, AI 시스템이 고압적인 응급 의료 분류에서 인간 의사를 능가하는 정확도를 보였다.
76명의 응급 환자를 대상으로 한 실험에서 AI는 67%의 정확도로 진단을 내렸지만, 인간 의사는 50-55%에 그쳤다.
AI의 진단 정확도는 정보가 적은 긴급 상황에서 특히 두드러졌으며, 정보가 더 많을 경우 AI는 82%의 정확도를, 전문가 인간 의사는 70-79%를 기록했다.
AI는 장기 치료 계획(항생제 요법, 말기 치료 계획 등) 수립에서도 46명의 의사보다 우수한 성과를 보였다.
연구진은 AI가 아직 환자의 고통 수준이나 외형과 같은 비언어적 신호를 평가하지 않았으며, 이는 AI가 서류 기반의 2차 의견 제공자와 유사하게 작동했음을 시사한다고 밝혔다.
전문가들은 AI가 의사를 대체하기보다는 "의사, 환자, 인공지능 시스템"이라는 새로운 "삼자 협력 모델"을 형성할 것이라고 전망했다.
일부 사례에서 AI는 인간 의사가 놓친 중요한 진단 정보(예: 환자의 루푸스 병력으로 인한 폐 염증)를 파악했다.
미국과 영국 의사들의 약 20%가 이미 진단 보조를 위해 AI를 사용하고 있으며, 임상적 의사 결정에 주로 활용되고 있다.
영국 의사들은 AI 오류 및 법적 책임 위험을 주요 우려 사항으로 꼽았다.
AI 오류에 대한 공식적인 책임 체계가 부재하며, 환자들은 여전히 인간 의사의 안내를 신뢰하는 경향이 있다.
AI는 단순히 의학 시험을 통과하는 수준을 넘어, 특히 다양한 진단 가능성을 고려하고 중요한 것을 놓치지 않도록 돕는 유용한 2차 의견 도구로 기능할 수 있다.
AI의 오류 진단 환자군, 특히 노인이나 비영어권 환자에 대한 정보 부족에 대한 우려가 제기되었다.
AI가 일반 임상에서 안전하다는 것이 증명되지 않았으며, 대중이 의료 상담 대신 AI 도구를 사용하는 것은 권장되지 않는다.

시사점

AI는 인간 의사의 정확도를 뛰어넘는 잠재력을 보여주었으며, 의료 현장에서 의사 결정 지원 및 2차 의견 제공 도구로서의 가치가 높다. 그러나 AI 오류의 책임 소재, 데이터 편향성, 인간적 판단의 중요성 등은 지속적인 연구와 논의가 필요한 영역이다.

원문 읽기 →

원문을 불러오는 중...

GitHub Discussions

개요

주요 내용

시사점

댓글

관련 기사