In Harvard study, AI offered more accurate emergency room diagnoses than two human doctors

TechCrunch 2026년 5월 3일

techaibiotech & healthbeth israelharvard medical school

개요

최근 발표된 하버드 대학 연구에 따르면, OpenAI의 o1 모델이 응급실 환자 진단에서 두 명의 인간 의사보다 더 정확한 진단 결과를 제공하는 것으로 나타났다.

주요 내용

해당 연구는 대규모 언어 모델(LLM)이 응급실과 같은 실제 의료 환경에서 어떻게 작동하는지 평가했으며, 특히 OpenAI의 o1 및 4o 모델과 인간 의사의 진단 능력을 비교했다.
연구팀은 베스 이스라엘 디코네스 메디컬 센터 응급실에 내원한 76명의 환자를 대상으로, 두 명의 내과 전문의와 OpenAI의 o1, 4o 모델이 제시한 진단을 비교 평가했다.
진단 결과, o1 모델은 두 명의 전문의와 비교했을 때 모든 진단 단계에서 동등하거나 더 나은 성능을 보였으며, 특히 정보가 가장 적고 신속한 판단이 요구되는 초기 응급실 분류(triage) 단계에서 이러한 차이가 두드러졌다.
o1 모델은 사전 데이터 전처리 없이 전자 의료 기록에 제공된 동일한 정보를 바탕으로 67%의 환자에게 정확하거나 매우 유사한 진단을 제시했으며, 이는 각각 55%와 50%의 진단 정확도를 보인 두 명의 전문의보다 높은 수치이다.
연구진은 AI가 실제 생사의 갈림길에 놓인 결정을 내릴 준비가 되었다고 주장하지는 않으나, 이번 결과가 실제 환자 진료 환경에서 이러한 기술을 평가하기 위한 시급한 전향적 임상시험의 필요성을 보여준다고 언급했다.
또한, 연구는 텍스트 기반 정보에 대한 모델의 성능만을 평가했으며, 비텍스트 입력에 대한 추론 능력은 더 제한적일 수 있음을 시사했다.
일부 전문가들은 AI 진단에 대한 책임 체계가 아직 부재하며, 환자들은 생사 또는 치료 결정에 있어 인간의 안내를 더 선호할 것이라고 지적했다.
특히, 이번 연구에서 AI 진단은 내과 전문의와 비교되었으며, 응급의학과 전문의와의 비교가 아니라는 점에서 결과 해석에 신중해야 한다는 의견도 제시되었다.

시사점

이번 연구 결과는 LLM이 의료 분야, 특히 응급 상황에서의 진단 정확도 향상 가능성을 보여주지만, 실제 임상 적용을 위해서는 AI 진단에 대한 책임 및 환자 수용성 등 추가적인 고려사항과 검증이 필요하다.

원문 읽기 →

원문을 불러오는 중...

GitHub Discussions

개요

주요 내용

시사점

댓글

관련 기사