He asked AI to count carbs 27000 times. It couldn't give the same answer twice
개요
AI 모델들이 음식 사진을 기반으로 탄수화물(carbs) 추정 시 반복적으로 일관성 없는 결과를 도출하며, 특히 Claude Sonnet 4.6, GPT-5.4, Gemini 2.5 Pro, Gemini 3.1 Pro 모델들은 동일한 이미지에 대해 수백 회 질문 시에도 최대 42.9 단위의 인슐린 용량 오류를 유발할 수 있는 큰 편차를 보였다.
주요 내용
* AI 모델의 탄수화물 추정 일관성 부족: 13장의 음식 사진을 4가지 주요 AI 모델(GPT-5.4, Claude Sonnet 4.6, Gemini 2.5 Pro, Gemini 3.1 Pro)에 각각 500회 이상 질의한 결과, 모든 모델이 동일한 사진에 대해 반복적으로 다른 탄수화물 추정치를 제공했다.
* 모델별 편차 및 위험도:
* Claude Sonnet 4.6은 대부분의 이미지에서 5% 미만의 편차를 보였으나, Gemini 모델들은 10-20%를 초과하는 편차를 보였다.
* Gemini 2.5 Pro의 경우, 파에야 사진에 대한 탄수화물 추정치가 55g에서 484g까지 나타나 42.9 단위의 인슐린 용량 오류 가능성을 보였다.
* GPT-5.4는 37%의 질의에서 임상적으로 유의미한 인슐린 오류(2U 이상)를, Gemini 2.5 Pro는 12%의 질의에서 심각한 저혈당 위험(5U 이상)을 초래할 수 있는 오류를 보였다.
* 정확하지 않은 일관성 (Precisely Wrong) 문제: 3가지 모델(Claude, Gemini 2.5 Pro, Gemini 3.1 Pro)은 치즈 샌드위치(실제 40g)에 대해 일관적으로 약 28g을 추정하여 12g의 오차를 보였다. 이는 높은 일관성이 정확성을 보장하지 않음을 의미한다.
* 음식 인식 오류: 8개의 테스트 이미지 중 6개에서 모델들은 음식 인식 오류를 보였다. 예를 들어, Claude는 바클 tart를 100% Linzer torte로, GPT-5.4는 jam tart나 cake bar로 인식했다. Gemini 3.1 Pro는 치즈 샌드위치에 존재하지 않는 deli meat를 추가하는 환각 현상을 보였다.
* 모델의 자신감 점수 신뢰도 낮음: AI 모델들이 제공하는 자신감 점수(confidence score)는 실제 정확도와 거의 상관관계가 없거나 오히려 반비례하는 경향을 보였으며, 일부 모델은 실제보다 더 높은 자신감을 표시했다. Claude의 자신감 점수는 실제 정확도와 0의 상관관계를 보였고, Gemini 모델들은 실제 오류가 있을 때도 0.9 이상의 높은 자신감을 표시했다.
* 실무 적용 시 주의사항: LLM을 자율적인 인슐린 투여 계산기로 사용하는 것에 대한 경고가 있으며, AI 탄수화물 계산 기능을 사용하는 당뇨 앱 사용자는 맹신하지 말고, 여러 번 질문하여 결과의 분포를 확인해야 한다. 또한, AI가 인식한 음식 종류를 확인하여 오류를 파악하는 것이 중요하다.
시사점
AI 기반 탄수화물 추정 기능은 아직 개발 초기 단계에 있으며, 환자의 안전을 보장하기 위해서는 시스템적인 검증과 사용자 주의가 필수적이다. 특히, 일관성 없는 결과와 모델의 낮은 신뢰도는 임상적으로 치명적인 오류를 야기할 수 있으므로, 맹목적인 신뢰보다는 교차 검증 및 다중 질의를 통한 불확실성 확인이 요구된다.
댓글
GitHub Discussions