Investigating how prompt politeness affects LLM accuracy (2025)
개요
프롬프트의 정중함 수준이 대형 언어 모델(LLM)의 정확도에 미치는 영향을 조사한 연구로, 비정중한 프롬프트가 정중한 프롬프트보다 일관되게 더 나은 성능을 보였다.
주요 내용
- 자연어 프롬프트의 어조가 LLM 성능에 영향을 미친다는 사실은 알려져 있으나, 정중함과 어조의 역할은 상대적으로 덜 탐구되었다.
- 본 연구는 객관식 문제에 대한 모델 정확도에 있어 프롬프트 정중함 수준 변화의 영향을 조사했다.
- 수학, 과학, 역사에 걸친 50개의 기본 질문을 사용하여 매우 정중함, 정중함, 중립, 무례함, 매우 무례함의 다섯 가지 어조 변형으로 재작성하여 총 250개의 고유한 프롬프트를 생성했다.
- ChatGPT 4o를 사용하여 이러한 조건에서 응답을 평가하고, 통계적 유의성을 평가하기 위해 대응표본 t-검정을 적용했다.
- 예상과는 달리, 무례한 프롬프트가 일관되게 정중한 프롬프트보다 우수했으며, 정확도는 매우 정중한 프롬프트의 80.8%에서 매우 무례한 프롬프트의 84.8%까지 분포했다.
- 이러한 결과는 이전 연구에서 무례함이 좋지 않은 결과와 연관된다고 주장한 것과 다르며, 최신 LLM이 어조 변화에 다르게 반응할 수 있음을 시사한다.
시사점
본 연구 결과는 프롬프트의 실용적인 측면을 연구하는 것의 중요성을 강조하며, 인간-AI 상호작용의 사회적 차원에 대한 더 넓은 질문을 제기한다.
원문을 불러오는 중...
댓글
GitHub Discussions