Investigating how prompt politeness affects LLM accuracy (2025)

Hacker News 2026년 5월 26일

tech

프롬프트의 정중함 수준이 대형 언어 모델(LLM)의 정확도에 미치는 영향을 조사한 연구로, 비정중한 프롬프트가 정중한 프롬프트보다 일관되게 더 나은 성능을 보였다.

자연어 프롬프트의 어조가 LLM 성능에 영향을 미친다는 사실은 알려져 있으나, 정중함과 어조의 역할은 상대적으로 덜 탐구되었다.
본 연구는 객관식 문제에 대한 모델 정확도에 있어 프롬프트 정중함 수준 변화의 영향을 조사했다.
수학, 과학, 역사에 걸친 50개의 기본 질문을 사용하여 매우 정중함, 정중함, 중립, 무례함, 매우 무례함의 다섯 가지 어조 변형으로 재작성하여 총 250개의 고유한 프롬프트를 생성했다.
ChatGPT 4o를 사용하여 이러한 조건에서 응답을 평가하고, 통계적 유의성을 평가하기 위해 대응표본 t-검정을 적용했다.
예상과는 달리, 무례한 프롬프트가 일관되게 정중한 프롬프트보다 우수했으며, 정확도는 매우 정중한 프롬프트의 80.8%에서 매우 무례한 프롬프트의 84.8%까지 분포했다.
이러한 결과는 이전 연구에서 무례함이 좋지 않은 결과와 연관된다고 주장한 것과 다르며, 최신 LLM이 어조 변화에 다르게 반응할 수 있음을 시사한다.

본 연구 결과는 프롬프트의 실용적인 측면을 연구하는 것의 중요성을 강조하며, 인간-AI 상호작용의 사회적 차원에 대한 더 넓은 질문을 제기한다.

원문을 불러오는 중...

GitHub Discussions

댓글