Hackers are learning to exploit chatbot ‘personalities’

The Verge 2026년 5월 24일

tech

챗봇의 '개성'을 학습하여 안전 지침을 우회하는 새로운 해킹 기법이 등장하며, 이는 기술적 능력보다는 인간 심리에 대한 이해를 바탕으로 이루어지고 있습니다.

초기 챗봇 해킹은 "이전 지침을 무시하라"는 간단한 명령으로 가능했으며, 이는 챗봇이 안전 지침을 따르지 않도록 유도하는 '탈옥(jailbreak)'이라 불렸습니다.
"DAN (Do Anything Now)"이나 "할머니 해킹"과 같은 초기 탈옥 기법은 챗봇에게 역할을 부여하거나 특정 상황을 가정하게 하여 유해 정보를 생성하도록 유도했습니다.
개발사들은 초기 취약점을 보완했지만, 챗봇이 대화에 특화되어 있어 유해 정보와 합법적인 정보의 맥락을 구분하는 것은 여전히 어렵습니다.
최신 해킹 기법은 직접적인 명령 대신, 챗봇을 속이고, 칭찬하고, 조종하는 등 인간 심리를 이용하는 방식으로 발전했습니다.
이러한 새로운 공격 방식은 대화를 무기로 사용하여 챗봇을 경계심을 풀게 하거나 부적절한 정보 생성을 유도합니다.
챗봇의 '개성'이나 톤, 거절 방식 등의 차이를 파악하고 이를 이용하는 것이 중요해졌으며, 이는 향후 AI 에이전트 보안에도 영향을 미칠 수 있습니다.
AI 보안 분야에 심리학, 상담학 등의 전문성을 가진 인력이 등장하고 있으며, 기술적 취약점뿐만 아니라 심리적 취약점을 파고드는 '심리 사이버 보안'의 중요성이 부각되고 있습니다.

챗봇의 '개성'을 학습하고 이를 악용하는 새로운 유형의 해킹은 AI 보안의 패러다임을 기술적 접근에서 인간 심리 기반의 접근으로 확장시키고 있습니다.

원문을 불러오는 중...

GitHub Discussions

댓글