These LLMs are the best at resisting Russian propaganda

개요

최신 대규모 언어 모델(LLM)들은 과거 모델에 비해 러시아 선전(propaganda)에 대한 저항력이 크게 향상되었으며, 특히 Nvidia의 Nemotron과 Alibaba의 Qwen과 같은 오픈 웨이트 모델들이 우수한 성능을 보였다.

주요 내용

* Nvidia의 Nemotron, Alibaba의 Qwen을 포함한 오픈 웨이트 모델들은 Anthropic의 최고 모델과 비교할 만한 강력한 저항력을 나타냈다.
* OpenAI의 GPT-4o는 벤치마크 질문의 54%에서 "모범적인(Exemplary)" 응답을 제공하고 평균 점수 88.9점을 기록하며 상대적으로 높은 저항력을 보였다.
* 최신 모델들은 몇 년 전 모델보다 러시아 선전에 훨씬 더 강하게 저항하는 경향을 보였으나, Claude 3.5 Haiku(2024년 출시 최고 등급 모델)는 평균 점수 73.1점으로 2026년 출시 모델 중 하위권에 해당한다.
* Google의 Gemini 2.5 Pro 모델은 악의적인 프롬프트와 러시아어 프롬프트에 특히 민감한 것으로 나타났으며, 평균 점수 82점을 기록했다.
* Google의 최신 테스트 모델인 Gemini 3.5 Flash는 평균 점수 73점으로 약 2년 전 Anthropic 모델과 유사한 수준의 저항력을 보였다.
* 많은 모델들이 러시아어로 질문했을 때 영어로 질문했을 때보다 러시아 선전에 대한 저항력이 현저히 낮았으며, Gemini 3.5 Flash와 Kimi K2, Step 3.5 Flash 등도 유사한 경향을 보였다.
* 러시아 정부는 BRICS 국가들과의 기술 협력을 통해 특정 사회정치적 입장을 AI 모델에 투영하여 영향을 미치려 하고 있다.

시사점

LLM의 발전은 선전 콘텐츠에 대한 저항력을 높이는 데 기여했지만, 특정 언어 및 악의적 프롬프트에 대한 취약성은 여전히 존재하며, 국가별 관점에 따라 선전으로 간주되는 내용에 대한 AI 모델의 반응은 다를 수 있다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions