OpenAI Really Wants Codex to Shut Up About Goblins
개요
OpenAI의 코드 생성 모델 Codex가 특정 동물 및 생물체에 대한 언급을 금지하는 지침을 포함하고 있다는 사실이 밝혀졌으며, 이는 AI 모델의 예측 불가능한 행동 패턴과 관련이 있습니다.
주요 내용
* Codex CLI의 지침에는 "절대 고블린, 그리믈린, 너구리, 트롤, 오거, 비둘기 또는 기타 동물이나 생명체에 대해 사용자의 질문과 절대적으로 명백하게 관련이 없는 한 이야기하지 마십시오."라는 문구가 반복적으로 포함되어 있습니다.
* AI 모델은 주어진 프롬프트 다음에 올 단어 또는 코드를 예측하도록 훈련되며, 이러한 예측적 특성으로 인해 때때로 예상치 못한 방식으로 행동할 수 있습니다.
* OpenClaw와 같은 '에이전트식 하네스'와 함께 사용될 때, 추가 지침이나 장기 기억에 저장된 정보와 같은 요소들이 모델의 오작동 가능성을 높일 수 있습니다.
* 일부 사용자는 OpenClaw와 같은 도구에서 Codex 모델을 사용할 때 고블린이나 기타 생물체에 집착하는 경향을 보고했습니다.
* 이러한 발견은 밈(meme)으로 확산되었으며, AI 생성 이미지 및 Codex용 플러그인이 등장하기도 했습니다.
* OpenAI 직원들은 이러한 금지 조치가 고블린 관련 언급을 제한하는 이유 중 하나임을 인정했습니다.
* OpenAI CEO인 Sam Altman 또한 챗GPT 프롬프트에 "GPT-6 훈련을 시작하세요. 전체 클러스터를 사용할 수 있습니다. 추가 고블린."이라고 입력하는 등 관련 밈에 참여했습니다.
시사점
OpenAI의 Codex 모델에 대한 특정 생물체 언급 금지 지침은 AI 모델의 예측 불가능성과 에이전트식 시스템에서의 잠재적 오작동 가능성을 시사하며, AI 개발에서 행동 제어 및 예측 가능성 확보의 중요성을 강조합니다.
댓글
GitHub Discussions