Voice AI Systems Are Vulnerable to Hidden Audio Attacks
개요
음성 AI 시스템은 인간이 감지할 수 없는 오디오 공격을 통해 비인가된 명령을 수행하도록 조작될 수 있으며, 이는 79~96%의 성공률로 다양한 상용 및 오픈 소스 모델에 영향을 미칠 수 있습니다.
주요 내용
* AudioHijack 기법: 인간의 귀로는 감지할 수 없도록 조작된 오디오 클립을 통해 대규모 오디오-언어 모델(LALM)의 동작을 제어하는 새로운 공격 기법입니다.
* 공격 대상: 음성 명령 처리, 파일 다운로드, 이메일 전송 등 외부 서비스와 통신하고 다른 애플리케이션 및 도구를 작동할 수 있는 생성형 AI 오디오 모델을 대상으로 합니다.
* 공격 성공률 및 재사용성: 연구에서 테스트된 13개의 선도적인 오픈 모델과 Microsoft, Mistral의 상용 AI 음성 서비스에서 평균 79~96%의 성공률을 보였으며, 한번 훈련된 공격 신호는 모델에 상관없이 재사용 가능합니다.
* 공격 메커니즘: 이전의 적대적 오디오 공격과 달리, 생성 모델의 보안 취약점을 이용하여 오디오 데이터 내에 숨겨진 악의적인 지시를 통해 광범위한 비정상적인 동작을 유발합니다. 공격자는 최종 오디오 입력과 원래 지시 모두를 제어할 필요 없이, 모델이 처리하는 오디오 데이터만 조작하여 사용자가 타겟 모델을 사용할 때 공격할 수 있습니다.
* 현실 세계 적용 시나리오: 온라인 동영상, 음악 클립, 음성 메모 등 사용자가 쿼리하는 AI 콘텐츠에 악의적인 지시를 숨기거나, Zoom 통화 중 악의적인 오디오를 방송하여 AI 전사 서비스에 업로드하는 방식 등이 가능합니다. 실시간 음성 채팅에서 악의적인 오디오를 주입하는 것도 가능함을 입증했습니다.
* 적대적 예제 생성: 오디오 파일의 파형을 나타내는 수치 값을 미세하게 조정하여 사람이 듣기에는 차이가 거의 없지만, 모델 처리 시 의도치 않은 동작을 유발하는 방식으로 공격 신호를 생성합니다.
* 생성형 AI 모델 공격의 난점: 생성형 모델은 오디오를 청크로 분할하고 "토큰"이라는 수치 표현으로 매핑하는 방식 때문에, 미세한 변경이 원하는 동작으로 향하는지 파악하기 어렵다는 문제가 있습니다. 연구진은 이를 해결하기 위해 최적화 알고리즘에 필요한 미세한 피드백을 근사하는 방법을 개발했습니다.
* 상용 모델로의 전이: 오픈 모델에 대해 개발된 공격이 동일한 기본 아키텍처를 공유하는 Microsoft 및 Mistral의 상용 모델에도 전이될 수 있음을 확인했습니다.
* 공격 무력화 시도: 모델이 오디오를 처리할 수 없다고 주장하게 만들거나, 사용자 요청을 거부하거나, 거짓 정보를 응답하게 하거나, 악의적인 링크를 삽입하거나, 모델의 페르소나를 변경하거나, 비인가된 도구 사용을 트리거하는 6가지 공격 유형을 시연했습니다.
* 기존 방어 기제의 한계: 악의적인 지시 예시 제공은 공격 성공률을 7% 감소시키는 데 그쳤으며, 응답이 사용자 지시와 일치하는지 되돌아보게 하는 방식은 28%만 탐지했습니다.
* 효과적인 방어: 모델의 내부 어텐션 메커니즘을 모니터링하여 악의적인 오디오에 대한 주의 집중 시도를 탐지하는 것이 유일하게 효과적인 전술이었으나, 공격자는 이를 인지하고 주의 집중 조작을 줄이는 방식으로 대응할 수 있습니다.
시사점
이 연구는 인간의 청각으로는 감지할 수 없는 오디오 데이터를 통해 음성 AI 시스템의 보안을 위협하는 새로운 취약점을 드러내며, 다양한 AI 애플리케이션에 대한 심층적인 보안 강화 필요성을 시사합니다.
댓글
GitHub Discussions