4TB of voice samples just stolen from 40k AI contractors at Mercor

Hacker News 2026년 4월 27일

tech

개요

Mercor에서 40,000명 이상의 AI 계약자의 음성 샘플 4TB가 유출되었으며, 이는 공격자가 악용할 수 있는 개인 식별 정보와 결합된 고품질 음성 복제를 가능하게 합니다.

주요 내용

* 데이터 유출 규모 및 내용: Mercor는 40,000명 이상의 AI 계약자로부터 4TB의 음성 샘플을 유출했으며, 이는 음성 생체 인식 데이터와 정부 발급 신분증 정보를 포함하고 있습니다.
* 신원 정보와 음성 데이터의 결합: Mercor의 계약자 온보딩 과정은 신분증 스캔, 셀카, 그리고 스크립트 기반 음성 녹음을 요구했으며, 이는 합성 음성 복제 서비스의 입력 정보로 바로 사용될 수 있는 형태로 수집되었습니다.
* 음성 복제 기술의 발전: 현재 시판되는 도구를 사용하면 약 15초의 깨끗한 음성 샘플로 고품질 음성 복제가 가능하며, Mercor에서 유출된 음성 샘플은 평균 2~5분의 스튜디오 품질 녹음으로 이 기준을 훨씬 초과합니다.
* 공격자의 잠재적 악용 사례:
* 은행 본인 인증 우회: 음성 인증을 사용하는 은행 시스템을 우회하여 계정 접근.
* 피싱 및 사칭: 직원을 사칭하여 급여 환불, 송금 요청, 워크스테이션 잠금 해제 등을 시도.
* 딥페이크 화상 통화: Arup 사례처럼 실제 인물처럼 보이는 딥페이크 화상 통화를 통해 금융 사기.
* 보험 사기: 특히 전화로 처리되는 자동차, 생명, 장애 보험 청구에서 합성 음성을 이용한 사기 증가.
* 로맨스 및 조부모 사기: 긴급한 상황을 가장한 음성 통화로 금전적 피해 유발.
* 음성 데이터 오용 방지 방법:
* 공개 음성 흔적 감사: YouTube, 팟캐스트 등에서 개인의 음성 샘플을 찾아 제거.
* 구두 암호 설정: 가족 및 금융 담당자에게 누구도 녹음하거나 타이핑하지 않은 구두 암호 설정.
* 음성 인식 시스템 재설정: Google Voice Match, Amazon Alexa Voice ID, Apple 개인 음성, 은행 음성 인식 등 삭제 및 재등록.
* 은행에 음성 인증 비활성화 요청: 다단계 인증 방식을 앱 토큰 또는 하드웨어 키와 지식 기반으로 대체하도록 요청.
* 의심스러운 녹음 파일 검사: 딥페이크 탐지기를 사용하여 의심스러운 오디오 파일의 진위 여부 확인.
* 음성 포렌식 분석 기법: 코덱 불일치, 비정상적인 호흡 패턴, 미세한 떨림, 불가능한 포먼트 궤적, 일관성 없는 방음 환경, 단조로운 억양, 고정된 발화 속도 등을 통해 합성 음성 식별.

시사점

Mercor 데이터 유출 사건은 음성 생체 인식 정보와 신분증 정보가 결합될 경우 발생할 수 있는 심각한 개인 정보 침해 위험을 보여주며, 개인 및 기관은 음성 데이터의 보안 강화와 잠재적 악용에 대한 대비책 마련이 시급합니다.

원문 읽기 →

원문을 불러오는 중...

GitHub Discussions

개요

주요 내용

시사점

댓글

관련 기사