VibeVoice: Open-source frontier voice AI

개요

VibeVoice는 텍스트 음성 변환(TTS) 및 자동 음성 인식(ASR) 모델을 포함하는 오픈 소스 음성 AI 모델 모음으로, 연속 음성 토크나이저와 LLM을 활용하여 장문의 오디오를 효율적으로 처리한다.

주요 내용

* VibeVoice-ASR: 60분 길이의 오디오를 한 번에 처리하여 화자, 시간 정보, 내용을 포함한 구조화된 전사(transcription)를 생성하는 단일 패스 ASR 모델이다. 사용자 지정 핫워드(hotword)를 지원하며 50개 이상의 언어를 지원한다. Hugging Face Transformers 라이브러리를 통해 직접 사용할 수 있으며, vLLM 추론도 지원한다.
* VibeVoice-TTS: 최대 90분 길이의 대화형/단일 화자 음성을 한 번에 합성하는 장문 TTS 모델로, 최대 4명의 개별 화자를 지원하며 자연스러운 대화 흐름과 감정 뉘앙스를 표현할 수 있다. 영어, 중국어 등 다국어를 지원한다.
* VibeVoice-Realtime-0.5B: 스트리밍 텍스트 입력을 지원하는 경량 실시간 텍스트 음성 변환 모델로, 약 300ms의 첫 오디오 지연 시간을 가지며 약 10분 길이의 장문 음성 생성이 가능하다.
* 핵심 기술: 음향 및 의미론적 연속 음성 토크나이저를 7.5Hz의 초저 프레임 속도로 사용하여 오디오 충실도를 유지하면서 장문 처리를 위한 계산 효율성을 크게 높인다. LLM은 텍스트 컨텍스트와 대화 흐름을 이해하고, 확산(diffusion) 헤드는 고품질 음향 디테일을 생성한다.
* 연구 및 개발 목적: VibeVoice는 음성 합성 커뮤니티의 협업을 증진시키기 위한 오픈 소스 연구 프레임워크로 설계되었으나, 이후 VibeVoice-TTS 코드는 책임 있는 AI 사용 원칙에 따라 저장소에서 제거되었다.
* 리스크 및 한계: VibeVoice는 기반 모델(Qwen2.5 1.5b)의 편향, 오류, 누락을 상속할 수 있으며, 딥페이크 및 허위 정보 생성에 악용될 가능성이 있다. 상업적 또는 실제 응용 프로그램에서의 사용은 추가 테스트 및 개발 없이 권장되지 않으며, 연구 및 개발 목적으로 사용해야 한다.

시사점

VibeVoice는 장문의 오디오를 효율적으로 처리하고 다수의 화자를 지원하는 등 음성 AI 분야에서 혁신적인 성능을 제공하며, 오픈 소스로 공개되어 연구 및 개발 커뮤니티의 발전에 기여할 잠재력을 지닌다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions