Microsoft VibeVoice: Open-Source Frontier Voice AI

개요

Microsoft VibeVoice는 텍스트 음성 변환(TTS)과 자동 음성 인식(ASR)을 포함하는 오픈 소스 음성 AI 모델 프레임워크로, 초저프레임 속도의 연속 음성 토크나이저와 LLM 기반의 next-token diffusion 프레임워크를 활용하여 장문의 오디오 처리 효율성을 높였습니다.

주요 내용

* VibeVoice-ASR: 60분 길이의 장문 오디오를 단일 패스로 처리하여 화자(Who), 시점(When), 내용(What) 정보를 포함하는 구조화된 전사(transcription)를 생성하며, 사용자 맞춤형 핫워드(Customized Hotwords) 지원을 통해 특정 도메인에서의 인식 정확도를 향상시킵니다.
* VibeVoice-ASR의 통합 및 기능 개선: Hugging Face Transformers 라이브러리를 통해 직접 사용 가능해졌으며, 50개 이상의 언어를 기본 지원하고, vLLM 추론 지원으로 처리 속도가 향상되었습니다. 또한, ASR 기술 보고서가 공개되었습니다.
* VibeVoice-TTS: 최대 90분 길이의 장문 다중 화자 음성 합성이 가능하며, 단일 대화에서 최대 4명의 다른 화자를 지원하여 자연스러운 대화 흐름과 화자 일관성을 유지합니다. 영어, 중국어 등 다국어 및 표현력이 풍부한 음성 생성을 지원합니다.
* VibeVoice-Realtime-0.5B: 실시간 스트리밍 텍스트 입력을 지원하며, 약 0.5B의 매개변수를 가진 경량 모델로 실시간 TTS(약 300ms 첫 소리 지연) 및 약 10분 길이의 장문 음성 생성이 가능합니다.
* 책임감 있는 AI 사용: VibeVoice-TTS 코드는 AI의 책임감 있는 사용이라는 Microsoft의 원칙에 따라, 초기 의도와 다르게 사용된 사례가 발견되어 해당 리포지토리에서 제거되었습니다.
* 기술적 혁신: 초당 7.5Hz의 초저 프레임 속도로 작동하는 연속 음성 토크나이저(Acoustic and Semantic)를 사용하여 오디오 충실도를 유지하면서 장문 시퀀스 처리의 계산 효율성을 크게 향상시킵니다.

시사점

VibeVoice는 오픈 소스 음성 AI 모델로서 장문의 오디오 처리 능력을 향상시키고 다국어 지원을 확대하며, 실시간 스트리밍 기능과 같은 다양한 응용 가능성을 제시합니다. 사용자들은 책임감 있는 사용과 법률 규정 준수를 통해 연구 및 개발 목적으로 활용할 수 있으며, 상업적 또는 실제 애플리케이션 적용 시에는 추가적인 테스트와 개발이 권장됩니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions