Google announces Gemini 3.5 Live Translate for instant voice-to-voice translation
개요
Gemini 3.5 Live Translate는 Google이 발표한 즉각적인 음성 간 음성 번역 모델로, 70개 이상의 언어를 지원하며 기존 솔루션보다 낮은 지연 시간과 향상된 자연스러움을 제공한다.
주요 내용
* Google은 수년간 실시간 번역을 연구해왔으며, Gemini 3.5 Live Translate는 이러한 노력의 일환으로 출시되었다.
* 이전에는 특정 Google 기기가 필요했으나, 이제 Translate 앱을 통해 더 많은 사용자에게 실시간 번역 기능이 확대 적용된다.
* Gemini 3.5 Live Translate는 Gemini 3.5 버전의 일부이며, Flash 버전 출시 이후 Pro 모델 출시가 예상된다.
* 이 모델은 70개 이상의 언어를 자동으로 감지하고 번역하는 음성-음성 번역 모델이다.
* 정상적인 대화 속도를 유지할 수 있을 만큼 빠르며, 화자의 억양, 속도, 음조를 반영하여 로봇 같은 목소리가 아닌 자연스러운 음성을 제공한다.
* Google Meet에서 Gemini 3.5 Live Translate를 이용한 음성 번역 기능이 제공된다.
* 개발자는 Gemini Live API 또는 AI Studio의 공개 미리 보기 버전을 통해 Gemini 3.5 Live Translate를 활용할 수 있다.
* 이 모델은 음성을 지속적으로 처리하고 다국어 입력을 자동으로 처리하여 개발자의 수동 설정 과정을 줄여주며, 주변 소음도 필터링한다.
시사점
Gemini 3.5 Live Translate는 실시간 음성 번역의 정확성, 속도, 자연스러움을 혁신적으로 개선하여 국제 커뮤니케이션의 장벽을 낮추고 다양한 Google 서비스 및 개발자 애플리케이션에 통합될 잠재력을 가진다.
댓글
GitHub Discussions