DeepL, known for text translation, now wants to translate your voice

개요

DeepL이 텍스트 번역으로 알려진 명성을 바탕으로, 회의, 모바일/웹 대화, 그룹 대화 등 다양한 시나리오를 지원하는 음성-음성 번역 제품군을 출시했습니다.

주요 내용

  • 음성-음성 번역 제품군 출시: DeepL은 실시간 음성 번역의 필요성을 인식하고, 회의, 모바일 및 웹 대화, 일선 작업자를 위한 맞춤형 앱을 통한 그룹 대화 등 다양한 사용 사례를 지원하는 음성-음성 번역 제품군을 출시했습니다.
  • API 제공: 외부 개발자와 기업이 DeepL의 기술을 기반으로 맞춤형 사용 사례(예: 콜센터)를 구축할 수 있도록 API를 제공합니다.
  • 실시간 번역의 도전 과제: 실시간 번역 제품 개발의 핵심 과제는 지연 시간(말하는 사람과 번역된 음성 재생 간의 지연)을 줄이는 것과 정확한 결과를 유지하는 것 사이의 균형을 맞추는 것입니다.
  • 플랫폼 연동 및 접근성: Zoom 및 Microsoft Teams와 같은 플랫폼에 대한 애드온을 출시하여, 참여자가 실시간 번역된 음성을 듣거나 화면에서 실시간 번역 텍스트를 볼 수 있게 합니다. 이 기능은 현재 초기 액세스 단계이며, 대기자 명단 참여를 받고 있습니다.
  • 맞춤형 학습 및 적응: DeepL의 음성-음성 기술은 산업별 용어, 회사 및 개인 이름과 같은 사용자 지정 어휘를 학습하고 적응할 수 있습니다.
  • 기술 스택 및 향후 계획: DeepL은 음성-음성 스택 전체를 제어하지만, 현재 시스템은 음성을 텍스트로 변환하고, 번역을 적용한 후, 다시 음성으로 변환하는 방식을 사용합니다. 향후에는 텍스트 단계를 완전히 건너뛰는 엔드투엔드 음성 번역 모델을 개발할 계획입니다.
  • 경쟁 환경: Sanas(화자 억양 실시간 수정), Camb.AI(미디어 및 엔터테인먼트 콘텐츠 더빙 및 현지화), Palabra(의미와 원래 음성 보존을 목표로 하는 실시간 음성 번역 엔진) 등 여러 경쟁 업체와 경쟁하고 있습니다.

시사점

DeepL의 음성-음성 번역 기술 출시는 언어 장벽을 낮추고 글로벌 커뮤니케이션을 혁신할 잠재력을 가지며, 특히 고객 서비스와 같이 언어적 제약이 중요한 분야에서 새로운 가능성을 열어줄 것으로 기대됩니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions