OpenAI launches new voice intelligence features in its API

개요

OpenAI는 개발자가 사용자와 대화, 받아쓰기, 번역하는 애플리케이션을 구축할 수 있도록 API에 새로운 음성 지능 기능을 출시했습니다.

주요 내용

  • GPT‑Realtime‑2: 사용자 요청에 대한 현실적인 음성 시뮬레이션을 생성하고, GPT‑5‑class 추론을 기반으로 복잡한 요청을 처리하도록 설계된 새로운 음성 모델입니다.
  • GPT‑Realtime‑Translate: 실시간 대화 속도를 유지하면서 70개 이상의 입력 언어를 이해하고 13개의 출력 언어로 번역하는 실시간 번역 기능을 제공합니다.
  • GPT‑Realtime‑Whisper: 상호작용이 발생하는 동안 실시간 음성-텍스트 기능을 제공하는 새로운 받아쓰기 기능입니다.
  • 통합 기능: 이러한 모델들은 함께 작동하여 듣고, 추론하고, 번역하고, 받아쓰고, 대화가 진행됨에 따라 행동할 수 있는 음성 인터페이스를 구현합니다.
  • 주요 대상: 고객 서비스 확장을 원하는 기업, 교육, 미디어, 이벤트, 크리에이터 플랫폼 등 다양한 분야에서 활용될 수 있습니다.
  • 안전 장치: 스팸, 사기 또는 기타 온라인 학대를 방지하기 위한 가드레일이 구축되었으며, 유해 콘텐츠 가이드라인 위반 시 대화가 중단될 수 있습니다.
  • API 통합 및 과금: 모든 새로운 음성 모델은 OpenAI의 Realtime API에 포함되며, Translate와 Whisper는 분당 요금이 부과되고 GPT‑Realtime‑2는 토큰 소비량에 따라 요금이 부과됩니다.

시사점

OpenAI의 새로운 음성 지능 기능은 개발자가 더욱 발전된 음성 기반 애플리케이션을 구축할 수 있도록 지원하며, 다양한 산업 분야에서 사용자 경험을 혁신할 잠재력을 지니고 있습니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions