OpenAI launches new voice intelligence features in its API

TechCrunch 2026년 5월 7일

techaiopenaigpt

OpenAI는 개발자가 사용자와 대화, 받아쓰기, 번역하는 애플리케이션을 구축할 수 있도록 API에 새로운 음성 지능 기능을 출시했습니다.

GPT‑Realtime‑2: 사용자 요청에 대한 현실적인 음성 시뮬레이션을 생성하고, GPT‑5‑class 추론을 기반으로 복잡한 요청을 처리하도록 설계된 새로운 음성 모델입니다.
GPT‑Realtime‑Translate: 실시간 대화 속도를 유지하면서 70개 이상의 입력 언어를 이해하고 13개의 출력 언어로 번역하는 실시간 번역 기능을 제공합니다.
GPT‑Realtime‑Whisper: 상호작용이 발생하는 동안 실시간 음성-텍스트 기능을 제공하는 새로운 받아쓰기 기능입니다.
통합 기능: 이러한 모델들은 함께 작동하여 듣고, 추론하고, 번역하고, 받아쓰고, 대화가 진행됨에 따라 행동할 수 있는 음성 인터페이스를 구현합니다.
주요 대상: 고객 서비스 확장을 원하는 기업, 교육, 미디어, 이벤트, 크리에이터 플랫폼 등 다양한 분야에서 활용될 수 있습니다.
안전 장치: 스팸, 사기 또는 기타 온라인 학대를 방지하기 위한 가드레일이 구축되었으며, 유해 콘텐츠 가이드라인 위반 시 대화가 중단될 수 있습니다.
API 통합 및 과금: 모든 새로운 음성 모델은 OpenAI의 Realtime API에 포함되며, Translate와 Whisper는 분당 요금이 부과되고 GPT‑Realtime‑2는 토큰 소비량에 따라 요금이 부과됩니다.

OpenAI의 새로운 음성 지능 기능은 개발자가 더욱 발전된 음성 기반 애플리케이션을 구축할 수 있도록 지원하며, 다양한 산업 분야에서 사용자 경험을 혁신할 잠재력을 지니고 있습니다.

원문을 불러오는 중...

GitHub Discussions

댓글