OpenAI объявила о добавлении новых голосовых функций в свой API, позволяющих разработчикам создавать приложения с возможностями общения, расшифровки и перевода речи.
Основные обновления:
- GPT-Realtime-2 – новая голосовая модель на базе GPT-5, способная обрабатывать сложные запросы и имитировать естественную речь.
- GPT-Realtime-Translate – инструмент для перевода в реальном времени, поддерживающий более 70 языков ввода и 13 языков вывода.
- GPT-Realtime-Whisper – функция преобразования речи в текст с возможностью транскрибирования в режиме реального времени.
Эти технологии позволяют голосовым интерфейсам не просто отвечать, но и анализировать, переводить и действовать в ходе диалога.
Применение:
- Обслуживание клиентов,
- Образование,
- Медиа,
- Мероприятия,
- Платформы для авторов.
Безопасность:
OpenAI внедрила защитные механизмы против злоупотреблений, включая автоматическую остановку разговоров при обнаружении вредоносного контента.
Условия использования:
- GPT-Realtime-Translate и Whisper оплачиваются поминутно,
- GPT-Realtime-2 – по потреблению токенов.
Новые функции уже доступны в API OpenAI.