OpenAI объявила о добавлении новых голосовых функций в свой API, позволяющих разработчикам создавать приложения с возможностями общения, расшифровки и перевода речи.

Основные обновления:

  1. GPT-Realtime-2 – новая голосовая модель на базе GPT-5, способная обрабатывать сложные запросы и имитировать естественную речь.
  2. GPT-Realtime-Translate – инструмент для перевода в реальном времени, поддерживающий более 70 языков ввода и 13 языков вывода.
  3. GPT-Realtime-Whisper – функция преобразования речи в текст с возможностью транскрибирования в режиме реального времени.

Эти технологии позволяют голосовым интерфейсам не просто отвечать, но и анализировать, переводить и действовать в ходе диалога.

Применение:

  • Обслуживание клиентов,
  • Образование,
  • Медиа,
  • Мероприятия,
  • Платформы для авторов.

Безопасность:
OpenAI внедрила защитные механизмы против злоупотреблений, включая автоматическую остановку разговоров при обнаружении вредоносного контента.

Условия использования:

  • GPT-Realtime-Translate и Whisper оплачиваются поминутно,
  • GPT-Realtime-2 – по потреблению токенов.

Новые функции уже доступны в API OpenAI.