OpenAI признала инструмент клонирования голосов слишком рискованным для широкой публикации 🎙️🤖
OpenAI решила не выпускать на широкую аудиторию новый инструмент, способный создавать убедительные копии голосов людей всего по 15 секундам записи. Причина — минимизация рисков распространения дезинформации в мире, где технологии ИИ становятся всё более влиятельными.
Инструмент Voice Engine был разработан ещё в 2022 году и использовался для функции синтеза речи в ChatGPT. Однако его возможности никогда полностью не демонстрировались публике, так как OpenAI придерживается «взвешенного и осторожного» подхода к масштабному внедрению технологии.
«Мы надеемся начать диалог о безопасном использовании синтетических голосов и о том, как общество может адаптироваться к новым возможностям», — говорится в блоге компании. «По результатам тестов и обсуждений мы примем более обоснованное решение о дальнейшем распространении технологии».
Компания показала примеры практического применения Voice Engine. Так, образовательная платформа Age of Learning использует его для создания закадрового озвучивания, а приложение HeyGen позволяет пользователям переводить аудиоконтент, сохраняя голос и акцент оригинального выступающего. Например, английский текст, озвученный с французской записи, звучит с французским акцентом.
Особенно трогательный случай — исследователи из Norman Prince Neurosciences Institute в Род-Айленде использовали короткий 15-секундный фрагмент записи ученицы для восстановления её голоса, утраченого из-за сосудистой опухоли мозга.
OpenAI подчёркивает: «Мы показываем возможности технологии, но не выпускаем её в широкое пользование, чтобы повысить устойчивость общества к вызовам, связанным с реалистичными генеративными моделями». Компания также рекомендует постепенно отказаться от голосовой аутентификации для доступа к банковским и другим важным данным, а также разрабатывать правила для защиты использования голосов людей в ИИ.
Все сгенерированные голосовые файлы имеют водяные знаки, что позволяет отслеживать их происхождение. В соглашениях с партнёрами OpenAI требует явного согласия исходного говорящего и запрещает разработчикам предоставлять возможность пользователям создавать собственные копии голосов.
Несмотря на уникальность Voice Engine в плане простоты и минимального объёма исходного аудио, на рынке уже есть публичные конкуренты. Например, ElevenLabs может создать полный клон голоса за несколько минут записи. Для снижения рисков компания внедрила защиту «no-go voices», которая предотвращает создание копий голосов политических кандидатов на выборах в разных странах.
Технология открывает новые горизонты в образовании, медицине и развлечениях, но OpenAI делает акцент на ответственной эксплуатации ИИ и защите пользователей от потенциальных злоупотреблений. 🌐💡