ИИ-приложения уже могут клонировать голос конкретного человека

Логотип компании
26.02.2018
ИИ-приложения уже могут клонировать голос конкретного человека
Эксперты опасаются, что такая технология, когда ее усовершенствуют, будет идеально подходить для создания поддельных аудиозаписей людей. К сожалению, это открывает большое поле для шантажа...

Большинству пользователей наверняка не понравится будущее, в котором искусственный интеллект сможет cкопировать его голос и говорить то, что он никогда не произносил.

Согласно статье «Neural Voice Cloning with a Few Samples» («Нейронное клонирование голоса на базе небольшого количества примеров»), опубликованной исследователями из компании Baidu, ИИ-приложение может всего несколько раз прослушать чей-то голос, а затем начать говорить почти так же. Отмечается, что это отчасти похоже на кибернетическую птицу-пересмешника, копирующую голоса.

Эксперты опасаются, что такая технология, когда ее усовершенствуют, будет идеально подходить для создания поддельных аудиозаписей людей. К сожалению, это открывает большое поле для шантажа.

Команда китайской компании Baidu, предоставляющей web-сервисы, хорошо известна благодаря разработке реалистично звучащей речи ИИ при прочтении текстовых файлов. Последний исследовательский проект этой компании, представленный на этой неделе, показывает, как ИИ-приложение может изучать характеристики голоса человека и воссоздавать этот звук для того, чтобы «человек» произнес совсем другие слова. Издание The Register приводит ссылку, содержащую оригинальную аудиозапись с определенным женским голосом, а также записи «клонированного» голоса, созданного на базе одного примера, пяти примеров, а также 100 примеров оригинального голоса.

Аналитики подчеркивают, что пока результаты не идеальны. Тем не менее, системе нейронного клонирования голоса удалось сохранить в речи британский акцент.

Исследователи представили два разных подхода к созданию системы нейронного клонирования голоса, первая получила название «speaker adaptation», вторая — «speaker encoding». Первый подход подразумевает обучение ИИ-приложения различным голосам, которые слышны на аудиозаписях разных людей. Для этого команда использовала 2 484 образца голоса. Искусственный интеллект учится распознавать характерные черты речи людей, чтобы имитировать даже едва уловимые особенности произношения и ритма.

Второй подход основан на обучении ИИ-приложения конкретным трансформациям голоса с аудиозаписи и воспроизведении схожих звуковых фрагментов с помощью отдельной базы. Для обучения этой системы также использовались примеры речи различных людей.

Ученый Серкан Арик (Sercan Arik), соавтор статьи и научный сотрудник Baidu Research, объяснил изданию The Register, что метод «speaker encoding» применить намного проще. Такое ИИ-приложение можно использовать даже на смартфоне, потому как этот метод быстр и не требует большого количества памяти устройства. Другими словами, не исключено, что вскоре появятся приложения для смартфона, которым достаточно будет прослушать фразу, сказанную другим человеком, и сконструировать другие фразы его голосом. Это, к сожалению, открывает путь для фальшивых телефонных звонков. Мысль, что ИИ может изменять данные, чтобы распространять ложную информацию, вызывает обеспокоенность у очень многих.

Ранее 26 специалистов в области искусственного интеллекта из различных университетов опубликовали документ «The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation», в котором перечислили варианты того, как ИИ-приложения могут использоваться злонамеренно. К сожалению, подобные документы не только служат цели предупредить проблемы, но и подкидывают идеи в топку тех, кто находится по другую сторону баррикад и как раз не против использовать ИИ с намерениями, далекими от добропорядочных.

Впрочем, технология клонирования голоса также может быть использована для вполне невинных целей, а не так, как в фильме «Терминатор 2», где два робота, один «хороший», а другой «плохой», обмениваются репликами, имитируя голоса юного Джона Коннора и его приемной матери.

В качестве позитивных примеров использования клонирования голоса приводится следующий вариант — матери смогут настроить аудиокнигу с тем, чтобы текст читался их голосом. О том, что это крадет бесценные моменты общения с ребенком, и о теряемой в данном варианте обратной связи, эксперты умалчивают.

Большинство аналитиков подчеркивают, что такие технологии, способные обходить биометрическую идентификацию по голосу, необходимо контролировать.

Похожие статьи