Несколько часов и никаких навыков программирования: как сделать дипфейк с синхронизацией губ
Для создания дипфейка вам понадобятся видео с нужным объектом и аудиодорожка, которую вы хотите в него вставить. Если объединить их с помощью кода, то получится ролик, в котором несколько киноперсонажей исполняют песню All Star группы Smash Mouth: Или Трамп говорит с ирландским акцентом: Поиск алгоритмов Эти видео — не те дипфейки, которые предназначены для подрыва демократии и информационной войны. Они даже не особо убедительны, скорее, просто забавны. Как написал в Twitter ирландский дизайнер Джеймс Келлехер, создавший дипфейк с королевой Великобритании, для этого видео он использовал инструмент, опубликованный некоторыми исследователями ИИ. Статья с описанием метода Wav2Lip, была опубликована несколько недель назад. Авторы призывают всех желающих попробовать его. Демо-версия изначально находилась в свободном доступе, но сейчас для ее использования требуется регистрация. К. Р. Праджвал из IIIT Hyderabad, один из авторов инструмента, объясняет: это нужно, чтобы его не использовали в недобрых целях. При этом он признал, что регистрация не «удержит серьезного преступника, который хорошо разбирается в программировании». «Мы определенно признаем обеспокоенность людей тем, что эти инструменты находятся в свободном доступе, и поэтому настоятельно рекомендуем пользователям кода и сайта указывать, что видео созданы искусственно», — сказал Праджвал. Он и его коллеги-исследователи отмечают, что программа можно применять для таких полезных целей, как создание анимации и дублирование видео на новые языки. Праджвал добавляет: они надеются, что предоставление кода будет «способствовать плодотворным исследованиям систем, которые смогут эффективно бороться с его неправильным использованием». Неудачная попытка Вот как я первоначально попытался сделать дипфейк. Я нашел видео с Тимом Куком и аудио с речью Джима Керри. Я загрузил видео с помощью функции записи экрана Quicktime, а аудио — с помощью приложения Piezo. Затем я взял оба файла, загрузил их на сайт и стал ждать, однако ничего не произошло. По какой-то причине демо-версии они не понравились. Я попытался сделать новые файлы и уменьшить их разрешение, но это ничего не изменило. Это стало важным моментом в моем опыте создания дипфейков: появлялись случайные препятствия, а у меня не было технического опыта, чтобы их проанализировать. В конце концов я сдался и позвал Келлехера на помощь. Он предложил мне переименовать файлы, чтобы удалить все пробелы. Я так и сделал, и это сработало. Теперь у меня было видео с Тимом Куком, произносящим текст Джима Керри для проб к фильму «Лемони Сникет: 33 несчастья». Это было ужасно — как с точки зрения правдоподобности, так и юмора — но все равно это было мое достижение. Google Colab: место моих многочисленных сражений с алгоритмом Wav2Lip. Скриншот: Джеймс Винсент Переход в Colab Чтобы улучшить результат, я захотел самостоятельно запустить алгоритмы. Для этого я пошел на GitHub, где создатели Wav2Lip разместили базовый код. Для запуска нужно было использовать Google Colab: это эквивалент Google Docs для программирования, который позволяет работать с проектами машинного обучения в облаке. Опять же, всю работу за меня сделали авторы алгоритма, которые выложили код с простыми этапами. Но это не помогло избежать ошибок. К счастью, многие из проблем помог решить этот видеоурок с YouTube. Посмотрев его несколько раз и потратив часы на устранение неполадок, я наконец-то получил рабочую модель. Окончательный результат В ходе дальнейших экспериментов я узнал о некоторых особенностях программы (например, что ей труднее обрабатывать лица, которые не смотрят прямо в камеру) и решил создать свой дипфейк: видео с Илоном Маском, произносящим речь Тима Карри из Command & Conquer: Red Alert 3. Что мне дал этот опыт? Инструменты для создания дипфейков действительно доступны, но все равно это не так уж легко. Алгоритмы существуют уже много лет, и их может использовать любой, кто готов потратить несколько часов. При этом по-прежнему гораздо проще отредактировать видео с помощью традиционных методов. С другой стороны, скорость распространения этой технологии впечатляет. Алгоритм синхронизации губ Wav2Lip был создан международной группой исследователей, связанных с университетами Индии и Великобритании. Они поделились своей работой в интернете в конце августа, и затем она была подхвачена в Twitter и тематических рассылках (например, хорошо известной Import AI). Исследователи сделали код доступным и даже создали публичную демо-версию. В течение нескольких недель люди по всему миру начали экспериментировать с алгоритмом, создавая дипфейки ради удовольствия или для контент-целей. По запросу Wav2Lip на YouTube можно найти учебные пособия, демо-версии и множество других примеров дипфейков. Источник. Фото на обложке: FrameStockFootages / Shutterstock