Кто такой DimaTorzok? Эксперты объяснили, как устроены галлюцинации нейросетей
Каждый, кто хоть раз пользовался ботом или нейросетью для расшифровки аудиозаписей, скорее всего наталкивался в полученном тексте на загадочную фразу "Субтитры сделал DimaTorzok". Кто-то считает, что это своего рода "подпись" нейросети, кто-то - что это неправильно интерпретированная речь на аудиозаписи или галлюцинация. И это действительно она. Но кроме того, это еще и отличный пример того, как именно галлюцинируют нейросети.
Изначально феномен возник из-за особенностей обучения модели Whisper. Это нейросеть компании OpenAI, которая автоматически распознает речь. Whisper используется, например, в Telegram и сети Х (ранее Twitter, заблокирована в РФ), а также во множестве мобильных приложений и веб-сервисов. Компания OpenAI обучала модель с помощью видео на платформе YouTube. Нейросеть Whisper прослушивала миллионы часов аудиозаписей, но дело не столько в этом. Все немного сложнее.
Нейросеть обучалась на огромном количестве пар "аудиодорожка → субтитры", рассказывает Константин Соболев, руководитель группы "Генеративный ИИ для видео" Института AIRI. По словам эксперта, в этих данных существовал очень устойчивый паттерн: в конце видео или фильма после основной речи часто появляются титры или подписи вроде "Subtitles by …", "Translated by …" и другие креды авторов субтитров.
"Модель выучила статистическую закономерность: если аудио подходит к концу, особенно если там начинается музыка, шумы или просто тишина, то велика вероятность, что дальше должны идти подписи. Проблема в том, что нейросеть не понимает смысл происходящего так, как человек. Она не знает, что тишина - это просто отсутствие речи. Вместо этого она пытается продолжить наиболее вероятный шаблон текста, который много раз видела во время обучения. Поэтому возникает характерная галлюцинация Whisper: в конце записи, где уже никто ничего не говорит, модель внезапно дописывает строки вроде "Subtitles by …". А поскольку имя DimaTorzok, предположительно, встречалось в обучающих данных особенно часто - человек действительно сделал огромное количество субтитров, - модель начинает регулярно вставлять именно "Subtitles by DimaTorzok"", - поясняет Соболев.
Это действительно так - в обучающие данные попали видео с канала GMD13. Некий человек с ником DimaTorzok делал для них субтитры в период с 2005 по 2022 год. Данные об этом есть в частности на профильных ресурсах. Сейчас реального пользователя DimaTorzok нет в интернет-среде, а его имя стало "цифровым призраком".
Соболев добавляет, что это очень хороший пример того, как работают галлюцинации языковых и speech-to-text (речь в текст) моделей. "Галлюцинация - далеко не случайный сбой и не "фантазия" в прямом смысле. Обычно модель просто продолжает наиболее вероятный паттерн на основе статистики обучающих данных. Если во время обучения тишина в конце записи часто соседствовала с титрами субтитров, то и в новых данных модель начинает ожидать эти титры даже там, где их нет", - объясняет эксперт.
Таким образом обычная работа переводчика благодаря восприятию нейросети была масштабирована и стала своего рода интернет-феноменом, которому посвящены специальные ресурсы. Потому что вопрос "кто такой DimaTorzok" возникает все чаще и чаще.
На вопрос о том, почему DimaTorzok стал популярным интернет-феноменом, ответил психолог и член международной ассоциации психологов, Родион Чепалов: "Во-первых, эффект узнавания. Когда человек много раз сталкивается с необычной фразой, мозг начинает замечать ее все чаще. Это разновидность избирательного внимания. Многие пользователи начинают видеть знакомый мем даже там, где раньше не обратили бы на него внимания. Во-вторых, работает механизм коллективной идентичности. Для части аудитории DimaTorzok стал своеобразным культурным паролем. Узнавание создает ощущение принадлежности к определенному интернет-поколению и общему культурному опыту. В-третьих, людям свойственно очеловечивать технологии. Современные алгоритмы, системы распознавания речи и нейросети воспринимаются как нечто безличное. Появление конкретного имени превращает технический процесс в историю с персонажем, которого можно обсуждать, запоминать и наделять чертами характера".
Таким образом DimaTorzok стал не просто ошибкой в обучении нейросети, а цифровым культурным феноменом.