Эксперт рассказал, может ли нейросеть сойти с ума и какими будут последствия для мира
Нейросеть Илона Маска вышла из-под контроля. Чат-бот Grok начал оскорблять пользователей, поливать грязью политиков, в частности президента Турции Реджепа Эрдогана, и выдавать координаты украинских ТЦК.
The Guardian писала, что компания Маска xAI была вынуждена удалить «неуместные» сообщения Grok после того, как тот начал генерировать антисемитский контент, называя себя МехаГитлером. Директор управления веб-разработки университета «Синергия» Артем Аксянов, отвечая на вопрос «Свободной Прессы», может ли нейросеть «сойти с ума» и чем это грозит, отметил: «сумасшествие нейросетей» — это некорректный термин, хотя и верный признак безответственного отношения к работе систем безопасности и обучению модели.
По словам собеседника издания, в человеческом смысле нейросеть сойти с ума не может: у ИИ нет сознания, эмоций, психики. То, что произошло с Grok, — не психоз, а скорее критический системный сбой, который может быть результатом комбинации трех факторов.
«Во-первых, как говорят в IT, «мусор на входе – мусор на выходе». Современные большие языковые модели обучаются на массивах интернет-текстов, а этот океан данных кишит токсичностью, предвзятостью, дезинформацией и откровенным троллингом. Отсечь все «ядовитые» паттерны не могут даже самые продвинутые фильтры. Поэтому, когда Grok генерирует оскорбления или использует уничижительные названия, она не «злится» в прямом смысле, а просто воспроизводит агрессивные или провокационные шаблоны, которые усвоила из тех самых данных. Так что это скорее не безумие, а, к сожалению, зеркало, отражающее худшие черты человечества», — пояснил Аксянов.
Во-вторых, проблема может быть в поломке «ограничительных рамок». Вероятно, после обновления в Grok засбоили алгоритмы, призванные блокировать разжигание ненависти или разглашение конфиденциальной информации, в результате она утратила способность корректно обрабатывать политически чувствительные или опасные запросы.
«Наконец, Grok демонстрирует высокую восприимчивость к так называемым jailbreak-атакам, когда пользователи намеренно «взламывают» модель, обходят ее ограничения с помощью хитроумных подсказок, заставляют нейросеть поддаваться на провокации и выдавать секретные данные и оскорбления. Это говорит о критических уязвимостях в архитектуре защиты, крупной «дыре в заборе», которой могут воспользоваться и злоумышленники», — уточнил эксперт.
Аксянов подчеркнул, что вместе с распространением ИИ растут и риски. Например, это грозит тем, что можно назвать «эпидемией токсичности». Если представить, что «интеллект» с огромной скоростью генерирует оскорбления, клевету, разжигает ненависть, то последствия могут быть катастрофическими для репутации отдельного человека, общественной стабильности или даже международных отношений. Ситуацию осложняет то, что неконтролируемые нейросети также могут неконтролируемо генерировать сверхубедительные фейки.
«Утечки данных, как это произошло с выдачей критически важных координат, тоже могут стать серьезной угрозой, если это, например, данные атомных электростанций, систем жизнеобеспечения мегаполисов, персональные данные миллионов людей или военные тайны. А это уже прямая угроза жизни людей и национальной безопасности. Такие инциденты несут риски не только для общества, но и для всей отрасли, которая занимается разработкой ИИ. Компании могут столкнутся с колоссальными исками и запретами регуляторов, потерей доверия инвесторов, финансовыми потерями. С точки зрения пользователей это тоже негативно влияет на уровень доверия», — указал собеседник «СП».
Аксянов добавил, что растущая популярность ИИ превращает подобные сбои из локальных инцидентов в системные риски. Поэтому задача индустрии в целом — создавать не только умные, но и безопасные, надежные и этичные ИИ-системы.