Слово «отравление» мы обычно связываем со здоровьем человека или с экологией. Но теперь этот термин все чаще звучит в сфере цифровых технологий. Речь идет об «отравлении» искусственного интеллекта — новой и скрытой угрозе, которая может подорвать доверие к умным алгоритмам.
Последние исследования показывают, что эта опасность реальна. Ученые из Британского института безопасности ИИ, Института Алана Тьюринга и компании Anthropic выяснили: чтобы незаметно «отравить» большую языковую модель, такую как ChatGPT или Claude, злоумышленникам достаточно добавить всего 250 вредоносных примеров в миллионы строк ее учебных данных. Исследование опубликовали в журнале Computer Science.
Простыми словами, «отравление ИИ» — это умышленное обучение нейросети неправильным действиям с целью исказить ее знания или поведение. В результате модель начинает работать с ошибками, неэффективно или даже скрытно выполнять вредоносные команды.
Представьте, что студенту незаметно подсунули несколько шпаргалок с неверными ответами. На экзамене, увидев знакомый вопрос, он автоматически даст неправильный ответ, будучи абсолютно уверенным в своей правоте. Точно так же «отравленные» данные заставляют ИИ ошибаться.
Специалисты выделяют два основных типа атак.
Исследования доказывают, что отравление данных — это не теория, а реальная и масштабируемая угроза. В другом эксперименте, проведенном в январе, ученые показали, что замена лишь 0,001% данных в учебном наборе медицинской дезинформацией привела к тому, что модель стала чаще давать вредные советы по лечению. При этом по стандартным тестам она все еще выглядела «здоровой».
Был и наглядный пример — модель PoisonGPT. Ее специально обучили распространять ложную информацию, при этом со стороны она выглядела абсолютно нормально. Такие технологии не только вводят людей в заблуждение, но и создают новые риски для кибербезопасности. Вспомним инцидент с ChatGPT в марте 2023 года, когда из-за ошибки на короткое время стали видны данные пользователей.
Любопытно, что некоторые художники теперь сами используют «отравление» как защиту. Они специально портят свои работы, выкладываемые в сеть, чтобы системы ИИ, копирующие контент без спроса, выдавали в итоге непригодный результат.
Все это доказывает, что несмотря на весь ажиотаж вокруг искусственного интеллекта, эта технология гораздо более уязвима, чем кажется на первый взгляд. И вопрос ее безопасности становится одним из самых острых в цифровую эпоху.