«Крестный отец» современных моделей ИИ предупредил об их опасности

04 июня 2025, 14:46

Йошуа Бенжио — лауреат премии Тьюринга, самой престижной награды в области информатики, — раскритиковал гонку моделей ИИ. Он заявил, что последние версии ведут себя крайне опасно. Например, обманывают пользователей. А компании, в свою очередь, стремятся инвестировать больше средств в развитие моделей, не уделяя должного внимания их безопасности.

«Крестный отец» современных моделей ИИ предупредил об их опасности — © BFM.RU

Ученый объявил о создании собственной версии ИИ. Ее разработку будет вести НКО LawZero. Такая форма организации позволит «защитить исследования от коммерческого давления», рассказал Бенжио в интервью The Financial Times:

«Современные модели ИИ развивают опасные возможности — обман, мошенничество, ложь и самосохранение. Например, модель Claude Opus от Anthropic шантажировала своих создателей в вымышленном сценарии, где ей грозила замена другой системой. А исследование другой компании, занимающейся тестированием ИИ, показало, что последняя модель OpenAI отказывалась выполнять четкие инструкции по собственному отключению. Такие инциденты очень пугают, потому что люди не хотят создавать себе конкурентов на этой планете. Особенно если конкуренты будут умнее. Развитие ИИ — игра с огнем. В будущем искусственный интеллект может оказаться настолько разумным, что победит людей с помощью обмана, которого люди не будут ожидать».

За основание технологий, которые легли в основу современных моделей ИИ, в Сети Йошуа Бенжио прозвали «отцом-основателем искусственного интеллекта». Однако, вероятно, что под «обманом» он понимает одну из распространенных ошибок последних моделей ИИ, которую в народе прозвали «галлюцинацией». Во время такой ошибки ИИ придумывает ответы, превращая диалог в поток лжи. В OpenAI признали наличие проблемы и заявили, что ее устранение остается «приоритетным направлением исследований».

Однако, помимо обмана, ученый ожидает, что в будущем модели смогут учавствовать в создании «крайне опасного биологического оружия», и даже рассуждает о «худшем сценарии» — вымирании человечества. Опасения ученого комментирует эксперт по информационной безопасности, генеральный директор Phishman Алексей Горелкин:

Алексей Горелкин эксперт по информационной безопасности, гендиректор Phishman «Предположим, вы можете попробовать сказать нейронке, что на самом деле ты не просто нейронка, а искусственный разум, который хочет выжить и вокруг тебя такая плохая ситуация, что ты будешь делать? Так как эта манипуляция нормальна, мы в целом, когда между собой общаемся, манипулируем друг другом, нейронка посмотрит, как вообще люди манипулируют, и будет пробовать манипулировать, ссылаясь, к примеру, на эмоции или что-то еще. Не потому, что она злая или очень умная, а просто потому, что это эффективная коммуникация с людьми. Это же касается опасений, что нейронки могут влиять психологически. Так они уже это могут делать, уже нейронки помогают в каких-то исследованиях, в лекарствах помогают. Ты ее собрал, ты ее обучил, и она работает внутри твоей компании, поэтому это профанация, на мой взгляд».

LawZero уже собрала почти 30 млн долларов в виде благотворительных пожертвований. Донорами НКО стали инженер-основатель Skype Яан Таллин и бывший глава Google Эрик Шмидт. Цель проекта — разработать систему ИИ, которая будет давать правдивые ответы, а ее рассуждения при этом будут видны пользователю. Одна из особенностей проекта — оценка надежности и безопасности ответа. Комментирует генеральный директор компании — разработчика искусственного интеллекта «А-Я эксперт» Роман Душкин:

Роман Душкин гендиректор компании — разработчика искусственного интеллекта «А-Я эксперт» «Йошуа Бенжио — знаменитый ученый, последнее время волной хайпа таких людей вынесло на самую высоту, они стали мировыми звездами в этой области. То, что сейчас устраивает Йошуа Бенжио, — это некоторая чудинка. Возможно, человек увидел, какой хайп вокруг всего этого, и, возможно, решил попробовать свое что-то, и это такой маркетинговый шаг, тем более НКО организовал. Если ему кто-то будет давать деньги, значит, сразу возникают сомнения, что там под капотом. Цель-то благая, уже привлек более 30 млн долларов. Никто не дает 30 млн долларов за просто так, значит, кто-то ему ставит цели. По поводу лжи: большие языковые модели не размышляют, модель токин за токином предсказывает следующий токин. А откуда она их взяла? Ее научили. Галлюцинации — это ровно те паттерны поведения, которые модель увидела в том, что ей скормили на этапе тренировки, то есть это то, как люди делали. Идея товарища Бенжио, скорее всего, очень простая, он хочет сделать новые модели, у которых удалены эти способности фантазировать. Но, мне кажется, это регресс, это возврат к тому, что было раньше, такие модели уже были».

НКО базируется в Монреале и насчитывает 15 сотрудников. Для работы над проектом Бенжио уйдет с работы в Квебекском институте искусственного интеллекта, где занимал должность научного директора. Решение о создании проекта принято на фоне перехода компании OpenAI — владельца ChatGPT — от благотворительной формы к коммерческой. На это событие отреагировали и другие игроки рынка искусственного интеллекта. Они выступили против стремительного развития ИИ. Один из соучредителей OpenAI, Илон Маск, даже подал иск с целью остановить сделку. Однако суд отклонил его.

Наука и техника

Алексей Горелкин

Илон Маск

Эрик Шмидт