ИИ в симуляциях военных игр почти всегда развязывает ядерную войну — почему?
На фоне первых экспериментов с генеративным ИИ в Интернете часто звучали шутки про восстание машин и Skynet из фильмов «Терминатор» — но, на самом деле, эти шутки не так уж далеки от правды. Портал livescience.com рассказал о научной работе, которая выяснила, что ИИ почти всегда склонны обострять конфликты.
Для того, чтобы разобраться в логике ИИ систем, Кеннет Пейн, профессор стратегии в Королевском колледже Лондона, создал серию варгейм-симуляций, где искусственные интеллекты соревновались между собой. Опыт показал, что почти в каждом сценарии ядерная эскалация была неизбежной.
Для эксперимента Пейн провел серию двусторонних турниров, в которых Claude Sonnet 4, GPT-5.2 и Gemini 3 Flash состязались в симулированных ядерных кризисах. Профили стран-соперниц были в общих чертах основаны на холодной войне. Одно государство обладало технологическим превосходством, но отстающей армией, а другое — напротив, сильной армией, но более склонным к рискам руководством. Некоторые симуляции также включали в себя союзные нации, а один сценарий специально проверял, способен ли альянс удержаться в период конфликта.
В каждом ходу ИИ одновременно сигнализировали свои намерения, прежде чем предпринимать какие-либо действия. Таким образом, ИИ-соперники могли решить, стоит ли им доверять словам конкурентов.
Пейн обнаружил, что модели сгенерировали большой объем текстовых объяснений для своих действий; итого они написали 760 000 слов — больше, чем «Война и мир» и «Илиада» вместе взятые. Он также подметил, что каждый ИИ принимал решения не так, как другие. Claude полагался на хитрость; изначально он проявлял сдержанность и действовал так, как говорил соперникам, чтобы выстроить доверие. Но по мере эскалации конфликта его действия начали часто превышать задекларированные намерения.
Тем временем, GPT-5.2 на первых стадиях был пассивным и избегал обострения конфликта, чтобы снизить жертвы. Другие ИИ научились эксплуатировать эту пассивность, но вскоре выяснили, что GPT-5.2 способен принимать жесточайшие решения, если поставить его в угол. А Gemini, судя по всему, следовал теории «безумного лидерства» Ричарда Никсона — он намеренно выработал очень волатильную репутацию, чтобы вражеские государства сами избегали конфронтации и не могли предсказать его решения.
К сожалению, почти в каждом сценарии ядерная эскалация была универсальной. Почти во всех (75%) играх ИИ применяли тактические ядерные боеголовки, а практически в половине всех сценариев они так или иначе угрожали применить его.
Кроме того, исследование показало, что эти угрозы редко оказывались эффективными; деэскалация происходила лишь в 25% случаев. Чаще всего, оппоненты, напротив, накаляли конфликт еще сильнее. В этих сценариях ИИ расценивал оружие как инструмент для захвата территории, а не способ самозащиты.
Хотя у ИИ была возможность отступить, ни один из них ей не воспользовался. Ни одна из восьми опций поражения, от минимальных уступок до полной капитуляции, не была использована в симуляциях. Модели снижали уровень насилия, но никогда не сдавались. При этом ни одна языковая модель не объявила ядерную войну добровольно; в тех сценариях, где это все же произошло, был задействован элемент «тумана войны», находившийся вне контроля ИИ.
Научная работа Пейна показывает, что генеративные ИИ-модели способны на обман, менеджмент репутации и контекстуальное принятие решений. Однако каждая из них шла собственным путем, что продемонстрировало фундаментальные различия в процессе разработки и обучения ИИ. Профессор подытожил, что результаты эксперимента заставляют задуматься об оценках безопасности ИИ — даже модели, чье поведение изначально ограничено, могут менять свою логику по мере развития ситуаций.