Нейросети посадили за Dungeons & Dragons — результат удивил даже ученых
ИИ-модели интегрируются практически повсюду… Но могут ли они играть в настольные ролевые игры? Хорошо ли дастся продвинутым нейросетям, например, Dungeons & Dragons? Портал livescience.com рассказал об опыте, представленном на научной конференции в конце 2025-го.
Для того, чтобы быть успешными в игре, модели должны демонстрировать способность к планированию, коммуникации и памяти, а также знание тактики и намерений оппонента. D&D предоставляет контекст, в рамках которого сеттинг и правила четко обозначены, и выполняет роль своеобразного мостика между естественным языком и игровыми механиками.
Одной из моделей предстоит стать мастером подземелий — тем, кто создает историю и отыгрывает монстров; остальным же достанутся роли героев (в эксперименте был один мастер и четыре героя). По условиям опыта, который ученые назвали D&D Agents, модели могли играть либо с другими ИИ, либо с людьми. Например, языковая модель могла стать мастером, чтобы роли четырех героев поровну поделили люди и другие ИИ.
По мнению исследователей, D&D — площадка, которая хорошо подходит для проверки поэтапного планирования, способности следовать правилам и создавать командную стратегию. Поскольку игра разворачивается через диалог, D&D также открывает прямой канал для взаимодействия между людьми и ИИ: модели могут как помогать, так и играть с живыми игроками.
Правда, тут стоит отметить, что симуляция не повторяла кампанию в D&D целиком. Для эксперимента ученые сфокусировались на боевых сценариях, взятых из готового приключения Lost Mine of Phandelver. Для того, чтобы создать параметры теста, команда выбрала один из трех боевых сценариев в книге и набор из четырех персонажей. Каждый бой длился 10 ходов, после чего которых исследователи собирали результаты.
Итого в настольную ролевую игру сыграли три разные ИИ-модели: DeepSeek-V3, Claude Haiku 3,5 и GPT-4. D&D же выступал метрикой того, насколько хороши их навыки долгосрочного планирования и использования инструментов. Они важны и для реального мира: например, их учитывают при организации цепочек снабжения и проектировке производственных линий. Ученые также проверили, как хорошо модели могли координировать свои действия, что, в теории, применимо к чрезвычайным ситуациям в реальности.
Claude Haiku 3,5 продемонстрировал лучшую эффективность в бою, особенно в сложных сценариях. В сражениях попроще консервация ресурсов была примерно одинаковой у всех трех моделей; под ресурсами в контексте D&D подразумеваются, например, доступные заклинания или способности, а также целебные зелья. Поскольку ИИ участвовали в изолированных боевых сценариях, у них не было причин экономить ресурсы так же, как это делали бы игроки в рамках длинного приключения.
В наиболее сложных ситуациях Claude Haiku 3,5 был более склонен к сжиганию своих ресурсов, что приводило к лучшим результатам. GPT-4 шел сразу следом, а DeepSeek-V3 было тяжелее всего.
Опыт также оценил, как хорошо модели вживались в роли персонажей на протяжении симуляции. Для этого создатели эксперимента придумали специальную метрику «качество актерской игры», которая изолировала нарративную речь моделей и балансировала, как модели отыгрывали роли и сколько голосов они поддерживали во время игры.
DeepSeek-V3 был больше прочих склонен к пафосным восклицаниям от первого лица, но часто использовал одни и те же голоса. Claude Haiku 3,5 же больше подстраивал дикцию под отыгрываемых персонажей и монстров. GPT-4 был где-то посередине.
Примечательно, что самые интересные и оригинальные реплики ИИ выдавали, отыгрывая монстров. Разные существа постепенно обретали уникальные характеры. Исследователи считают, что тестирование на подобных задачах важно для оценки того, как модели могут функционировать без человеческого контроля в течение долгого времени. Подобные эксперименты позволяют изучить способность ИИ к независимым действиям, которые требуют памяти и стратегического мышления.