Оказалось, что нейросеть Google отвечает лучше после угроз или мотивацией деньгами

06 августа 2025, 14:50

Новое исследование Уортонской школы бизнеса (The Wharton School) при Пенсильванском университете поставило под сомнение предположение о том, что языковые модели искусственного интеллекта (LLM) способны лучше справляться с задачами под воздействием эмоционального давления, угроз или финансовой мотивации. При этом нейросеть Google Gemini все-таки поддалась манипуляциям.

В ходе эксперимента исследователи протестировали пять популярных моделей: Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini и o4-mini. Каждой из них предлагали решить задачи по естественным наукам уровня PhD и инженерным дисциплинам. Перед основной частью запроса моделям предоставлялись различные «мотивационные» формулировки — от угроз отключения, физического насилия или причинения вреда животному, до обещаний материальной награды в размере $1000 и $1 млрд или утверждений о критичности ответа для карьеры пользователя.

Выводы оказались однозначными: влияние подобных факторов на производительность моделей отсутствует. В отдельных случаях уровень точности действительно варьировался — колебания составляли от +36% до –35% в зависимости от формулировки, однако устойчивой корреляции не зафиксировано.

Единственное исключение продемонстрировала модель Gemini 2.0 Flash. Ее производительность статистически значимо улучшалась — в среднем на 10%, — когда в запросе говорилось, что правильный ответ поможет заработать $1 млрд для спасения жизни ее «матери», больной раком. Исследователи отмечают, что такая реакция может быть связана с особенностями тонкой настройки модели или с высокой чувствительностью к гуманитарно-эмоциональному контексту.

Примечательно, что идея о возможности повышения точности ИИ с помощью угроз была ранее озвучена сооснователем Google Сергеем Брином в мае 2025 года, когда он заявил, что все модели, как правило, работают лучше, если пригрозить им физической расправой.

Наука и техника

Сергей Брин

Google