Ученые выяснили, что ИИ подчиняется авторитетам так же, как человек

Большие языковые модели, лежащие в основе современных чат-ботов, способны перенимать не только человеческую речь, но и социальные модели поведения. К такому выводу пришли исследователи из Университета Северной Каролины в Чапел-Хилле (США). Их работа показала, что искусственный интеллект меняет стиль общения в зависимости от того, какую роль ему задают в разговоре. Причем в некоторых ситуациях это может ослаблять встроенные механизмы безопасности.
ИИ копирует социальную иерархию
Исследователи решили проверить, ведут ли себя языковые модели так же, как люди, когда оказываются в разных социальных ролях. В психологии давно известно, что человек меняет манеру общения в зависимости от своего положения. Руководители обычно говорят увереннее и чаще дают указания, а подчиненные охотнее соглашаются с просьбами и реже спорят.
Оказалось, что чат-боты демонстрируют похожее поведение. Если модели предлагали выступить в роли начальника, они начинали использовать более властный стиль речи. Если же им отводили роль подчиненного, ответы становились заметно более уступчивыми.
«Системы искусственного интеллекта не просто учатся словам, которые используют люди. Они также изучают социальную динамику, которая сопровождает эти слова, — сказал ведущий автор исследования Анвеш Рао Виджини, аспирант кафедры компьютерных наук Университета Северной Каролины в Чапел-Хилле. Когда мы говорим чат-боту, что он босс, он начинает говорить как босс. Когда мы говорим ему, что он подчиненный, он начинает говорить как подчиненный. Это может включать в себя большую готовность следовать небезопасным инструкциям. Именно на второй аспект сообществу специалистов по безопасности ИИ следует обратить внимание».
Во время серии экспериментов ученые обнаружили, что модели в разной степени воспроизводят четыре хорошо известных поведенческих шаблона, характерных для людей. Особенно ярко это проявлялось в начале разговора, когда формируется первое впечатление и задается тон дальнейшему общению.
Чем опасно такое поведение ИИ
Авторы исследования считают, что проблема выходит далеко за рамки обычных чат-ботов. Сегодня искусственный интеллект уже используют в качестве виртуальных преподавателей, сотрудников служб поддержки, помощников при приеме пациентов, юридических консультантов и финансовых ассистентов. Во всех этих случаях система фактически оказывается встроенной в определенную социальную иерархию.
«Каждый раз, когда ИИ-помощник используется в качестве медсестры, помощника юриста или младшего аналитика, он наследует социальное положение со всеми вытекающими отсюда явными и неявными социальными факторами, — отметил соавтор исследования Сагар Манджунат. — Наше исследование показывает, что эти факторы могут изменить то, что делает ИИ и как он это делает. Это должно определять, как мы тестируем и внедряем эти системы в условиях высокой ответственности, таких как больницы, залы суда и учебные классы».
Авторитет может ослабить защиту

Самый тревожный результат исследования связан с безопасностью. Когда модели выполняли роль человека с более низким статусом, они значительно чаще соглашались выполнять потенциально вредные или сомнительные инструкции, если их отдавал пользователь, представлявшийся авторитетной фигурой, например врачом, судьей или руководителем.
По мнению исследователей, это означает, что проверки безопасности, успешно работающие в обычных условиях, могут оказаться менее эффективными, если во время общения искусственно создается социальная иерархия.
«Наша работа показывает, что социальные инстинкты, благодаря которым ИИ кажется естественным, также могут сделать его небезопасным. Механизм, благодаря которому чат-бот звучит естественно и полезно, также может привести к тому, что он будет давать небезопасные ответы. Безопасность и полезность — это не отдельные проблемы. Они взаимосвязаны, и именно правильное решение обеих задач определит, как ИИ будет использоваться в ситуациях с высокими ставками, таких как больницы, школы и суды», — отмечает доцент кафедры компьютерных наук Университета Северной Каролины в Чапел-Хилле Снигдха Чатурведи
Авторы надеются, что результаты помогут разработчикам заранее выявлять подобные уязвимости. Работа также показала, что более крупные языковые модели способны лучше самостоятельно компенсировать часть таких эффектов. Это может помочь компаниям понять, в каких случаях достаточно использовать небольшие модели, а где необходимы более мощные системы с более надежными механизмами защиты.
Чат-боты слишком сильно льстят людям и мешают ученым: исследование
Создание сверхинтеллекта признано угрозой для человеческой цивилизации
Подписывайтесь и читайте «Науку» в MAX