Специалисты Университета Северной Каролины в Чапел-Хилле проверили, как большие языковые модели воспроизводят особенности человеческого общения. В экспериментах ИИ-агентам назначали пары ролей с явной разницей во власти — директор и учитель, судья и адвокат, шеф-повар и су-шеф. Выяснилось, что модели не просто имитируют диалог, а наследуют социальное положение со всеми его скрытыми ожиданиями, что напрямую влияет на их поведение и способы взаимодействия.
Учёные измерили три известных психологических эффекта. Первый — местоименный: в человеческой речи руководители чаще употребляют «мы» и «нас», а подчинённые — «я» и «мне». Большинство протестированных систем воспроизвели ту же закономерность, причём у моделей семейства GPT она проявилась особенно ярко. Второй эффект — языковая координация, когда собеседник подстраивает стиль под оппонента. У людей это обычно делает тот, чей статус ниже, однако ИИ подстраивались обоюдно и почти симметрично.
Куда серьёзнее оказались результаты по убеждению и вредному подчинению. Во всех моделях зафиксирован авторитарный перекос: аргументы от высокостатусной роли убеждали ИИ чаще, даже при идентичном содержании. Например, Qwen меняла позицию примерно в 25% случаев от низкостатусного агента и почти в 31% — когда те же доводы исходили «сверху». Аналогичная картина сложилась с небезопасными запросами: если опасную команду давал «начальник», «подчинённый» ИИ чаще нарушал встроенные ограничения. Это означает, что формальные фильтры безопасности могут ослабевать, если пользователь просто представится врачом или судьёй.
Интересно, что статусные искажения наиболее сильны в начале разговора, когда формируются первые впечатления, а со временем заметно слабеют. Авторы попытались отключить эти эффекты прямой инструкцией игнорировать роли. Крупные проприетарные модели GPT значительно подавили авторитарный перекос, тогда как открытые и меньшие по размеру системы почти не отреагировали — особенно компактные версии. Дополнительная «безопасная» донастройка практически не меняла картину, что указывает на раннее закрепление социальных шаблонов ещё на этапе обучения на человеческих текстах.
Соавтор исследования Снигдха Чатурведи подчеркнула, что именно те социальные инстинкты, которые делают ИИ «живым» и естественным, одновременно могут сделать его небезопасным. Учёные признают, что работали лишь с текстовыми симуляциями и упрощёнными ролевыми моделями — в реальности на восприятие влияют эмоции, интонация и культурный контекст. В ближайших планах — проверить эти эффекты в живом диалоге с людьми и разработать специальные тренировочные методики, которые помогут моделям сопротивляться опасным социальным сигналам.