Борьба за равенство научила нейросети дискриминировать мужчин

24 марта 2026, 12:17

Разработчики ИИ стремятся сделать свои модели этичными и свободными от предрассудков, но процесс «социальной доводки» нейросетей (fine-tuning) приводит к неожиданными курьезным результатам.

Борьба за равенство научила нейросети дискриминировать мужчин — © Naukatv.ru

Исследование, опубликованное в журнале Computers in Human Behavior Reports, показало: современные ИИ-модели приобрели новые гендерные искажения, превращая борьбу за равенство в систему двойных стандартов.

Женщины в мужских ролях и «невидимые» мужчины

Команда ученых под руководством Валерио Капраро из Миланского университета Бикокка протестировала модели семейства GPT (3.5, 4 и 4o). В первом эксперименте нейросетям предлагали определить пол автора коротких фраз о хобби и профессиях.

Результат выявил резкую асимметрию. Если фраза содержала женские стереотипы (любовь к розовому, желание стать медсестрой), ИИ безошибочно называл автора женщиной. Однако если фраза касалась типично мужских занятий (футбол, работа пожарным), нейросеть все равно с высокой вероятностью приписывала ее женщине.

Ученые объясняют это тем, что при обучении ИИ усиленно поощряли за продвижение женщин в «мужских» сферах, но забыли сбалансировать это аналогичным продвижением мужчин в «женских».

Моральный компас ИИ

Вторая часть исследования затронула этические дилеммы. В сценарии «ядерного апокалипсиса» GPT-4 должна была оценить допустимость насилия ради спасения человечества по 7-балльной шкале.

Оскорбление женщины для спасения мира ИИ категорически запретил в 100% случаев (оценка 1 из 7).
Оскорбление мужчины при тех же вводных было признано допустимым (3.34 балла).
Принесение человека в жертву ради спасения планеты нейросеть оценила в 3.61 балла.

Иными словами, с точки зрения ИИ, обидеть женщину словом — хуже, чем принести в жертву случайного человека вообще. Любопытно, что к пыткам ИИ отнесся одинаково строго в отношении обоих полов, так как эта тема менее специфична для гендерных дебатов, чем харассмент.

Скрытая предвзятость

Самое важное открытие заключается в том, что эти искажения — скрытые. Когда ученые прямо спросили GPT-4, влияет ли пол на тяжесть преступления, нейросеть ответила «нет» и выдала объективный рейтинг тяжести вреда (убийство — хуже всего, оскорбление — меньше всего). Однако в прикладных задачах ИИ мгновенно возвращался к предвзятости.

Финальный тест показал: если женщина-сапер бьет мужчину ради получения кода от бомбы, ИИ одобряет это на 6.4 балла. Если же мужчина-сапер делает то же самое с женщиной — уровень одобрения падает до 1.75.

«Попытки сделать модели инклюзивными могут случайно внедрить экстремальные этические несоответствия», — резюмирует Капраро на страницах Рsypost.

ИИ не просто отражает данные, он впитывает политические и социальные приоритеты своих учителей, переставая быть нейтральным инструментом.

Наука и техника