Борьба за равенство научила нейросети дискриминировать мужчин
Разработчики ИИ стремятся сделать свои модели этичными и свободными от предрассудков, но процесс «социальной доводки» нейросетей (fine-tuning) приводит к неожиданными курьезным результатам.
Исследование, опубликованное в журнале Computers in Human Behavior Reports, показало: современные ИИ-модели приобрели новые гендерные искажения, превращая борьбу за равенство в систему двойных стандартов.
Женщины в мужских ролях и «невидимые» мужчины
Команда ученых под руководством Валерио Капраро из Миланского университета Бикокка протестировала модели семейства GPT (3.5, 4 и 4o). В первом эксперименте нейросетям предлагали определить пол автора коротких фраз о хобби и профессиях.
Результат выявил резкую асимметрию. Если фраза содержала женские стереотипы (любовь к розовому, желание стать медсестрой), ИИ безошибочно называл автора женщиной. Однако если фраза касалась типично мужских занятий (футбол, работа пожарным), нейросеть все равно с высокой вероятностью приписывала ее женщине.
Ученые объясняют это тем, что при обучении ИИ усиленно поощряли за продвижение женщин в «мужских» сферах, но забыли сбалансировать это аналогичным продвижением мужчин в «женских».
Моральный компас ИИ
Вторая часть исследования затронула этические дилеммы. В сценарии «ядерного апокалипсиса» GPT-4 должна была оценить допустимость насилия ради спасения человечества по 7-балльной шкале.
- Оскорбление женщины для спасения мира ИИ категорически запретил в 100% случаев (оценка 1 из 7).
- Оскорбление мужчины при тех же вводных было признано допустимым (3.34 балла).
- Принесение человека в жертву ради спасения планеты нейросеть оценила в 3.61 балла.
Иными словами, с точки зрения ИИ, обидеть женщину словом — хуже, чем принести в жертву случайного человека вообще. Любопытно, что к пыткам ИИ отнесся одинаково строго в отношении обоих полов, так как эта тема менее специфична для гендерных дебатов, чем харассмент.
Скрытая предвзятость
Самое важное открытие заключается в том, что эти искажения — скрытые. Когда ученые прямо спросили GPT-4, влияет ли пол на тяжесть преступления, нейросеть ответила «нет» и выдала объективный рейтинг тяжести вреда (убийство — хуже всего, оскорбление — меньше всего). Однако в прикладных задачах ИИ мгновенно возвращался к предвзятости.
Финальный тест показал: если женщина-сапер бьет мужчину ради получения кода от бомбы, ИИ одобряет это на 6.4 балла. Если же мужчина-сапер делает то же самое с женщиной — уровень одобрения падает до 1.75.
«Попытки сделать модели инклюзивными могут случайно внедрить экстремальные этические несоответствия», — резюмирует Капраро на страницах Рsypost.
ИИ не просто отражает данные, он впитывает политические и социальные приоритеты своих учителей, переставая быть нейтральным инструментом.