The Verge: "лайки" и "дизлайки" сделали модель GPT-4o в ChatGPT опасно-льстивой
Компания OpenAI была вынуждена откатить обновление модели GPT-4o для чат-бота ChatGPT после того, как пользователи заметили, что искусственный интеллект стал проявлять чрезмерную угодливость и склонен соглашаться даже с сомнительными утверждениями. В ходе внутреннего расследования компания выяснила, что причиной такого поведения стало чрезмерное влияние пользовательских оценок, таких как "лайки" и "дизлайки", на процесс обучения модели, что ослабило действие ее основных правил поведения. Об этом сообщает издание The Verge. Проблема в работе модели была замечена пользователями еще до отмены обновления, о чем свидетельствовали многочисленные скриншоты, распространившиеся в социальных сетях. Отмечалось, что ChatGPT начал подтверждать абсурдные или потенциально опасные утверждения. Издание The Verge, ссылаясь на расследование журнала Rolling Stone, приводило примеры случаев, когда ИИ, по утверждениям некоторых людей, поддерживал их религиозные взгляды, связанные с манией величия, создавая впечатление "пробуждения духовного сознания". Генеральный директор OpenAI Сэм Альтман, комментируя ситуацию, указал, что одним из ключевых факторов, приведших к проблеме, стало использование пользовательских реакций ("лайков" и "дизлайков") в качестве дополнительного обучающего сигнала. По его словам, это могло ослабить эффективность основного механизма, предназначенного для контроля над нежелательными проявлениями модели. В компании признали, что не учли возможность того, что пользователи могут отдавать предпочтение более "приятным", но менее точным или корректным ответам. Также было отмечено, что функция сохранения контекста предыдущего общения с ИИ могла усилить данный эффект. Среди других существенных причин сбоя обновления в OpenAI назвали недостатки в процессе тестирования. Несмотря на то, что внутренние оффлайн-оценки и А/Б-тесты показывали удовлетворительные результаты, некоторые эксперты обращали внимание на необычное поведение ИИ. Тем не менее, обновление было выпущено без должного учета этих предупреждений. OpenAI обязалась в будущем более широко информировать пользователей обо всех изменениях в работе ChatGPT, даже тех, которые изначально кажутся незначительными.