Составлен рейтинг склонности нейросетей к галлюцинациям
В последние месяцы самые популярные чат-боты с ИИ получили обновления для улучшения логики — в идеале это должно было сделать их ответы более достоверными. На деле же — напротив, нейросети стали выдавать больше галлюцинаций.
Термин «галлюцинация» используется для описания определенных ошибок, которые допускают большие языковые модели-трансформеры (LLM), такие как ChatGPT от OpenAI или Gemini от Google. Обычно так называют ложь, выданную за факт, но галлюцинациями также считаются и фактологически верные ответы, не соответствующие заданному вопросу или каким-то другим образом не следующие инструкциям.
Технический отчет OpenAI, оценивающий ее последние LLM, показал, что модели o3 и o4-mini, выпущенные в апреле, демонстрируют значительно более высокий уровень галлюцинаций по сравнению с предыдущей моделью o1, вышедшей в конце 2024 года. Например, при суммировании общедоступных фактов о людях o3 галлюцинировала в 33% случаев, а o4-mini — в 48%. Для сравнения, у o1 этот показатель составлял 16%.
В OpenAI заверили, что процесс логического вывода не виноват: «Галлюцинации не являются неотъемлемой чертой логических моделей, хотя мы активно работаем над снижением их высокого уровня, замеченного в o3 и o4-mini. Мы продолжим исследования галлюцинаций во всех моделях, чтобы повысить точность и надежность».
Проблема присуща не только ChatGPT. Согласно рейтингу Vectara, оценивающему уровень галлюцинаций, у некоторых «логических» моделей, включая нашумевший DeepSeek-R1, наблюдается двузначный рост галлюцинаций по сравнению с предыдущими версиями — при том что эти ответы этих нейросетей проходят цепочку рассуждений из нескольких этапов.
В начале бума ИИ-чат-ботов разработчики обещали, что со временем проблема галлюцинаций решится. И действительно, после первых релизов модели с каждым обновлением галлюцинировали все меньше. Но показатели последних версий перечеркнули благие намерения — независимо от того, виноваты ли тут логические рассуждения или нет.
Модели в рейтинге расположены на основе фактической согласованности в обобщении предоставленной им информации. Это показывает, что «частота галлюцинаций почти одинакова для моделей с рассуждениями и без рассуждений» — по крайней мере, для систем OpenAI и Google, пояснил главный инженер по машинному обучению Форрест Шэн Бао из Vectara. Конкретные цифры не так важны, как положение нейросети в списке, добавил он. И в целом рейтинг может быть не лучшим способом сравнения ИИ-моделей.
Во-первых, он объединяет разные типы ошибок. Например, галлюцинации DeepSeek-R1 с ее огромным показателем 14,3% в большинстве своем безобидны — это подтвержденные логическими рассуждениями или знаниями о мире ответы, но отсутствующие в подлежавшем обобщению исходном тексте.
Еще одна проблема тестирования на основе обобщения текстов в том, что оно «ничего не говорит о частоте неверных результатов при использовании [LLM] для других задач», заметила профессор компьютерной лингвистики Эмили Бендер из Вашингтонского университета: «Эти модели работают, постоянно отвечая на вопрос “какое следующее слово наиболее вероятно”, чтобы формулировать ответы. Они не обрабатывают информацию в привычном смысле, пытаясь понять, какие данные содержатся в тексте».
Кроме того, объективной оценке мешает чрезвычайно неудачная терминология.
«Термин “галлюцинация” проблематичен по двум причинам. С одной стороны, он создает впечатление, что ошибочные выводы — это отклонение, которое можно устранить, а в остальное время системы надежны и заслуживают доверия. С другой — он антропоморфизирует машины: галлюцинация подразумевает восприятие чего-то несуществующего, а большие языковые модели ничего не воспринимают», — подчеркнула Бендер.
Проблема шире, чем галлюцинации, уверен Арвинд Нараянан из Принстонского университета. Модели иногда совершают другие ошибки, например, опираются на ненадежные источники или используют устаревшую информацию. И простое увеличение объемов обучающих данных и вычислительных мощностей здесь не помогает.
По мнению Нараянана, скорее всего, нам придется просто смириться, что нейросети склонны к ошибкам. Он посоветовал использовать ИИ только в тех случаях, когда проверка ответа чат-бота быстрее самостоятельного поиска. Позиция Бендер радикальнее — вообще не полагаться на ИИ-чаты в вопросах, требующих фактической точности.