AIRI: популярные модели ИИ теряют способность рассуждать при длинных контекстах

Российские исследователи создали подход, позволяющий оценивать то, насколько эффективно ИИ умеют анализировать контекст, сопоставлять события и делать выводы на основе нескольких взаимосвязанных суждений.

У популярных моделей ИИ выявили «коллапс рассуждения»
© Global Look Press

Проведенные при его помощи проверки показали, что популярные большие языковые модели теряют способность рассуждать в длинных наборах контекстов, сообщила пресс-служба Института искусственного интеллекта AIRI.

"Мы увидели не просто ухудшение качества на длинных контекстах, а коллапс рассуждения. На ряде задач даже ведущие модели проседают до уровня случайного угадывания ответа. Важно, что это не частный дефект одной архитектуры: у всех больших языковых моделей проявляется практически одинаковая кривая падения по мере роста длины контекста. Это указывает на системную природу проблемы", - заявил научный сотрудник AIRI Максим Куркин, чьи слова приводит пресс-служба института.

Как отмечают Куркин и его коллеги, в последние годы ученые активно работают над созданием систем ИИ, способных рассуждать, сопоставлять события и анализировать имеющийся у них контекст. Существующие подходы для оценки качества работы ИИ при решении этих задач устроены таким образом, что они позволяют проверять умение нейросети находить одиночные факты в "море" данных или анализировать одиночные события, но не их длинные цепочки.

Для закрытия этого пробела российские ученые создали тестовую задачу, которая моделирует перемещения пяти персонажей между шестью комнатами. В зависимости от постановки задачи, эти персонажи могут сделать несколько десятков или сотен перемещений между комнатами, что нейросеть должна запомнить и использовать при рассуждениях и подготовке ответов на вопросы, связанные с одним или несколькими раундами перемещений.

Используя этот подход, исследователи проверили 12 продвинутых больших языковых моделей со способностью к рассуждениям, включая GPT-4o, Qwen2.5, Deepseek-R1, VideoLLaMA и LLaVA-Video. Во всех случаях ученые зафиксировали резкое снижение в качестве и корректности рассуждений по мере нарастания числа перемещений персонажей между комнатами, причем на части сложных задач даже лучшие модели отвечали некорректно.

Данный результат, как отметил Куркин, не только указывает на полный коллапс способности ИИ к рассуждению при длинных наборах контекстов, но и подтверждает результаты исследования, проведенного специалистами AIRI в 2024 году. Тогда ученые обнаружили, что даже самые продвинутые ИИ способны использовать лишь 10-20% контекста при анализе длинных текстов, что резко снижает качество их работы. Это указывает на то, что серьезный прогресс в этой области потребует глубоких изменений в устройстве моделей, подытожили ученые.