Искусственный интеллект теряет точность из-за обучения на сгенерированных данных
Сегодня все больше языковых моделей обучаются на данных, сгенерированных другими нейросетями. Появился термин Model collapse - процесс, при котором модели искусственного интеллекта (ИИ) теряют способность точной работы из-за обучения на сгенерированных ранее данных. Эксперты отмечают, что уже появились методы, способные сохранить надежность ИИ-систем.
К грязным данным относятся некорректные или некачественные наборы информации, содержащие ошибки, искажения, неправильный контекст или нестабильное форматирование. Они могут включать в себя ложные факты, неполные фразы, неестественные языковые конструкции, а также дублирование и шаблонность. При обучении на таких данных модель усваивает ошибочные или упрощенные паттерны, и это снижает ее работоспособность.
Андрей Кулинич, ведущий преподаватель МИРБИС и ИИ-архитектор, указывает на две основные причины "загрязнения" данных. Первая - неполнота информации, когда модель при генерации может опускать детали или делать ошибочные выводы. Вторая - проблема испорченного телефона: если модель, обученная на синтетических данных, будет генерировать "синтетику" для других моделей, то происходит вырождение - накопление ошибок и потеря связи с реальными фактами.
"Под термином model collapse подразумевают деградацию знаний ИИ-модели, когда она со временем теряет способность распознавать редкие паттерны, теряя свою полезность для решения практических задач", - отмечает руководитель научной группы "Адаптивные агенты" Института AIRI Владислав Куренков.
Он добавляет, что синтетические данные от других ИИ - полезный инструмент, но для их эффективного применения необходима доработка и фильтрация, а также четкое понимание задачи использования. В "сыром виде" они могут быть искажены спецификой предыдущей ИИ-модели, а это может привести к "имитации имитации", ухудшая качество работы модели.
"Некоторые разработчики внедряют специальные метки для идентификации текстов, созданных моделями - "водяные знаки". Но только на такие методы полагаться нельзя. Решением является тщательная предварительная обработка: удаление синтетических данных из обучающей выборки, оценка надежности источников, фильтрация сомнительных материалов и методы "выравнивания" моделей", - рассказал заведующий лабораторией нейронных систем и глубокого обучения Исследовательского центра агентных систем ИИ МФТИ Попов Александр.
Существуют рекомендации сообщества разработчиков в виде кодексов этики, а также регуляторные требования к решениям в отдельных отраслях. Однако в целом общепринятых методов борьбы с ростом объемов данных, генерируемых в интернете, пока нет.
В AIRI добавляют, что для предотвращения деградации разработчики применяют методы отслеживания происхождения данных, фильтрации синтетических источников и приоритизации примеров, созданных человеком. Кроме того, активно используется обучение с человеческой оценкой (RLHF) и регулярное обновление данных на свежих и достоверных источниках.
"Если мы хотим от ИИ точности и языковой гибкости, необходимо строже подходить к выбору обучающего корпуса. Самый надежный способ - использовать авторскую художественную или научно-техническую литературу и материалы профессиональных журналистов. Технически можно оценивать частотность и разнообразие токенов перед включением контента в корпус, чтобы контролировать качество данных на входе", - отмечают в Ассоциации больших данных.
На уровне отрасли в России пока нет единых стандартов отбора данных. Компании самостоятельно создают корпуса для обучения, и некоторые выкладывают их в открытый доступ, чтобы поддерживать развитие ИИ в стране.
"Чтобы минимизировать риски деградации модели, важно сохранить в фундаменте обучения реальные данные и контролировать долю синтетических - они не должны превышать 20-30% от всего обучающего корпуса модели. Важно использовать проверенные источники, а также регулярно очищать датасеты от ошибок", - заключает руководитель продуктового ML-направления Yandex Cloud Артур Самигуллин.