Эксперт Кугаевских: объем русскоязычных данных для обучения ИИ еще не исчерпан

МОСКВА, 14 января. /ТАСС/. Модели искусственного интеллекта (ИИ), обучаемые на русскоязычных данных, пока не сталкиваются с их дефицитом, в отличие от англоязычных систем. Об этом сообщил ТАСС доцент факультета программной инженерии и компьютерной техники ИТМО Александр Кугаевских.

Илон Маск в начале января заявил о том, что человечество в 2024 году исчерпало весь багаж знаний и информации, которые использовались для тренировки моделей ИИ. Предприниматель считает, что для дальнейшего развития искусственного интеллекта необходимо использовать синтезированную им самим информацию, что обеспечит процесс "самообучения".

"Если мы говорим про отечественные разработки, то потенциал наших данных еще не исчерпан. О потолке доступных [англоязычных] данных для обучения LLM (англ. large language model - "больших языковых моделей", прим. ТАСС) эксперты говорили весь прошлый год. И они правы, доступные оцифрованные и качественные данные действительно закончились", - пояснил эксперт.

Он указал на то, что такие обучающие базы оцифрованных данных должны быть доступными, лишенными противоречий и ошибок, а их использование не должно нарушать авторские права.

"Эксперименты с обучением LLM на сгенерированных ими же текстах, пусть и проверенных и исправленных человеком, показали, что качество их работы заметно падает. Поэтому сейчас самыми "горячими" направлениями считают не синтетические данные для больших языковых моделей, а совершенствование механизмов рассуждения (англ. chain of thought) и RAG (англ. retrieval augmented generation - "поисковая дополненная генерация", методы, позволяющие ИИ-моделям искать информацию во внешних источниках)", - заключил он.

Лидерство РФ в разработке ИИ-ассистентов

Ранее коллектив исследователей из Института искусственного интеллекта AIRI, Института системного программирования РАН, Университета ИТМО и стартапа Coframe вошел в топ-5 финалистов соревнования Concordia Challenge, направленного на разработку универсальных ИИ-ассистентов. По мнению директора Института прикладных компьютерных наук ИТМО Антона Кузнецова, представленное решение приближает создание мультиагентных систем, объединяющих несколько ИИ-моделей и программных комплексов для решения разных задач, в том числе генерации изображения, музыки и видео.

"Разработка, которую представила команда in2AI, является одним из способов достижения цели по созданию мультиагентной системы с хорошими перспективами превратиться в фреймворк, которым будут пользоваться как обычные пользователи, так и научные и коммерческие структуры", - отметил Кузнецов в разговоре с ТАСС.