IT-компании России стали чаще делиться своей базой для разработки

Российские IT-компании стали все чаще делиться своей базой для разработки: наборами данных и моделями. Недавно "Яндекс" опубликовала датасет Yambda для обучения рекомендательного ИИ, а МТС открыла доступ к большой языковой модели для написания компьютерного кода. Эксперты указывают, что использование реальных наработок снижает порог входа в индустрию для стартапов и молодых разработчиков.

IT-компании России стали чаще делиться своей базой для разработки
© Российская Газета

Модели компаний-разработчиков часто требуют платной подписки или соблюдения жестких лицензионных условий. Открытые модели обладают преимуществом - их можно использовать для локального развертывания, например, для тестирования ИИ в защищенной среде без передачи данных в облако. Разработчики настраивают такие модели под конкретные задачи, а исследователи изучают их архитектуру для совершенствования алгоритмов, отмечают в MWS AI.

"Доступность данных, безусловно, помогает в исследованиях. Недаром создано столько различных баз данных, например, Materials Project или сайт GitHub. Какие-то модели мы можем использовать напрямую или обучать на своих данных. Но чаще всего приходится самим проводить множество расчетов, создавать базу для обучения, а также совершенствовать имеющиеся коды. Часто данные из открытого доступа недостаточно узкоспециализированы", - рассказала аспирант "Сколтеха", сотрудник группы промышленно-ориентированного поиска материалов Александра Радина.

По ее словам, сегодня специалисты используют для обучения ИИ все базы данных и коды, которые подходят под конкретную задачу и находятся в открытом доступе.

Александр Плошкин, руководитель направления по развитию качества персонализации в "Яндексе", отмечает, что современные алгоритмы требуют гораздо больших объемов данных для обучения, чем можно найти в открытом ПО. Коммерческие решения обычно используют терабайты данных, но они недоступны исследовательскому сообществу, так как компании редко публикуют данные из-за их бизнес-ценности, что вынуждает исследователей использовать устаревшие и небольшие наборы данных.

"Компании, которые являются лидерами в области рекомендательных систем, стремятся к решению проблемы нехватки данных и выкладывают свои датасеты, так как это способствует развитию экосистемы вокруг технологий и стимулирует инновации в отрасли, позволяя вузам, исследователям и разработчикам экспериментировать с новыми подходами. От этого в конечном счете зависит развитие самого бизнеса", - добавляет эксперт.

"VK в прошлом году запустил инициативу OpenVK - проекты с открытым исходным кодом по нескольким направлениям: IT-системы, инструменты и библиотеки для разработчиков, модели искусственного интеллекта. Она способствует обмену знаниями и опытом между профессионалами IT-отрасли и направлена на поддержку и развитие сообщества разработчиков", - рассказал директор VK по AI Дмитрий Кондрашкин.

Ранее AI VK открыл доступ к датасету рекомендательных систем для соревнования по предсказанию явного фидбека пользователей для ML-специалистов, чтобы эксперты могли тестировать алгоритмы и находить лучшие решения в реалистичных условиях.

Компания часто сотрудничает с вузами: в НИУ ВШЭ учат специалистов машинному обучению, развитию высоконагруженных систем и технологиям ИИ, а в МФТИ будут обучать студентов на магистратуре "ИИ и социальные медиа".

"Хорошо себя показывает формат совместных научных лабораторий. В них студенты под руководством опытных менторов решают актуальные R&D-задачи бизнеса. Полезной для сообщества в целом является практика подключения университетов и институтов в разработку решений с открытым кодом, создаваемых IT-компаниями. Речь здесь идет не только о студентах, но и аспирантах и научных сотрудниках исследовательских центров", - отмечает руководитель фронтирной лаборатории в исследовательском центре "Сильный ИИ в промышленности" ИТМО Николай Никитин.

В подготовке кадров Open Source-практики существенно снижают барьеры для вовлечения студентов в реальные проекты и позволяют выполнять в рамках учебы разработки, обладающие практической значимостью. Развитие культуры открытости важно для укрепления позиций России в глобальной ИИ-экосистеме, добавляет Никитин.

В ИТМО отмечают, что совместные научные лаборатории объединяют лучшие стороны индустриальных и академических форматов работы, концентрируют ресурсы на конкурентоспособных продуктах, а не распыляют кадры на создание множества похожих решений. Такой подход взаимовыгоден - он позволяет уйти от практики найма студентов на полный день в ущерб учебе.