Голландские ученые разогнали ИИ благодаря российскому датасету

Работа ученых была посвящена улучшению перспективной модели под названием SEATER. Обычные рекомендательные системы работают по принципу подбора из готового списка, перебирая варианты. SEATER же организует весь каталог товаров или треков в иерархическую структуру, похожую на дерево папок у вас на компьютере. Песни одного жанра или товары одной категории оказываются в соседних «папках», что позволяет ИИ быстрее находить нужное и точнее угадывать ваши предпочтения.

Голландские ученые разогнали ИИ благодаря российскому датасету
© It-world

Однако у этой гениальной идеи была ахиллесова пята - подготовка такого «дерева» занимала уйму времени. Когда речь идет о сотнях тысяч позиций, этот предварительный этап мог «съедать» до 20% всего времени обучения модели. В динамичных онлайн-сервисах это критично, ведь невозможно быстро обновить рекомендации, если модель учится слишком долго.

Ученые из Нидерландов предложили два способа решить эту проблему. Один из них делает ставку на максимальную скорость, распределяя объекты по папкам без лишней возни. Второй – сначала собирает быстрый черновик, а потом доводит до идеала внутри небольших групп.

Проверять свои идеи исследователи отправились на разных полигонах, включая базы отзывов Yelp, книжные каталоги Amazon и новостные клики Microsoft. Но настоящий прорыв случился, когда они взялись за российский датасет Yambda. Это один из крупнейших открытых наборов данных в мире. Он содержит почти 5 миллиардов обезличенных событий из жизни пользователей Яндекс Музыки и был выложен Яндексом в открытый доступ в 2025 году.

Именно масштаб Yambda позволил новым алгоритмам раскрыться в полную силу. На небольших датасетах прирост скорости был заметен, но не более того. А вот на российских данных результат оказался ошеломительным. Самый быстрый метод сократил время подготовки данных с 82 минут до каких-то 83 секунд. Это почти 60-кратное ускорение. Представьте, что задача, которая выполнялась полтора часа, теперь решается за полторы минуты. И все это без потери качества рекомендаций.

Комбинированный подход тоже показал себя отлично, ускорив процесс примерно в 15 раз, но с приятным бонусом - он даже повысил точность предсказаний по сравнению с оригинальной версией SEATER.

Эта история - отличный пример того, как открытые данные двигают науку вперед. Долгое время исследователи бились над проблемами, не имея доступа к реальным промышленным масштабам. Яндекс, выложив Yambda в открытый доступ, дал мировому сообществу уникальный инструмент. Голландские ученые доказали, что генеративные рекомендательные системы теперь могут эффективно работать с огромными каталогами, а это прямой путь к тому, что наши любимые музыкальные сервисы, интернет-магазины и новостные платформы станут еще умнее и быстрее.

Хорошая новость для разработчиков: код улучшенной модели SEATER уже выложен в открытый доступ. Так что предложенные решения можно внедрять в реальные продукты уже сегодня.