Созданный в России крупнейший набор данных для обучения рекомендательных систем позволил исследователям из Нидерландов разработать подход, который ускоряет обучение искусственного интеллекта в десятки раз без потери качества.
Об этом сообщили ТАСС в пресс-службе «Яндекса». В начале лета 2025 года специалисты компании разработали и опубликовали в открытом доступе один из крупнейших в мире наборов данных для развития рекомендательных систем. Полная версия датасета включает пять миллиардов элементов. Он был создан на основе обезличенных данных «Яндекс.Музыки» и содержит агрегированные сведения о прослушиваниях, лайках и дизлайках, а также некоторые характеристики музыкальных записей.
Этот набор данных недавно привлек внимание ученых из Амстердамского университета. Исследователи использовали его для разработки нового подхода к обучению рекомендательных систем, основанного на алгоритме SEATER, созданном китайскими специалистами. Данный алгоритм позволяет организовать все товары или треки в иерархический каталог, напоминающий дерево папок на компьютере.
В теории такой каталог помогает системе быстрее и точнее выдавать рекомендации. Однако его подготовка в процессе обучения занимает значительное время, что в реальных продуктах затрудняет частое обновление рекомендаций и оперативное реагирование на изменения пользовательских предпочтений.
Нидерландские исследователи разработали два альтернативных подхода, ускоряющих подготовку каталога, и протестировали их на российских данных. Результаты показали, что один из новых алгоритмов сократил время подготовки с 82 минут до 83 секунд, что почти в 60 раз быстрее. При этом качество рекомендаций практически не снизилось, благодаря чему алгоритм SEATER по-прежнему превосходит уже популярные и применяющиеся на рынке системы.
В пресс-службе «Яндекса» отметили, что код улучшенной модели SEATER был выложен в открытый доступ. Это наглядно демонстрирует пользу публикации и использования больших наборов данных для разработки и обучения искусственного интеллекта. Работа голландских ученых с российским датасетом подтверждает практическую ценность открытых данных для ускорения разработки ИИ-рекомендаций. Долгое время доступ исследовательского сообщества к крупномасштабным промышленным данным был ограничен. Открыв свой датасет, российская компания одним из первых устранила этот разрыв, предоставив уникальный инструмент для глобального прорыва в этой области.