Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Big Data/Аналитика: Статьи Новости компаний Решения

Панорама

Молодой хостинг VS старый рынок: как UFO.Hosting использует свой возраст как преимущество

Хостинг — одна из тех ниш, где внешне мало что меняется. Даже несмотря на то, что это IT и технологии …

Почему больше ИБ-инструментов не значит безопаснее (и что с этим делать?)

Несколько вызовов определяют сегодняшнюю повестку в ИБ: ужесточения наказаний за утечки, усложнение кибератак …

СУБД ЛИНТЕР СОКОЛ: Будьте готовы к нагрузкам будущего уже сегодня!

Пока многие разработчики борются с наследием старого кода, мы создали будущее с чистого листа. На конференции …

Карен Саркисян: «Децентрализации – это сила и слабость блокчейнов»

Разработчик инструментов для блокчейнов крупной международной компании поделился опытом внедрения нестандартных решений …

ViRush: управление на основе данных в условиях турбулентности

Конференция ViRush 2030, ежегодно проводимая компанией Visiology — основное событие в сфере BI на российском …

В опенсорс выложен датасет для развития рекомендательных систем Yambda

Пресс-релиз | 29.05.2025

«Яндекс» выложил в опенсорс Yambda (YAndex Music Billion-interactions DAtaset) — один из крупнейших в мире датасетов для развития рекомендательных систем. С помощью Yambda учёные, исследователи и вузы со всего мира смогут тестировать и улучшать рекомендательные алгоритмы.

Датасет представлен в трёх вариантах: полная версия содержит 5 миллиардов данных, уменьшенные — 500 миллионов и 50 миллионов. Разработчики и исследователи смогут выбрать тот вариант, который отвечает их задаче и имеющимся вычислительным ресурсам. Данные датасета доступны на HuggingFace.

«Рекомендательные алгоритмы помогают людям находить нужные товары, фильмы, музыку и многое другое — именно они лежат в основе сервисов от интернет-магазинов до онлайн-кинотеатров. Развитие этих алгоритмов напрямую зависит от научных исследований, для которых нужны качественные и объёмные датасеты. При этом опенсорс-датасеты чаще всего невелики по размеру или уже устарели, так как коммерческие компании, которые накапливают терабайты данных, редко их публикуют. Это создаёт разрыв между академическими исследованиями и потребностями бизнеса. Публикация больших открытых датасетов наподобие Yambda помогает решить эту проблему, подобно тому как появление датасета ImageNet дало мощный толчок развитию компьютерного зрения. На данных ImageNet архитектура глубокого обучения AlexNet достигла рекордно низкого показателя ошибки и доказала эффективность применения свёрточных нейронных сетей для обработки изображений, что стало ключевым моментом в развитии технологий глубокого обучения. Доступ к качественным большим данным открывает новые возможности для научных исследований и привлекает к области внимание молодых ученых, заинтересованных в применении машинного обучения для решения актуальных задач», — отметил Александр Плошкин, руководитель направления по развитию качества персонализации в «Яндексе».

Yambda создан на основе обезличенных данных «Яндекс Музыки» — крупнейшего подписного музыкального сервиса в России. Но использовать его можно для оценки качества любых рекомендательных систем, так как в их основе лежат общие алгоритмы.

Yambda включает агрегированные прослушивания, лайки, дизлайки, а также некоторые характеристики треков. Все данные о пользователях и треках анонимизированы: датасет содержит исключительно числовые идентификаторы, что обеспечивает конфиденциальность.

Печать

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.

В опенсорс выложен датасет для развития рекомендательных систем Yambda

Комментарии