Yandex发布全球事件数据集，助力推荐系统发展|推荐系统|Yandex_新浪科技

Yandex 推出了当前可用的全球规模领先的推荐系统数据集，推动全球范围内的研究与开发工作。

该开放数据集包含通过 Yandex 音乐流媒体服务历时 10 个月收集的 47.9 亿条匿名的用户交互数据（收听、喜欢、不喜欢）。

该数据集包含匿名的音频嵌入向量、自然交互标记和精确时间戳，支持用于真实行为分析。

引入全局时间分割 (GTS) 评估方法保持事件序列，并配套基线算法作为参考。

该数据集在 Hugging Face 平台提供三种规模：50 亿、5 亿和 5000 万事件量级，满足多样化研发需求。

Yandex发布了Yambda（YandexMusic Billion-Interactions Dataset，即Yandex Music十亿级交互数据集），这是全球最大的推荐系统开放数据集，包含近50 亿条来自其音乐流媒体平台Yandex Music的用户与音轨的匿名交互数据。

Yambda,全球领先的推荐系统开放数据集

Yambda可作为通用基准来测试推荐系统的新方法和算法，适用于电子商务、社交网络和短视频平台等所有使用推荐系统的领域。

研究人员可借助该数据集基于其基线模型开发和测试新的推荐算法，从而加速创新进程。数据资源有限的初创企业可以先利用Yambda数据集构建和测试系统，然后再扩展规模。这有助于在全球范围内加快特定于业务需求的先进技术开发进程。

弥合研究与产业的鸿沟

训练数据的质量与规模对于流媒体服务、社交网络、短视频应用和电商等平台提供相关的推荐内容而言至关重要。然而，推荐系统领域的研究已落后于大语言模型等迅速发展的领域，其主要原因便是缺乏大规模数据集。效果良好的推荐模型需要TB级的行为数据，商业平台虽然拥有这些数据但却极少公开分享。

数据集统计的轨迹分布

研究人员通常只能获得规模较小且过时的数据集，难以反映现代使用场景的复杂性：

Spotify 的百万歌单数据集对于商业级推荐系统而言规模过小。

Netflix Prize 数据集包含约 17,000 个项目且时间戳仅包含日期，限制了时序建模和大规模研究。

Criteo 1TB 点击日志数据集缺乏合适的文档和标识符，且只关注广告点击。

“推荐系统天生与敏感数据紧密相关。企业只有在进行充分的匿名化处理后才能公开发布推荐系统数据集，这一过程会耗费大量资源，减缓了开放创新的步伐。”Yandex推荐系统负责人Nikolai Savushkin 解释道。

数据短缺导致了落差的出现：学术表现优异的模型在现实应用中往往表现不佳。将推荐系统与先进架构加以整合的工作也因缺乏合适的训练数据而受限。

Yambda数据集简介

Yambda提供的海量匿名数据集来自其月活用户约2800万的音乐流媒体服务，解决了推荐系统面临的挑战。该数据集揭示了用户与Yandex Music平台内容的交互方式，该平台以其先进的My Wave推荐系统著称，能够根据每位用户的品味定制收听体验。为保护隐私，所有用户和音轨数据均已匿名化，采用数字标识符以符合隐私标准。