清华包揽最佳论文+时间检验奖，山大获荣誉提名，SIGIR 2024奖项出炉|研究者|清华大学_新浪科技

清华成绩亮眼。

第 47 届国际计算机协会信息检索大会（ACM SIGIR）于 2024 年 7 月 14 日至 18 日在美国华盛顿特区举行。该会议是信息检索领域的顶级学术会议。

刚刚，大会公布了最佳论文奖、最佳论文亚军、最佳论文荣誉提名奖以及时间检验奖等奖项。

其中，清华大学、中国人民大学高瓴人工智能学院、小红书团队获得了最佳论文；来自格拉斯哥大学、比萨大学的研究者摘得亚军；最佳论文荣誉提名奖颁给了山东大学（青岛）、莱顿大学、阿姆斯特丹大学的研究者；时间检验奖颁给了清华大学、加州大学圣克鲁斯分校的研究者。

接下来，我们来看获奖论文的具体内容。

最佳论文

论文：Scaling Laws For Dense Retrieval
论文作者：方言、Jingtao Zhan、艾清遥、毛佳昕、Weihang Su、Jia Chen、刘奕群
机构：清华大学、中国人民大学高瓴人工智能学院、小红书
论文链接：https://dl.acm.org/doi/abs/10.1145/3626772.3657743

论文简介：在广泛的任务中，特别是在语言生成中，研究人员都观察到了扩展定律。研究表明大型语言模型的性能遵循模型和数据集大小的可预测模式，这有助于有效且高效地设计训练策略，特别是在大规模训练变得越来越资源密集的情况下。然而，在密集检索中，扩展定律尚未得到充分探索。

该研究探索了扩展如何影响密集检索模型的性能。具体来说，研究团队实现了具有不同数量参数的密集检索模型，并使用不同数量的注释数据对其进行训练。该研究使用对比熵（contrastive entropy ）作为评估指标，与离散的排名指标相比，对比熵是连续的，因此可以准确地反映模型的性能。

实验结果表明，密集检索模型的性能遵循与模型大小以及注释数量相关的精确幂律扩展。

此外，该研究还表明，扩展定律有助于优化训练过程，例如解决预算约束下的资源分配问题。

这项研究极大地有助于理解密集检索模型的扩展效应，为未来的研究提供了有意义的指导。

最佳论文亚军

本届 ACM SIGIR 最佳论文亚军颁给了论文「 A Reproducibility Study of PLAID 」。论文作者包括来自格拉斯哥大学的 Sean MacAvaney、以及来自比萨大学的 Nicola Tonellotto。

论文地址：https://arxiv.org/pdf/2404.14989

论文摘要：ColBERTv2 的 PLAID 算法使用聚类术语表示来检索和逐步剪枝文档，以获得最终的文档评分。本文复制并填补了原文中缺失的空白。通过研究 PLAID 引入的参数，研究者发现它的帕累托边界是由三个参数之间的平衡形成的。超出建议设置的偏差可能会大大增加延迟，而不一定会提高其有效性。

基于这一发现，本文将 PLAID 与论文中缺失的一个重要基线进行比较：对词汇系统进行重新排序。发现在初始 BM25 结果池之上应用 ColBERTv2 作为重新排序器，在低延迟设置中提供了更好的效率 - 有效性权衡。这项工作强调了在评估检索引擎效率时仔细选择相关基线的重要性。

最佳论文荣誉提名奖

此次会议的最佳论文荣誉提名奖由山东大学（青岛）、莱顿大学、阿姆斯特丹大学的研究者摘得。获奖论文为「 Generative Retrieval as Multi-Vector Dense Retrieval 」。

论文作者：吴世广，魏闻达，张孟奇，陈竹敏，马军，任昭春，Maarten de Rijke，任鹏杰
论文地址：https://arxiv.org/pdf/2404.00684

论文摘要：本文通过证明生成检索和多向量密集检索共享相同的框架来衡量文档查询的相关性。具体来说，他们研究了生成检索的注意力层和预测头，揭示了生成检索可以理解为多向量密集检索的一个特例。这两种方法都通过计算查询向量和文档向量与对齐矩阵的乘积之和来计算相关性。

然后，研究者探讨了生成检索如何应用此框架，他们采用不同的策略来计算文档 token 向量和对齐矩阵。并进行了实验来验证结论，表明这两种范式在其对齐矩阵中都表现出术语匹配的共性。

时间检验奖

本届 ACM SIGIR 时间检验奖颁给了 10 年前在 SIGIR 2014 上发表的关于可解释推荐的研究，论文为「 Explicit Factor Models for Explainable Recommendation based on Phrase-level Sentiment Analysis 」。

论文作者：张永锋、赖国堃、张敏、 Yi Zhang 、刘奕群、马少平
机构：清华大学、加州大学圣克鲁斯分校
论文链接：https://www.cs.cmu.edu/~glai1/papers/yongfeng-guokun-sigir14.pdf

该研究首次定义了「可解释性推荐」问题，并提出了相应的情感分析方法用于解决这一技术挑战，在相关领域一直发挥着引领作用。

论文摘要：基于协同过滤（CF）的推荐算法，例如潜在因子模型（LFM），在预测准确率方面表现良好。然而，潜在特征使得向用户解释推荐结果变得困难。

幸运的是，随着在线用户评论的不断增长，可用于训练推荐系统的信息不再仅限于数字星级评分或用户 / 商品特征。通过从评论中提取用户对产品各个方面的明确意见，可以更详细地了解用户关心的方面，这进一步揭示了做出可解释推荐的可能性。

本文提出了 EFM（Explicit Factor Model ）来生成可解释的推荐，同时保持较高的预测准确率。

研究者首先通过对用户评论进行短语级情感分析来提取显性产品特征和用户意见，然后根据用户兴趣的特定产品特征和学习到的隐藏特征生成推荐和不推荐。此外，从模型中还生成了关于为什么推荐或不推荐某件商品的直观特征级解释。

在多个真实数据集上的离线实验结果表明，该研究提出的框架在评分预测和 top-K 推荐任务上均优于竞争基线算法。在线实验表明，详细的解释使推荐和不推荐对用户的购买行为更具影响力。

青年学者奖

ACM SIGIR 青年学者奖旨在表彰在信息检索研究、学者社区建设、推进学术公平等方面发挥重要作用的研究人员，要求授予获得博士学位 7 年以内的青年研究学者。来自清华大学计算机系的助理教授艾清遥、来自中国科学技术大学网络空间安全学院、大数据学院教授、博士生导师王翔获得了 SIGIR 2024 青年学者奖。

艾清遥

艾清遥是清华大学计算机系助理教授，主要研究领域集中在信息检索、机器学习以及自然语言处理研究方面。重点研究方向为智能信息检索系统的研究与设计，包括信息表示学习、排序优化理论、大语言模型在互联网搜推和智慧司法上的应用等。

王翔

王翔是中国科学技术大学网络空间安全学院、大数据学院教授、博士生导师。王翔教授的研究兴趣包括信息检索、数据挖掘以及可信、可解释人工智能，特别是推荐系统、图学习和社交媒体分析。