刷榜泛滥，大模型求解“信任危机”|研究院_新浪科技

“对于评测的结果，我们也考虑过呈现出来，但最终还是放弃了，因为本身存在着打榜的情况，而且也可以做针对性的优化。”在近日的一场活动中，谈及自家大模型的性能，一位相关负责人提到了这样一句话。而这也反映出了大模型狂飙一年半的另一面——跑分、刷榜泛滥，所谓的评测已经严重失真。

“坦率地讲，现在可能很多企业的老板都不知道自己模型的真实水平，因为下面的团队永远都在说‘我们的模型是领先的’，却始终缺乏一个客观公正的第三方评测。”5月17日，在接受媒体采访时，智源研究院院长王仲远如此说道。

王仲远解释称，当榜单无法公正客观地反映大模型的真实水平时，也将不利于行业发展，甚至可能出现劣币驱逐良币的情况。这时候更加需要一个专业且中立的机构，为大模型行业、产业、市场以及技术的良性发展提供指导意义，“这也是我们发布这一测评结果的根本原因”。

当天，智源研究院举办大模型评测发布会，正式推出科学、权威、公正、开放的智源评测体系，发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。

据悉，本次评测分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力等七大能力，同时针对多模态模型则主要评估了多模态理解和生成能力。评测使用20余个数据集、超8万道考题，包括与合作单位共建和智源自建的多个评测数据集等。

公开信息显示，智源研究院是人工智能领域的新型研发机构。2018年11月14日，在科技部和北京市的支持下，联合北京多家人工智能领域优势单位共建。去年6月，智源研究院已推出全面开源的“悟道3.0”模型，包括视觉大模型EVA、大语言模型悟道·天鹰在内的一系列多类别模型。

事实上，伴随着大模型的火热，各种评测从一开始就带上了些“营销”的意味。时至今日，评测更是在跑分、刷榜中陷入了信任危机，这关乎技术发展，也关乎产业落地。

“为了确保这件事情的绝对公平，智源研究院从一开始就确定了科学、权威、公正和开放的原则，所有评测工作也是围绕这四个关键词展开的。”在回答北京商报记者的提问时，王仲远如此说道。

例如智源研究院采取了开卷考+闭卷考的方式，通过自建以及与合作伙伴共建的方式，原创了大量测试题。据悉，这些测试题在此次评测之后，也会全量更新，避免大模型出现提前背题情况。主观评测方面，针对每一题都会采用多人独立运营、打分等方式，同时通过多轮质检抽检降低主观评测偏差等。

智源研究院副院长兼总工程师林咏华也对北京商报记者提到，大模型评测有三大问题，分别是如何确保评测不被“过拟合”、评测中要满足大模型新的使用场景、新的大模型模态对测评提出了新的要求。

对应上述问题，大模型评测需要做到的就是题目方面的以新换旧、以难换易。而在场景上，以往大模型评测依靠的是概率，如何将对话、指令跟随等新场景的评测进行更新也是挑战之一。最后，大模型的发展对新模态有新要求，未来智源研究院也可能将可信相关的内容添加进评测中，用以满足大模型发展的需求。

“我们要不断向前探索机制和技术，让评测的尺子更迅速地往高处生长，这样才能更好地测量被测量对象。”

关键词 : 研究院

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻，精彩的震撼图片

刷榜泛滥，大模型求解“信任危机”