刷榜泛滥,大模型求解“信任危机”

刷榜泛滥,大模型求解“信任危机”
2024年05月19日 23:09 财经网

“对于评测的结果,我们也考虑过呈现出来,但最终还是放弃了,因为本身存在着打榜的情况,而且也可以做针对性的优化。”在近日的一场活动中,谈及自家大模型的性能,一位相关负责人提到了这样一句话。而这也反映出了大模型狂飙一年半的另一面——跑分、刷榜泛滥,所谓的评测已经严重失真。

“坦率地讲,现在可能很多企业的老板都不知道自己模型的真实水平,因为下面的团队永远都在说‘我们的模型是领先的’,却始终缺乏一个客观公正的第三方评测。”5月17日,在接受媒体采访时,智源研究院院长王仲远如此说道。

王仲远解释称,当榜单无法公正客观地反映大模型的真实水平时,也将不利于行业发展,甚至可能出现劣币驱逐良币的情况。这时候更加需要一个专业且中立的机构,为大模型行业、产业、市场以及技术的良性发展提供指导意义,“这也是我们发布这一测评结果的根本原因”。

当天,智源研究院举办大模型评测发布会,正式推出科学、权威、公正、开放的智源评测体系,发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。

据悉,本次评测分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力等七大能力,同时针对多模态模型则主要评估了多模态理解和生成能力。评测使用20余个数据集、超8万道考题,包括与合作单位共建和智源自建的多个评测数据集等。

公开信息显示,智源研究院是人工智能领域的新型研发机构。2018年11月14日,在科技部和北京市的支持下,联合北京多家人工智能领域优势单位共建。去年6月,智源研究院已推出全面开源的“悟道3.0”模型,包括视觉大模型EVA、大语言模型悟道·天鹰在内的一系列多类别模型。

事实上,伴随着大模型的火热,各种评测从一开始就带上了些“营销”的意味。时至今日,评测更是在跑分、刷榜中陷入了信任危机,这关乎技术发展,也关乎产业落地。

“为了确保这件事情的绝对公平,智源研究院从一开始就确定了科学、权威、公正和开放的原则,所有评测工作也是围绕这四个关键词展开的。”在回答北京商报记者的提问时,王仲远如此说道。

例如智源研究院采取了开卷考+闭卷考的方式,通过自建以及与合作伙伴共建的方式,原创了大量测试题。据悉,这些测试题在此次评测之后,也会全量更新,避免大模型出现提前背题情况。主观评测方面,针对每一题都会采用多人独立运营、打分等方式,同时通过多轮质检抽检降低主观评测偏差等。

智源研究院副院长兼总工程师林咏华也对北京商报记者提到,大模型评测有三大问题,分别是如何确保评测不被“过拟合”、评测中要满足大模型新的使用场景、新的大模型模态对测评提出了新的要求。

对应上述问题,大模型评测需要做到的就是题目方面的以新换旧、以难换易。而在场景上,以往大模型评测依靠的是概率,如何将对话、指令跟随等新场景的评测进行更新也是挑战之一。最后,大模型的发展对新模态有新要求,未来智源研究院也可能将可信相关的内容添加进评测中,用以满足大模型发展的需求。

“我们要不断向前探索机制和技术,让评测的尺子更迅速地往高处生长,这样才能更好地测量被测量对象。”

研究院
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片