检验大模型数学推理能力，司南发布全新评测指标与评测集_7x24小时财经新闻

12月25日 23:09

近日，大模型开放评测体系司南（OpenCompass）推出评测指标G-Pass@k及数学评测集LiveMathBench，旨在检验大模型的数学推理能力，加速大模型在高难度推理场景中的落地应用。基于最新提出的评测集及指标，OpenCompass团队对主流通用大模型、数学大模型及强推理模型进行了多轮评测并观察到：闭源、开源模型均无法进行稳定的复杂推理；增大参数规模对推理能力提升有限；强推理模型的性能潜力和实际表现之间存在显著的差距，亟待解决在实现最佳性能的同时保持稳定性。(界面)

下一条快讯将在??秒后
到达新浪财经APP

立即前往

扫码下载链接财富

7x24小时全球实时财经新闻直播

坚持做最好的财经直播报道，给百姓最真的财经动态。