7x24小时全球实时财经新闻直播

坚持做最好的财经直播报道,给百姓最真的财经动态。

12月25日 23:09
近日,大模型开放评测体系司南(OpenCompass)推出评测指标G-Pass@k及数学评测集LiveMathBench,旨在检验大模型的数学推理能力,加速大模型在高难度推理场景中的落地应用。基于最新提出的评测集及指标,OpenCompass团队对主流通用大模型、数学大模型及强推理模型进行了多轮评测并观察到:闭源、开源模型均无法进行稳定的复杂推理;增大参数规模对推理能力提升有限;强推理模型的性能潜力和实际表现之间存在显著的差距, 亟待解决在实现最佳性能的同时保持稳定性。(界面)

下一条快讯将在??秒后
到达新浪财经APP

最先掌握财经7x24快讯 就在新浪财经APP
立即前往
扫码下载 链接财富