随着今年高考落幕,上海人工智能实验室推出的“司南”大模型开源开放评测体系迅速行动,选取了六个前沿的开源模型以及备受瞩目的GPT-4o,针对高考“语数外”三科进行了全卷能力测试。此次评测严格遵循全国新课标I卷的出题标准,确保所有参与评测的模型在“闭卷”条件下接受挑战。
值得一提的是,所有参与评测的开源模型,其开源时间均早于高考,有效避免了“作弊”的可能性,确保了评测的公正性和有效性。更为关键的是,本次评测的成绩由具备丰富高考评卷经验的教师团队进行人工评判,确保了评分的准确性和贴近实际阅卷标准。
评测结果令人瞩目,前三甲的模型得分率均超过70%,显示出这些大模型在高考模拟测试中的强大实力。在语文和英语科目中,大部分模型均表现出色,其中英语科目的平均得分更是高达81%,充分证明了大模型在理解和应用自然语言方面的能力。
然而,数学科目成为了这些“大模型考生”的软肋。尽管其中一些模型在数学单科上取得了不错的成绩,但整体而言,数学仍是这些大模型需要进一步加强的方面。这也提示我们,在未来的大模型研发中,需要更加注重对数学等抽象思维能力的训练和提升。
此次“大模型高考”评测不仅为大模型技术的研发和应用提供了宝贵的实践经验和数据支持,也为我们展示了人工智能技术在教育领域应用的巨大潜力和挑战。随着技术的不断进步和应用的不断拓展,我们有理由相信,未来的人工智能将能够在更多领域展现出其独特的优势和价值。
新浪科技公众号
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)