AI高考测试出分:数学全不及格

AI高考测试出分:数学全不及格
2024年06月21日 11:39 中关村在线

随着今年高考落幕,上海人工智能实验室推出的“司南”大模型开源开放评测体系迅速行动,选取了六个前沿的开源模型以及备受瞩目的GPT-4o,针对高考“语数外”三科进行了全卷能力测试。此次评测严格遵循全国新课标I卷的出题标准,确保所有参与评测的模型在“闭卷”条件下接受挑战。

值得一提的是,所有参与评测的开源模型,其开源时间均早于高考,有效避免了“作弊”的可能性,确保了评测的公正性和有效性。更为关键的是,本次评测的成绩由具备丰富高考评卷经验的教师团队进行人工评判,确保了评分的准确性和贴近实际阅卷标准。

评测结果令人瞩目,前三甲的模型得分率均超过70%,显示出这些大模型在高考模拟测试中的强大实力。在语文和英语科目中,大部分模型均表现出色,其中英语科目的平均得分更是高达81%,充分证明了大模型在理解和应用自然语言方面的能力。

然而,数学科目成为了这些“大模型考生”的软肋。尽管其中一些模型在数学单科上取得了不错的成绩,但整体而言,数学仍是这些大模型需要进一步加强的方面。这也提示我们,在未来的大模型研发中,需要更加注重对数学等抽象思维能力的训练和提升。

此次“大模型高考”评测不仅为大模型技术的研发和应用提供了宝贵的实践经验和数据支持,也为我们展示了人工智能技术在教育领域应用的巨大潜力和挑战。随着技术的不断进步和应用的不断拓展,我们有理由相信,未来的人工智能将能够在更多领域展现出其独特的优势和价值。

高考数学
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片