大模型智能水平如何?7款AI高考数学全不及格,专家称远未达到替代人的程度

大模型智能水平如何?7款AI高考数学全不及格,专家称远未达到替代人的程度
2024年06月21日 19:02 未来网

  未来网北京6月21日电(记者 凌萌)高考是我国最具影响力及权威性的考试之一。当人工智能大模型化身“考生”答高考试题,会交出怎样的答卷?近日,上海人工智能实验室通过旗下司南评测体系OpenCompass对7个大模型进行高考“语数外”全卷能力测试。测试结果显示,三科总分420分,大模型最高分仅303分,其中语文、英语表现相对良好,数学全不及格。业内人士指出,从评测结果来看,参评大模型的表现显然都不是“优等生”。当前大模型在各领域都是辅助角色,远没有达到替代人的程度。(曝料邮箱:Rcaijing@163.com 新闻热线:010-56793767)

AI高考测试数学全不及格

  高考是评估考生综合能力的“试金石”。而这一高难度综合性测试,被研究者们用于考察大模型的智能水平。近日,上海人工智能实验室发布首个AI高考全卷评测结果,通过旗下司南评测体系OpenCompass选取了6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。

  上海人工智能实验室发布首个AI高考全卷评测结果  上海人工智能实验室发布首个AI高考全卷评测结果

  据上海人工智能实验室介绍,本次评测采用全国新课标I卷,参与评测的所有开源模型,开源时间均早于高考,确保评测“闭卷”性。同时,成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。

  测试结果显示,语数外三科总分为420分的试卷,最高分为303分。总分排名前三的大模型分别为阿里巴巴的通义千问、OpenAI的GPT-4o、上海人工智能实验室的书生·浦语2.0。来自法国大模型初创公司的Mistral排在最后一位。

  具体来看,参评大模型的语文、英语考试成绩相对较好,数学方面则略显逊色,测试的几款大模型数学均不及格,最高分仅75分。

  上海人工智能实验室发布首个AI高考全卷评测结果  上海人工智能实验室发布首个AI高考全卷评测结果

  上海人工智能实验室发布的“阅卷教师眼中的大模型‘考生’”结论显示,语文方面,参评大模型的现代文阅读理解能力普遍较强,但不同模型的文言文阅读理解能力差距较大。大模型作文更像问答题,虽然有针对性但缺乏修饰,几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法。多数模型也无法理解“本体”“喻体”“暗喻”等语文概念,对于语言中的一些“潜台词”,大模型尚无法完全理解。

  数学方面,大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力较强,但是无法在解题过程中灵活引用。

  英语方面,参评大模型虽整体表现良好,但部分模型由于不适应题型,在七选五、完形填空等题型得分率较低。大模型英语作文普遍存在因超出字数限制而扣分的情况,而人类考生多因为字数不够扣分。

AI大模型数理逻辑尚存短板

  “从评测结果来看,参评大模型的表现显然都不是‘优等生’。”素履咨询创始人郁苗接受未来网记者采访时表示,通过AI大模型做具象的语数英高考题结果,也反映出大模型并非人们想象的那般完全智能。

  目前,基于目标人群、用途及适用场景的不同,大模型市场可分为通用大模型和垂直大模型两大类。对比来看,通用大模型聚焦基础层,以技术攻关为目的,ChatGPT、百度文心一言、阿里通义千问、科大讯飞的星火大模型等都属于该类范畴。

  而垂直大模型更专注于某一特定领域的知识和技能,具有更高的领域专业性和实用性。如在教育领域,网易有道、学而思、猿辅导等相继发布旗下的垂类大模型——“子曰”、九章大模型、看云大模型等。今年1月,松鼠AI发布了全球首个全学科智适应教育大模型;在医疗领域,去年12月,医渡科技推出首个面向医疗垂直领域多场景的专业大语言模型(HH-YIDU-Med)。今年4月,神州医疗发布旗下垂类大模型。

  对于首个AI高考全卷评测结果及参评大模型的表现,郁苗指出,参评的7款AI大模型多为通用大模型,在高考答题上的能力可能较教育垂类大模型偏弱。“即便是用教育垂类大模型来做高考全卷评测,在答题上可能较通用大模型更加细致,但依然无法成为‘优等生’。这也是目前大模型的发展现状。”

  工信部信息通信经济专家委员会委员盘和林接受未来网记者采访时表示,从参评的几款大模型来看,语言理解是长板,数理逻辑是短板。在高考全卷评测中数学表现较差,语文、英语表现良好,这的确符合当前大语言模型的特性。从考试成绩看,事实上这些大模型在理解能力上有很大进步,但尚未达到完美复制人类思考逻辑能力的程度,因而差距还存在。

  而数理逻辑对于AI大模型投入落地应用有着重要的决定性意义。上海人工智能实验室领军科学家林达华此前向媒体表示,复杂推理关系到落地应用时大模型的可靠性,例如在金融这样的场景下不能在数字上有差错,会对数学上的可靠性有较高的要求。另外随着大模型进入商用,若要分析一家公司的财报,甚至是工业领域要去分析一些技术文档,这时数学方面的计算能力就会成为一个壁垒。

挑战、风险并存,专家预判大模型未来走向

  随着ChatGPT、Sora等大模型的横空出世,人工智能技术也实现由文生文、文生图,再到文生视频的跨越,大模型正在渗入,甚至颠覆、重塑人们的认知以及生活方式。

  人工智能迅猛发展的脚步始终未停歇,国内互联网巨头腾讯、阿里、字节跳动、百度、科大讯飞等纷纷加码入局。但与之相并行的,还有频现“翻车”事件,以及潜藏的技术安全风险。

  如在今年5月,谷歌AI搜索功能——“AI Overview”一经上线便遭遇了“花式翻车”。据媒体报道,有用户就“准备享用自制披萨时,却遇到芝士会滑落”问题寻求解决方案,该AI搜索功能却给出了“加点胶水”的回复。此外,该AI搜索功能给出的“建议每天至少吃一块石头来补充维生素和矿物质”“用含氟漂白剂和白醋来清洁洗衣机(这两种成分混合后会产生有害物氯气)”等荒谬的回答同样在网络上掀起轩然大波。

  而AI大模型所潜藏的安全风险,同样不可小觑。中国社会科学院大学数字中国研究院此前发布的《数字时代安全科技价值报告》,将AI安全风险分为三类:第一是人工智能系统内部所产生的“内生安全问题”,像“数据有毒”“价值对齐”“决策黑盒”等;第二是“衍生安全问题”,即人工智能被利用或不恰当使用而可能引发其他领域的一些重大安全事故,如生成假新闻,侵犯肖像权、隐私权,涉及人身安全、军事与国家安全、伦理道德和法律规范等一系列与社会治理有关的挑战性问题;第三是“外生安全问题”,即面向人工智能系统的外部网络攻击对抗。

  在挑战、风险并存的现状下,人工智能大模型的未来走向如何?对此,郁苗表示,目前,AI于人类而言是重要的辅助工具,用于替代大量重复、危险性的劳动或相关工作,再由人工在AI的劳动成果基础上做筛选、修订或创新,达到降本增效的目的。各行各业现阶段都是以“AI+人工”的双驱动模式,还未实现全过程AI。

  盘和林同样认为,大模型在金融、工业、商业等领域都有完善应用,但这些领域的大模型都是辅助角色,远没有达到替代人的程度。如在金融领域,大模型主要是辅助决策;在工业领域,机器视觉应用广泛,但也存在很多不能识别物体的情况。预期未来大模型会从辅助工具入手,逐步深入人类社会。

  “总的来说,当前的大模型智能程度还达不到大众所期待的标准,但技术始终在不断迭代,不能小看10年后的人工智能。”郁苗表示。

海量资讯、精准解读,尽在新浪财经APP

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 07-01 乔锋智能 301603 --
  • 06-26 键邦股份 603285 --
  • 06-24 安乃达 603350 20.56
  • 06-17 爱迪特 301580 44.95
  • 06-17 永臻股份 603381 23.35
  • 新浪首页 语音播报 相关新闻 返回顶部