移动客户端

新浪科技> 滚动新闻 > 正文

12个国产大模型大战高考数学：意外炸出个大bug

12个国产大模型大战高考数学：意外炸出个大bug

2024年06月09日 11:17 快科技

新浪财经APP 缩小字体放大字体收藏微博微信

继国产大模型挑战高考作文之后，是时候再战一下高考数学了。

数学高考Ⅰ卷的题目，目前已经陆陆续续在网上有所公布（图片格式）。

那么现在，是时候考验国产大模型们的数学能力了。

有请“选手们”登场——

Kimi、通义千问、文心一言、豆包、智谱清言、百小应、讯飞星火、商量、腾讯元宝、天工、海螺AI、万知。

国产大模型 vs 高考数学选择题

根据数学题目类型的不同，我们先来小试牛刀一下选择题。

测评的方式是将题目（图片格式）“喂”给国产大模型们，要求它们给出相应题目的答案：

查看题目，给出第1题到第8题的答案。

接下来，我们就来一同看下国产大模型们的表现。

Kimi

通义千问

豆包

智谱清言

百小应

讯飞星火

商量

腾讯元宝

海螺AI

万知

不难看出，很多国产大模型还未做数学题，先败在了AI识图这个步骤，无法生成答案。

（PS：有几位选手测试时因为无法识别，未能完成答题，因此没有放出结果。）

那么我们最后来看下“踢馆选手”——GPT-4o。

国产大模型 vs 数学大题

鉴于一些国产大模型AI识图有点困难，我们这次直接先把这次高考的大题题目文字给copy出来，再让它们作答：

设n为正整数，数列 ( a1, a_2, \cdots, a{4m+2} ) 是公差不为0的等差数列。若从中抽去项 ( ai ) 和 ( a_j ) (i < j) 后剩余的 ( 4m ) 项可被平均分为 m 组，且每组的 4 个数都能构成等差数列，则称数列 ( a_1, a_2, \cdots, a{4m+2} ) 是 (i, j) - 可分数列。

(1) 写出所有的 (i, j) (1 ≤ i < j ≤ 6)，使得数列 ( a_1, a_2, a_3, a_4, a_5, a_6 ) 是 (i, j) - 可分数列；

(2) 当 ( m = 3 ) 时，证明：数列 ( a1, a_2, \cdots, a{13} ) 是 (2, 13) - 可分数列；

(3) 设 ( a1, a_2, \cdots, a{4m+2} ) 是 (i, j) - 可分数列。记数列 ( a1, a_2, \cdots, a{4m+2} ) 中任取两个数和 i (i < j)，则数列是 (i, j) - 可分数列的概率为 ( p_n )，证明：( p_n \geq \frac{1}{8} )。

接下来，我们再来看下国产大模型们的表现。

Kimi

通义千问

文心一言

豆包

智谱清言

百小应

讯飞星火

商量

腾讯元宝

天工

海螺AI

万知

最后，还是有请“踢馆选手”——GPT-4o。

那么，你觉得国产大模型们，识图+解数学题，哪家比较好一点呢？

关键词 : 高考数学分数

新浪众测

新浪众测

新浪科技公众号

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

创事记

阅读排行榜

评论排行榜

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技

新浪数码

新浪手机

科学探索

苹果汇

新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻，精彩的震撼图片

新浪首页新浪众测

语音播报返回顶部