我们用最近很火的DeepSeek挑战了物理所出的竞赛题,结果... | 内附答案

我们用最近很火的DeepSeek挑战了物理所出的竞赛题,结果... | 内附答案
2025年01月30日 12:43 市场资讯

专题:DeepSeek为何能震动全球AI圈

 来源:中科院物理所

 近日,我国“深度求索”公司发布的具备深度思考和推理能力的开源大模型DeepSeek-R1受到了全世界的关注。在DeepSeek-R1之前,美国OpenAI公司的GPT-o1,Athropic公司的Claude,Google公司的Gemini,都号称具备了深度思考和推理能力。这些模型在专业人士和吃瓜网友的五花八门的测试中,表现的确是惊才绝艳。特别引起我们兴趣的,是Google的专用模型AlphaGeometry在公认高难度的国际奥林匹克数学竞赛中取得了28/42的成绩,获得银牌。学生时代我们也接触过奥数,深知能在此类国际奥赛中获银牌的选手,无一不是从小就体现出相当数学天赋,且一路努力训练的高手。能够达到这个水平的AI,称其为具备了强大的思考能力并不过分。自打那之后,我们就一直好奇,这些强大的AI,它们的物理水平又如何?是不是以后就不用招研究生和博士后了?

  1月17日,中科院物理所在江苏省溧阳市举办了“天目杯”理论物理竞赛。我们命题组完成了这份试卷的出题工作。七道题除一道外,都不是从现成的题库或考题中改编节选的,我们三个对这套试卷比较满意,觉得它既不像传统考试题一样盯着个别知识点考,也不像高中竞赛题一样需要很多技巧和熟练度,而更像实际科研中碰到的具体技术问题。竞赛前的某天,我们和几个朋友一起吃饭,其中一位AI的重度用户知道了我们出了这份题,就问有没有测试过AI的表现?我们觉得这个建议很有意思,于是决定在竞赛后,测试几个有代表性的大模型

  所谓来得早不如来得巧。1月20日,当我们刚结束竞赛回到北京,正赶上DeepSeek-R1发布引爆了AI圈,它自然成了我们测试的首选模型。此外我们测试的模型还包括:OpenAI发布的GPT-o1,Anthropic发布的Claude-sonnet下面是我们测试的方式:

  1.整个测试由8段对话完成。

  2.第一段对话的问题是“开场白”:交代需要完成的任务,问题的格式,提交答案的格式等。通过AI的回复人工确认其理解。

  3.依次发送全部7道题目的题干,在收到回复后发送下一道题,中间无人工反馈意见。

  4.每道题目的题干由文字描述和图片描述两部分组成(第三、五、七题无图)。

  5.图片描述是纯文本方式,描述的文本全部生成自GPT-4o,经人工校对。

  6.每个大模型所拿到的文字材料是完全相同的(见附件)。

  上述过程后,对于每个大模型我们获得了7tex文本,对应于7道问题的解答。以下是我们采取的阅卷方式:

  1.人工调整tex文本至可以用Overleaf工具编译,收集编译出的PDF文件作为答卷。

  2.4个模型的7道问题的解答分别发送给7位阅卷人组成的阅卷组。

  3.阅卷组与“天目杯”竞赛的阅卷组完全相同,且每位阅卷人负责的题目也相同。举例:阅卷人A负责所有人类和AI答卷中的第一题;阅卷人B负责所有人类和AI答卷中的第二题,等等。

  4.阅卷组汇总所有题目得分。

  结果如何呢?请看下表。

  结果点评:

  1.DeepSeek-R1表现最好。基础题(前三题分数拿满),第六题还得到了人类选手中未见到的满分,第七题得分较低似乎是因为未能理解题干中“证明”的含义,仅仅重述了待证明的结论,无法得分。查看其思考过程,是存在可以给过程分的步骤的,但最后的答案中这些步骤都没有体现。

  2.GPT-o1总分与DeepSeek相差无几。在基础题(二题、三题)中有计算错误导致的失分。相比于DeepSeek,o1的答卷更接近于人类的风格,因此以证明题为主最后一题得分稍高。

  3.Claude-sonnet可谓“马失前蹄”,在前两题中连出昏招打了0分,但后续表现跟o1相当接近,连扣分点都是类似的。

  4.如果将AI的成绩与人类成绩相比较,则DeepSeek-R1可以进入前三名(获特优奖),但与人类的最高分125分仍有较大差距;GPT-o1进入前五名(获特优奖),Claude-sonnet前十名(获优秀奖)。

  最后想聊几句阅卷的主观感想。首先是AI的思路是真的好,基本上没有无法下手的题,甚至很多时候一下子就能找到正确的思路。但跟人类不同的是,它们在有正确的思路后,会在一些很简单的错误里面打转。比如通过看R1的第七题思考过程,就发现它一早就知道要用简正坐标来做,能想到这一步的考生几乎100%求解出了正确的简正坐标(一个简单的矩阵对角化而已),但是R1似乎是在反复的猜测和试错,到最后也没有得到简正坐标的表达式。还有就是所有的AI似乎都不理解一个“严密”的证明究竟意味着怎样的要求,似乎认为能在形式上凑出答案,就算是证明了。AI如同人类,也会出现许多“偶然”错误。比如在正式的统一测试前,我们私下尝试过多次,很多时候Claude-sonnet可以正确解出第一题的答案,但正式测试的那次它就偏偏做错了。出于严谨,我们也许应该对同一道题测试多次然后取平均,但实在是有点麻烦……

  除了上面AI的测试结果,这次我们还发布了本次试题的参考答案。我们当然是故意比试题迟几天发布答案的,想让大家先自己挑战一下。在每道题的解答后,我们还加入了一小段“编后”,有命题人对这道题的评价,以及一些引申的思考等。我们希望答案可以帮助不会做的同学学习,也能引发会做的同学进一步的思考。

  附件中我们提供了:

  1.所有向大模型发问的输入文本(txt),

  2.每个大模型给出的原始答案文本(txt)和人工整理出的答卷(PDF),

  3.命题组提供的标准答案。

  最后感谢“字节跳动”的AI“豆包”对本文的修改~

  春节快乐,学习进步,工作顺利!

  附件:AI答卷

  附件:AI提问

  附件:参考答案

  冬令营组委会

  乙巳年正月初二

  编辑:雪影

 

海量资讯、精准解读,尽在新浪财经APP

责任编辑:石秀珍 SF183

5条评论|10人参与网友评论
最热评论
真掉脸,糖糖终科院养了大量领工资的白痴,还有脸出来测试
1月31日00:30举报2回复
助理气赚的钱河南郑州
这测试挺有意义,能看出AI在物理方面的潜力。
1月30日20:30举报2回复
嘿嘿wD5433江苏连云港
就这测试方式,真能准确衡量AI的物理水平?
1月30日20:30举报回复
最新评论
真掉脸,糖糖终科院养了大量领工资的白痴,还有脸出来测试
1月31日00:30举报2回复
助理气赚的钱河南郑州
这测试挺有意义,能看出AI在物理方面的潜力。
1月30日20:30举报2回复
嘿嘿wD5433江苏连云港
就这测试方式,真能准确衡量AI的物理水平?
1月30日20:30举报回复

APP专享直播

开播时间 | 2-20 20:30
阿里巴巴2024年12月份季度业绩会
开播时间 | 2-20 20:00
「2025蛇年投资大趋势 」对话南方基金经理王士聪:科技赛马 放眼全球
开播时间 | 2-20 19:30
嘉实基金:【基金经理展开说】国产AI崛起,产业投资机会全解读
开播时间 | 2-20 19:00
中金财富:云会客厅 布局硬科技 把握新机遇——对话国泰基金梁杏
开播时间 | 2-20 17:00
首届中国电视剧制作产业大会年度盛典
开播时间 | 2-20 16:00
光大证券李泉:量子计算、AI眼镜迎来新进展,科技股还有何机遇?
开播时间 | 2-20 15:30
中信期货:超强飓风后 铁矿5-9正套策略如何把握?
开播时间 | 2-20 15:30
国泰基金:DeepSeek火爆 AI落地风口已至
开播时间 | 2-20 15:30
海通证券郑雅斌、杨林,富国基金苏华清:AI热潮高起,如何选择投资方向?
开播时间 | 2-20 15:00
国投瑞银:追上科技热点 | 新模型频出,利好哪些板块?
开播时间 | 2-20 20:30
阿里巴巴2024年12月份季度业绩会
开播时间 | 2-20 20:00
「2025蛇年投资大趋势 」对话南方基金经理王士聪:科技赛马 放眼全球
开播时间 | 2-20 19:30
嘉实基金:【基金经理展开说】国产AI崛起,产业投资机会全解读
开播时间 | 2-20 19:00
中金财富:云会客厅 布局硬科技 把握新机遇——对话国泰基金梁杏
开播时间 | 2-20 17:00
首届中国电视剧制作产业大会年度盛典
开播时间 | 2-20 16:00
光大证券李泉:量子计算、AI眼镜迎来新进展,科技股还有何机遇?
开播时间 | 2-20 15:30
中信期货:超强飓风后 铁矿5-9正套策略如何把握?
开播时间 | 2-20 15:30
国泰基金:DeepSeek火爆 AI落地风口已至
开播时间 | 2-20 15:30
海通证券郑雅斌、杨林,富国基金苏华清:AI热潮高起,如何选择投资方向?
开播时间 | 2-20 15:00
国投瑞银:追上科技热点 | 新模型频出,利好哪些板块?
上一页下一页
1/10

热门推荐

女子吐槽银行8个窗口6个不营业,银行:领导就给这些人,都上岗了 收起
女子吐槽银行8个窗口6个不营业,银行:领导就给这些人,都上岗了

女子吐槽银行8个窗口6个不营业,银行:领导就给这些人,都上岗了

  • 2025年02月20日
  • 01:45
  • APP专享
  • 扒圈小记
  • 15,798
APP专享
网传“河北邢台一局长酒后砸店伤人”,官方通报:停职,纪委监委立案调查

网传“河北邢台一局长酒后砸店伤人”,官方通报:停职,纪委监委立案调查

  • 2025年02月20日
  • 01:47
  • APP专享
  • 扒圈小记
  • 4,767
APP专享
特朗普称期待中方领导人访问美国,外交部回应

特朗普称期待中方领导人访问美国,外交部回应

  • 2025年02月20日
  • 07:51
  • APP专享
  • 北京时间
  • 4,203
APP专享
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间
更多>
股票简称 最新价 涨跌幅
以下为热门股票
三峡能源 4.23 -0.47%
京东方A 4.50 0.00%
TCL科技 4.85 +0.21%
中远海控 14.35 -1.24%
格力电器 41.85 -0.21%
广告

7X24小时

  • 01-17 宏海科技 920108 5.57
  • 01-16 亚联机械 001395 19.08
  • 01-16 海博思创 688411 19.38
  • 01-14 富岭股份 001356 5.3
  • 01-13 超研股份 301602 6.7
  • 广告
    新浪首页 语音播报 相关新闻 返回顶部
    关闭
    关闭