来源:中科院物理所
近日,我国“深度求索”公司发布的具备深度思考和推理能力的开源大模型DeepSeek-R1受到了全世界的关注。在DeepSeek-R1之前,美国OpenAI公司的GPT-o1,Athropic公司的Claude,Google公司的Gemini,都号称具备了深度思考和推理能力。这些模型在专业人士和吃瓜网友的五花八门的测试中,表现的确是惊才绝艳。特别引起我们兴趣的,是Google的专用模型AlphaGeometry在公认高难度的国际奥林匹克数学竞赛中取得了28/42的成绩,获得银牌。学生时代我们也接触过奥数,深知能在此类国际奥赛中获银牌的选手,无一不是从小就体现出相当数学天赋,且一路努力训练的高手。能够达到这个水平的AI,称其为具备了强大的思考能力并不过分。自打那之后,我们就一直好奇,这些强大的AI,它们的物理水平又如何?是不是以后就不用招研究生和博士后了?
1月17日,中科院物理所在江苏省溧阳市举办了“天目杯”理论物理竞赛。我们命题组完成了这份试卷的出题工作。七道题除一道外,都不是从现成的题库或考题中改编节选的,我们三个对这套试卷比较满意,觉得它既不像传统考试题一样盯着个别知识点考,也不像高中竞赛题一样需要很多技巧和熟练度,而更像实际科研中碰到的具体技术问题。竞赛前的某天,我们和几个朋友一起吃饭,其中一位AI的重度用户知道了我们出了这份题,就问有没有测试过AI的表现?我们觉得这个建议很有意思,于是决定在竞赛后,测试几个有代表性的大模型。
所谓来得早不如来得巧。1月20日,当我们刚结束竞赛回到北京,正赶上DeepSeek-R1发布引爆了AI圈,它自然成了我们测试的首选模型。此外我们测试的模型还包括:OpenAI发布的GPT-o1,Anthropic发布的Claude-sonnet。下面是我们测试的方式:
1.整个测试由8段对话完成。
2.第一段对话的问题是“开场白”:交代需要完成的任务,问题的格式,提交答案的格式等。通过AI的回复人工确认其理解。
3.依次发送全部7道题目的题干,在收到回复后发送下一道题,中间无人工反馈意见。
4.每道题目的题干由文字描述和图片描述两部分组成(第三、五、七题无图)。
5.图片描述是纯文本方式,描述的文本全部生成自GPT-4o,经人工校对。
6.每个大模型所拿到的文字材料是完全相同的(见附件)。
上述过程后,对于每个大模型我们获得了7段tex文本,对应于7道问题的解答。以下是我们采取的阅卷方式:
1.人工调整tex文本至可以用Overleaf工具编译,收集编译出的PDF文件作为答卷。
2.将4个模型的7道问题的解答分别发送给7位阅卷人组成的阅卷组。
3.阅卷组与“天目杯”竞赛的阅卷组完全相同,且每位阅卷人负责的题目也相同。举例:阅卷人A负责所有人类和AI答卷中的第一题;阅卷人B负责所有人类和AI答卷中的第二题,等等。
4.阅卷组汇总所有题目得分。
结果如何呢?请看下表。

结果点评:
1.DeepSeek-R1表现最好。基础题(前三题分数拿满),第六题还得到了人类选手中未见到的满分,第七题得分较低似乎是因为未能理解题干中“证明”的含义,仅仅重述了待证明的结论,无法得分。查看其思考过程,是存在可以给过程分的步骤的,但最后的答案中这些步骤都没有体现。

2.GPT-o1总分与DeepSeek相差无几。在基础题(二题、三题)中有计算错误导致的失分。相比于DeepSeek,o1的答卷更接近于人类的风格,因此以证明题为主最后一题得分稍高。

3.Claude-sonnet可谓“马失前蹄”,在前两题中连出昏招打了0分,但后续表现跟o1相当接近,连扣分点都是类似的。

4.如果将AI的成绩与人类成绩相比较,则DeepSeek-R1可以进入前三名(获特优奖),但与人类的最高分125分仍有较大差距;GPT-o1进入前五名(获特优奖),Claude-sonnet前十名(获优秀奖)。
最后想聊几句阅卷的主观感想。首先是AI的思路是真的好,基本上没有无法下手的题,甚至很多时候一下子就能找到正确的思路。但跟人类不同的是,它们在有正确的思路后,会在一些很简单的错误里面打转。比如通过看R1的第七题思考过程,就发现它一早就知道要用简正坐标来做,能想到这一步的考生几乎100%求解出了正确的简正坐标(一个简单的矩阵对角化而已),但是R1似乎是在反复的猜测和试错,到最后也没有得到简正坐标的表达式。还有就是所有的AI似乎都不理解一个“严密”的证明究竟意味着怎样的要求,似乎认为能在形式上凑出答案,就算是证明了。AI如同人类,也会出现许多“偶然”错误。比如在正式的统一测试前,我们私下尝试过多次,很多时候Claude-sonnet可以正确解出第一题的答案,但正式测试的那次它就偏偏做错了。出于严谨,我们也许应该对同一道题测试多次然后取平均,但实在是有点麻烦……

除了上面AI的测试结果,这次我们还发布了本次试题的参考答案。我们当然是故意比试题迟几天发布答案的,想让大家先自己挑战一下。在每道题的解答后,我们还加入了一小段“编后”,有命题人对这道题的评价,以及一些引申的思考等。我们希望答案可以帮助不会做的同学学习,也能引发会做的同学进一步的思考。
附件中我们提供了:
1.所有向大模型发问的输入文本(txt),
2.每个大模型给出的原始答案文本(txt)和人工整理出的答卷(PDF),
3.命题组提供的标准答案。
最后感谢“字节跳动”的AI“豆包”对本文的修改~
春节快乐,学习进步,工作顺利!
附件:AI答卷
附件:AI提问
附件:参考答案
冬令营组委会
乙巳年正月初二
编辑:雪影
责任编辑:石秀珍 SF183








APP专享直播
热门推荐
程序员辞职成网约车“单王” :3年赚近70万,今年将赚到100万 收起程序员辞职成网约车“单王” :3年赚近70万,今年将赚到100万
- 2025年02月22日
- 09:57
- APP专享
- 扒圈小记
2,194
美国威胁:敢不签,切断星链
- 2025年02月22日
- 10:26
- APP专享
- 扒圈小记
1,526
财政部定调农民养老金上涨,多地已开始调整,最高涨了40元
- 2025年02月22日
- 09:40
- APP专享
- 北京时间
964

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨2025-02-22 07:46:21
在全球开发者先锋大会上,商汤科技联合创始人、首席科学家王晓刚表示,以模仿学习为主的端到端技术面临挑战,一方面高质量场景数据稀缺,驾驶数据质量参差不齐;另一方面模仿学习存在性能瓶颈。他还透露,商汤下一代与世界模型协同交互的端到端自动驾驶方案将在4月车展发布,此外,日日新大模型6.0也将在今年发布。 -
趋势领涨2025-02-22 04:06:31
=加入潜伏擒牛VIP,享四大顶级服务=【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每周一份高端内部绝密文章:包含近期布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!(VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!)现月课7.5折,1288元!季课6.9折,3558元,续费季度更划算!新朋友可先月课体验!点网址,直接买,订购地址:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
趋势领涨2025-02-22 02:07:22
【年内公募基金斥资超33亿元参与定增】财联社2月22日电,今年,定增市场发展迎来新机遇。1月22日,多部门联合印发的《关于推动中长期资金入市工作的实施方案》提出,允许公募基金、商业保险资金、基本养老保险基金、企(职)业年金基金、银行理财等作为战略投资者参与上市公司定增。在参与新股申购、上市公司定增、举牌认定标准方面,给予银行理财、保险资管与公募基金同等政策待遇。在业内看来,允许公募基金等作为战略投资者参与上市公司定增,将给定增项目带来更丰富的资金来源,为定增市场注入新活力,有利于推动定增市场规模的扩大。东方财富(sz300059)Choice数据显示,以增发上市日计算,今年以来已有诺德基金管理有限公司、财通基金管理有限公司、易米基金管理有限公司等7家公募基金参与上市公司定增,定增认购总额达33.29亿元。 -
趋势领涨2025-02-22 02:06:13
三、美股大跌 中概股上涨美股三大指数集体大跌,纳指跌2.2%,本周累跌2.51%,创去年11月以来最大单周跌幅;标普500指数跌1.71%,本周累跌1.66%,创1月中旬以来最大单周跌幅;道指跌1.69%,本周累跌2.51%,创去年10月下旬以来最大单周跌幅。大型科技股普跌,特斯拉、英伟达、英特尔跌超4%,奈飞、谷歌、亚马逊跌逾2%,微软、Meta跌超1%,苹果小幅下跌。纳斯达克中国金龙指数收涨1.65%,本周累涨1.57%,连涨六周,逼近去年10月份高点。阿里巴巴、拼多多涨超5%,小鹏汽车、理想汽车涨逾4%,京东涨3%,百度、蔚来涨近2%。美股大跌的主要原因是美国2月服务业采购经理指数初值疲弱,引发了投资者对经济前景的担忧,但这些数据跟我们关系不大,无非就是降不降息的问题,但昨晚中概股、富时A50都是上涨的,特别是本轮领涨龙头阿里大涨超过5%,所以,下周大盘低开高走的概率是很大的,错过了周五加仓的朋友,下周一应该有机会。 -
趋势领涨2025-02-22 02:06:04
美股大跌 中概股上涨 晚间三大消息昨天是非常激情的一天,大盘指数迎来了突破,个股更是上演了疯狂,导.火.索就是阿里财报超预期,激发了科技股的疯狂,美股有英伟达,A股有寒武纪(sh688256),现在又出了一个阿里,乱世出英雄,国内科技英雄层出不穷,这是好事!在这种情况下,如果今年A股和港股不能牛冠全球,那确实对不起投资者了,不过今年以来,港股已经是牛冠全球,现在就看A股了!前天我们发布文章提示,这两天会有一个急跌,但昨天市场出现了利好,市场选择了向上,但向上就没有急跌吗?我们认为这个概率不大,向上只是改变了方向,但一天的量能不能决定任何事情,下周如果大盘不能继续放量,想大盘连续大涨是不现实的,特别是昨晚美股出现了大跌,下周A股低开不可避免,这个低开回踩应该就是机会。一、证监会:加快培育耐心资本 吸引更多优秀民营企业借助资本市场发展壮大DeepSeek的成功激发了各方的信心,杭州“六小龙”之一群核科技也要到港股上市,但这些科技公司起步都是需要大量烧钱的,DeepSeek通过量化赚了很多钱,才有了现在的DeepSeek,但现在光靠量化显然是不现实的,所以,前期爆出了要融资,当然市场还有很多潜在的“DeepSeek”,这些公司都需要上市,证监会提出了要吸引更多的民营企业,其意思说明A股融资要加速了,对市场是利空。但,从另外一方面来说,正常的市场就应该是优胜劣汰,A股垃圾公司太多,才引发了现在的肥胖,港股近期之所以走势很强,就是因为港股有腾讯、阿里等很多优秀的公司,所以,A股放开IPO,只要是好公司,对市场不是坏事,重点是要加速淘汰垃圾公司。二、国资委部署深化中央企业“AI+”专项行动国资央企要抓住人工智能产业发展的战略窗口期,强化科技创新,聚焦关键领域加快掌握“根技术”,坚定攻关大模型,积极参与开放生态建设,推动产生更多“从0到1”的原始创新,加速推进成果转化和产业化发展。这次AI,民企先行,攻克了第一个堡垒,剩下就看国企了,国企不能拖后腿,难怪昨天中联通、中电信涨停,三大运营商作为AI的最前沿,这波科技贡献是不是太小了?所以,后期要加把劲了!三大运营商能稳定,科技板块就还有机会。不过,我们要提醒的是,2018年炒作的大消费;2020年炒作的新能源;去年炒作的ChatGPT,随后都回到了起点。科技股这波抱团比较猛,行情没有走完,但炒作完要注意撤离。 -
趋势领涨2025-02-22 01:41:19
【年内公募基金斥资超33亿元参与定增】今年,定增市场发展迎来新机遇。1月22日,多部门联合印发的《关于推动中长期资金入市工作的实施方案》提出,允许公募基金、商业保险资金、基本养老保险基金、企(职)业年金基金、银行理财等作为战略投资者参与上市公司定增。在参与新股申购、上市公司定增、举牌认定标准方面,给予银行理财、保险资管与公募基金同等政策待遇。在业内看来,允许公募基金等作为战略投资者参与上市公司定增,将给定增项目带来更丰富的资金来源,为定增市场注入新活力,有利于推动定增市场规模的扩大。东方财富(sz300059)Choice数据显示,以增发上市日计算,今年以来已有诺德基金管理有限公司、财通基金管理有限公司、易米基金管理有限公司等7家公募基金参与上市公司定增,定增认购总额达33.29亿元。 -
趋势领涨2025-02-22 00:54:15
大家早上好!趋势为王,做股海的领航者,新的一天,新的战斗,欢迎你来到本直播室!新进的朋友请注意点赞,收藏本直播室,以方便你下次观看,谢谢大家的支持!【更多独家重磅股市观点请点击】 -
趋势领涨2025-02-21 10:54:37
证监会发布会,注意两个要点: 1、资本市场是数亿老百姓(sh603883)投资的重要渠道,这个应该是第一次说,说明开始重视2亿多散户。 2、证监会坚持重拳出击,切实维护好广大投资者的根本利益。以前都是“保护”,现在变成了“维护”。 -
数字江恩2025-02-21 09:48:38
所以下周还会有一次回踩,第一支撑10周线,第二支撑15分钟图轮峰线。只要支撑不跌破,那么宽幅震荡完成之后,大盘会继续向上运行。 -
数字江恩2025-02-21 09:48:33
30分钟图来看,之前的行情展望已经说过,可以突破三角形顶点,也可以突破红色轮谷线。本周收盘在顶点之上,刚好收盘在红色轮谷线,还不算站上红色轮谷线。从30分钟图的三角形来看,蓝色轮峰线突破后变为支撑,这个位置和10周线的支撑是完全吻合的。【更多独家重磅股市观点请点击】