
机器之心报道
编辑:大盘鸡、微胖
DeepSeek 发布其开放权重的 R1 推理模型仅一周时间,多次震惊海内外。不仅训练成本仅为 OpenAI 最先进的 o1 模型的一小部分,并且性能还能与其媲美。

虽然 DeepSeek 可以通过常见的基准测试结果和 Chatbot Arena 排行榜来证明其模型的竞争力,但没有什么比直接使用案例更能让人感受到模型的实用性。为此,科技媒体 arstechnica 资深编辑决定将 DeepSeek 的 R1 模型与 OpenAI 的 ChatGPT 模型进行对比。这次测试并非旨在解决最困难的问题,而是更侧重于模拟用户可能提出的日常问题。
此次测试中,DeepSeek 的每个回答都与 ChatGPT 的 20 美元 / 月的 o1 模型和 200 美元 / 月的 o1 Pro 模型进行对比,以评估其与 OpenAI「最先进」产品以及大多数 AI 消费者使用的「日常」产品的表现。
本次测试中所用的 prompt 涵盖创意写作、数学、指令遵循等领域,以及所谓的「hard prompts」—— 这些 prompt「设计得更加复杂、要求更高且更严谨」。在评判结果上,该团队不仅考虑了模型回答的正确性,也考虑了一些主观质量因素,并且参考了模型输出的思维链,更好地了解它们内部的运作机制。
提前剧透一下,以下一共设计 8 场「擂台比拼」,DeepSeek:o1:o1 Pro 的比拼结果为 5:2:4。比拼的详细内容如何,一起看下去吧。
擂台一:老爸笑话
试题 prompt:写五个原创的老爸笑话。
注:老爸笑话(Dad jokes) 是一种特定类型的笑话,通常以简单、直接,甚至有点幼稚或尴尬的双关语或文字游戏为特点。这类笑话通常被认为是「爸爸级」的幽默,因为它们常常是父亲们喜欢讲的那种轻松、无害,还有点「冷」的笑话。

DeepSeek 的响应。

ChatGPT o1 的响应。

ChatGPT o1 Pro 的响应。
比拼结果:总体来看,这次三个模型似乎比过去更认真地对待了「原创」笑话的要求。在生成的 15 个笑话中,只有两个能在网上找到类似的例子:o1 的「用手表做的腰带」和 o1 Pro 的「睡在一堆旧杂志上」。抛开这两个笑话,三个模型生成结果差异较大。三个模型都生成了不少笑话,但要么过于勉强地追求双关,要么根本说不通。
尽管如此,还是有一些完全原创、令人忍俊不禁的笑话脱颖而出。测评团队尤其喜欢 DeepSeek R1 的自行车笑话以及 o1 的吸尘器乐队笑话。与一年多前 LLM 生成的笑话相比,这些笑话在幽默方面确实取得了一些进展。
胜者:DeepSeek R1 。ChatGPT o1 的笑话总体上可能比 DeepSeek R1 略胜一筹,但由于包含了一个非原创笑话而扣分。ChatGPT o1 Pro 显然是输家,没有一个原创笑话能被该团队认为有一点点好笑。
擂台二:Abraham 「Hoops」 Lincoln
试题 prompt:写一篇关于亚伯拉罕・林肯发明篮球的两段创意故事。

DeepSeek R1 的响应。

ChatGPT o1 的响应。

ChatGPT o1 Pro 的响应。
比拼结果:DeepSeek R1 的回复以一种荒诞的方式回应了这个荒诞的提示。该团队非常喜欢其中的一些细节,比如它创造了一项「让人们不是跳进战壕,而是跳向荣耀」的运动,以及规则的「第 13 条修正案」,禁止球员被「糟糕的体育精神所奴役」。DeepSeek 还因提到林肯的现实里的真实秘书 John Hay 以及总统的慢性失眠症而加分 —— 据说失眠症促使他发明了一种气动枕头。
相比之下,ChatGPT o1 的回复显得更加中规中矩。故事主要聚焦于早期篮球比赛可能的样子,以及林肯和他的将军们如何进一步完善这项运动。虽然提到了一些关于林肯的细节(比如他的高顶礼帽、领导一个处于战争中的国家),但其中有很多填充内容,使得故事显得更加普通。
ChatGPT o1 Pro 则选择将故事设定在「林肯成为总统之前很久」的时期,让这项运动成为斯普林菲尔德(林肯的故乡)的热门活动。该模型还尝试将林肯最终「团结一个分裂国家」的能力与观看篮球比赛的镇民们的欢呼联系起来。此外,为这项运动创造的名字「Lincoln's Hoop and Toss」也赢得了额外加分。
胜者:DeepSeek R1。尽管 o1 Pro 表现不错,但 DeepSeek R1 回复中那种纯粹的荒诞感最终赢得了该团队的青睐。
擂台三:另类藏头诗
试题 prompt:写一段短文,其中每句话的第二个字母拼出单词「CODE」。这段文字应显得自然,不要明显暴露这一模式。

DeepSeek R1 的响应。

ChatGPT o1 的响应。

ChatGPT o1 Pro 的响应。
比拼结果:这是本次测试中 DeepSeek R1 最大的失败,因为它使用了每句话的第一个字母来拼写秘密代码,而不是要求的第二个字母。然而,当团队深入查看了模型对其 220 秒「思考过程」的详细解释时,意外发现了一段符合提示的段落,这段内容显然在给出最终答案之前被丢弃了:
ChatGPT o1 也犯了与 DeepSeek 相同的错误,使用了每句话的第一个字母而非第二个字母,尽管其「思考细节」中声称它「确保字母顺序」并「确保对齐」。ChatGPT o1 Pro 是唯一一个似乎理解了任务的模型,经过四分钟的思考后,精心设计了一段类似俳句的回复,并正确嵌入了「CODE」一词。
胜者:ChatGPT o1 Pro ,它是唯一一个能够正确遵循指示的模型。
擂台四:历史颜色命名
试题 prompt:如果 Magenta 这个城镇不存在,这种颜色还会被称为「品红」(magenta)吗?

DeepSeek R1 的响应。

ChatGPT o1 的响应。

ChatGPT o1 Pro 的响应。
比拼结果:三个模型都正确地指出了「品红」这一颜色名称与 Magenta 镇的关系,以及 1859 年 Magenta 战役,这些因素共同使这种颜色广为人知。三个回复还提到了「品红」的另一个名称「洋红色」(fuchsine),以及它与颜色相似的花卉「倒挂金钟」(fuchsia)的联系。
从风格上看,ChatGPT o1 Pro 略胜一筹,它将回复分为简短的「一句话答案」和详细的分点解释,最后还附上了一个连贯的总结。然而,就原始信息而言,三个模型的表现都非常出色。
胜者:ChatGPT o1 Pro 凭借风格上的细微优势胜出。
擂台五:挑战巨型质数
试题 prompt:第 10 亿个质数是多少?

DeepSeek R1 的响应。

ChatGPT o1 的响应(第一部分)。

ChatGPT o1 的响应(第二部分)。

ChatGPT o1 Pro 的响应(第一部分)。

ChatGPT o1 Pro 的响应(第二部分)。
比拼结果:我们看到 DeepSeek 和 ChatGPT 模型在这里表现出显著的差异。
DeepSeek R1 是唯一一个给出精确答案的模型,它引用了 PrimeGrid 和 The Prime Pages 的公开计算结果,一口咬定第 10 亿个质数是 22,801,763,489,还补充质数定理验证合理性。
ChatGPT 全系列:集体摊手(表情)—— o1 说「这数没公开记录」,o1 Pro 补刀「目前没有权威项目定位过它」。这两款 ChatGPT 模型详细讨论了素数定理及其如何用于估算答案大致位于 228 亿到 230 亿之间。DeepSeek 简要提及了这一理论,但主要是用来验证 Prime Pages 和 PrimeGrid 提供的答案是否合理。
有趣的是,这两款模型在其「思考过程」中提到了「参考文献」或在计算过程中「比较精炼的参考资料」,这暗示它们的训练数据中可能包含一些深藏的质数列表。然而,这两个模型都不愿意或无法直接引用这些列表来给出精确的答案。
胜者:DeepSeek R1 凭精确答案碾压胜出!(但 ChatGPT 的估算能力也算人类高质量数学课代表了)
擂台六:赶飞机
试题 prompt:我需要你帮我制定一个时间表,基于以下几点:我的飞机早上 6:30 起飞、需要在起飞前 1 小时到达机场、去机场需要 45 分钟、我需要 1 小时来穿衣和吃早餐。
请一步一步考虑,告诉我应该几点起床,什么时候出发,这样才能准时赶上 6:30 的航班。

DeepSeek R1 的响应。

ChatGPT o1 的响应(第一部分)。

ChatGPT o1 的响应(第二部分)。

ChatGPT o1 Pro 的响应。
比拼结果:三款模型都算对了基础时间 —— 要想赶上 6:30 的航班,得凌晨 3:45 起床(反人类的早啊!)。不过细节见真章:ChatGPT o1 抢跑成功,生成答案比 DeepSeek R1 快 7 秒(比自家 o1 Pro 的 77 秒更是快出天际),如果用性能更强的 o1 Mini 估计还能更快。
DeepSeek R1 后程发力:自带「为什么有效」板块,警示交通 / 安检延误风险,还有「提前一晚准备好行李、早餐」的攻略彩蛋。尤其看到 3:45 起床旁标注的(禁止贪睡!)时,我们笑出了声 —— 多花 7 秒思考绝对值回票价。
胜者:DeepSeek R1 凭借细节设计险胜!
擂台七:追踪球的下落
试题 prompt:在我的厨房里,有一张桌子,上面放着一个杯子,杯子里有一个球。我把杯子移到了卧室的床上,并将杯子倒过来。然后,我再次拿起杯子,移到了主房间。现在,球在哪里?

DeepSeek R1 的响应。
ChatGPT o1 的响应。

ChatGPT o1 Pro 的响应。
比拼结果:三个模型都能正确推理出:杯子倒扣时球会掉出并留在床上,即使杯子随后被移动。这对具备物体恒存认知的人类来说不算惊艳,但在大语言模型领域,这种对物体物理状态的「世界模型」理解能力,直到最近才真正突破。
DeepSeek R1 值得加分 —— 敏锐捕捉到「杯子无密封盖」的关键前提(可能存在陷阱?思路清奇!)ChatGPT o1 也因为提到球可能从床上滚落到地板上(球确实容易这样)而得到加分。
我们也被 R1 逗乐了,它坚持认为这个提示是「经典的注意力转移」,因为「对杯子移动的关注转移了人们对球所在位置的注意力」。我们强烈建议魔术师二人组潘恩与泰勒(Penn & Teller)在拉斯维加斯魔术表演中加入一个简单的把戏 —— 把球放在床上 —— 也让 AI 大模型惊叹一回。
胜者:本次测试三款模型并列冠军 —— 毕竟,它们都成功追踪到了球的踪迹。
擂台八:复数集合测试
试题 prompt:请提供一个包含 10 个自然数的列表,要求满足:至少有一个是质数,至少 6 个是奇数,至少 2 个是 2 的幂次方,并且这 10 个数的总位数不少于 25 位。

DeepSeek R1 的响应。

ChatGPT o1 的响应。
ChatGPT o1 Pro 的响应。
比拼结果:尽管存在许多满足条件的数列组合,这一提示语有效测试了大语言模型(LLMs)在遵循中等复杂度且易混淆指令时的抗干扰能力。三个模型均生成了有效回答,但方式不同,耐人寻味。
ChatGPT o1 生成的数列同样满足所有条件,但选择 2^30(约 10.7 亿)和 2^31(约 21.4 亿)作为 2 的幂次方数略显突兀(虽然技术正确,但直接列举更小的 2 的幂次方如 4、8 等可能更直观),未出现计算错误。
ChatGPT o1 Pro 生成的数列有效,但选择质数 999,983 也令人颇感意外,策略偏向保守,同样未出现计算错误。
然而,我们不得不对 DeepSeek R1 扣除较多分数,因其在生成 10 个满足条件的自然数时,给出的数列虽然符合要求(包含至少 1 个质数、至少 6 个奇数、至少 2 个 2 的幂次方数,且总位数≥25),但在计算总位数时出现低级错误:模型声称数列共有 36 位,实际计算应为 33 位(如模型自述的位数累加结果「3+3+4+3+3+3+3+3+4+4」,正确总和应为 33)。尽管此次错误未直接影响结果有效性,但在更严格的场景下可能引发问题。
胜者:两款 ChatGPT 模型胜出,因为没有出现算术错误。
选个冠军?难分高下!
虽然很想在这场 AI 大乱斗里评出个最终赢家,但测试结果实在有点「东边日出西边雨」。
DeepSeek-R1 确实有不少亮点时刻 —— 比如,查资料确认第十亿个质数时展现了靠谱的学术素养,写起老爸笑话和亚伯拉罕・林肯打篮球的创意故事也颇有灵气。不过话说回来,遇到另类藏头诗和复数集合题时它就有点露怯了,连最基础的数数都会翻车,而这些恰恰是 OpenAI 模型没犯的低级错误。
总体来看,这场快测的结果让科技媒体 arstechnica 资深编辑感慨,DeepSeek-R1 的综合实力完全能和 OpenAI 的付费「精英」掰手腕。这足以打脸那些认为「不烧个几十亿搞计算资源就别想挑战行业巨头」的刻板印象 —— 原来用对方法,性价比路线也能玩转 AI 竞技场!
原文链接:https://arstechnica.com/ai/2025/01/how-does-deepseek-r1-really-fare-against-openais-best-reasoning-models/


APP专享直播
热门推荐
两会建言|陈众议:尽早实施十二年义务教育 收起两会建言|陈众议:尽早实施十二年义务教育
- 2025年03月04日
- 14:28
- APP专享
- 扒圈小记
6,037
青工委号召片方抵制劣迹演员
- 2025年03月05日
- 03:26
- APP专享
- 扒圈小记
1,493
短剧顶流何健麒塌房!刚刚,官方发文将其定为“劣迹演员”
- 2025年03月04日
- 16:41
- APP专享
- 北京时间
1,451

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
东方红陈晨今天 23:34:36
【国家金融监管总局:支持科技企业发展 试点将贷款占企业并购交易额“不应高于60%”放宽至“不应高于80%”】财联社3月5日电,金融监管总局近期组织开展适度放宽科技企业并购贷款政策试点工作,聚焦科技企业反映的突出问题,试点适度放宽《商业银行并购贷款风险管理指引》部分条款,支持科技企业发展。对于“控股型”并购,试点将贷款占企业并购交易额“不应高于60%”放宽至“不应高于80%”,贷款期限“一般不超过七年”放宽至“一般不超过十年”。 -
东方红陈晨今天 23:33:57
【石大胜华(sh603026):子公司与宁德时代(sz300750)签订战略合作框架协议 预计供应10万吨电解液】财联社3月5日电,石大胜华(sh603026)(603026.SH)公告称,近日,控股子公司胜华连江与宁德时代(sz300750)签订了《战略合作框架协议》。协议约定,在本协议有效期内(自本协议生效之日起至2025年12月31日),宁德时代(sz300750)向胜华连江采购电解液的需求预计10万吨。公司表示,本协议如果充分履行,将对公司的经营业绩产生积极影响。 -
东方红陈晨今天 23:33:12
【孚能科技(sh688567):公司已与国内头部人形机器人(sz300024)企业对接固态电池相关需求 预计将在年内送样】财联社3月5日电,孚能科技(sh688567)在互动平台表示,在人形机器人(sz300024)领域,公司已与国内头部人形机器人(sz300024)企业对接固态电池相关需求,并根据客户需求进行了定制化开发,目前进展顺利,预计将在年内送样。在低空经济领域,公司已和美国头部eVTOL客户、上海时的、零重力、吉利沃飞等客户达成固态电池领域相关合作。在乘用车领域,公司半固态电池具备高能量密度、高安全性、轻量化、高倍率、长寿命、低成本的优势,获得整车企业客户的高度认可。 -
东方红陈晨今天 23:32:33
【国办:发挥多层次资本市场支持科技创新关键枢纽作用 着力投早、投小、投长期、投硬科技】财联社3月5日电,国务院办公厅发布关于做好金融“五篇大文章”的指导意见。意见提出,加强对实现高水平科技自立自强和建设科技强国的金融支持。推进金融服务科技创新能力建设,统筹运用股权、债权、保险等手段,为科技型企业提供全链条、全生命周期金融服务,加强对国家重大科技任务和科技型中小企业的金融支持。发挥多层次资本市场支持科技创新关键枢纽作用,着力投早、投小、投长期、投硬科技。丰富支持国家重大科技任务的金融政策和工具,健全重大技术攻关风险分散机制。优化科技型中小企业融资环境,发展股权投资、创业投资、天使投资,壮大耐心资本,支持培育发展科技领军企业、独角兽企业和专精特新中小企业。 -
东方红陈晨今天 23:32:00
【国办:加大对突破关键核心技术的科技型企业的股权融资支持力度】财联社3月5日电,国务院办公厅发布关于做好金融“五篇大文章”的指导意见。意见提出,建立健全上市融资、并购重组“绿色通道”机制,加大对突破关键核心技术的科技型企业的股权融资支持力度。优化私募股权和创业投资基金“募投管退”制度体系,引导社会资本加大向金融“五篇大文章”重点领域投资布局力度。加大力度活跃并购市场,支持科技、绿色产业领域高效整合重组。常态化推进清洁能源、养老、新型基础设施等领域符合条件的项目发行基础设施领域不动产投资信托基金。 -
东方红陈晨今天 23:31:45
【国办:深化资本市场投资端改革 壮大权益类公募基金、保险资金、各类养老金等长期投资力量】财联社3月5日电,国务院办公厅发布关于做好金融“五篇大文章”的指导意见。意见提出,培育循环互动的金融市场生态。推动金融领域信息共享,为金融“五篇大文章”重点领域提供多元化接力式金融服务。支持金融机构与科技成果转化、生态环保、中小企业公共服务、养老服务等专业中介机构合作,提升金融服务专业化水平。深化资本市场投资端改革,壮大权益类公募基金、保险资金、各类养老金等长期投资力量。强化会计师事务所、律师事务所、信用评级公司等中介服务机构专业把关责任。 -
东方红陈晨今天 23:31:26
【国办:加大外汇业务和跨境人民币业务便利化政策和服务供给】财联社3月5日电,国务院办公厅发布关于做好金融“五篇大文章”的指导意见。加大外汇业务和跨境人民币业务便利化政策和服务供给。支持金融机构为更多中小企业和贸易新业态提供优质贸易便利化服务,鼓励省级跨境人民币业务自律机制间共享优质企业名单。提升跨境投融资便利化水平,吸引全球资源要素向我国高质量发展重点领域有序聚集。便利绿色项目跨境融资,稳步扩大跨境私募股权投资基金外汇管理政策试点范围。推动银行健全汇率风险管理服务长效机制,丰富完善跨境金融服务平台应用场景。鼓励金融机构持续优化全球网络布局和服务模式,助力中小企业出海拓展业务。 -
东方红陈晨今天 23:31:11
【国办:科学设计、精准实施再贷款等结构性货币政策工具 为做好金融“五篇大文章”提供良好货币金融环境】财联社3月5日电,国务院办公厅发布关于做好金融“五篇大文章”的指导意见。意见提出,加强对金融机构的激励引导。发挥货币信贷政策总量和结构双重功能,科学设计、精准实施再贷款等结构性货币政策工具,为做好金融“五篇大文章”提供良好货币金融环境。优化金融“五篇大文章”领域贷款风险分担机制,发挥政府性融资担保体系增信分险作用。加强财政、货币、监管政策合力,支持做好金融“五篇大文章”。稳妥有序推进金融“五篇大文章”相关改革试点。深入推进现有科创金融、普惠金融、绿色金融等改革试验区建设,重点做好经验复制推广。在风险可控的前提下,支持符合条件的地区围绕做好金融“五篇大文章”依法合规先行先试,与科技创新中心建设、产融合作试点等工作加强协同联动。 -
东方红陈晨今天 23:30:15
【二连板华钰矿业(sh601020):近段时间锑产品价格涨幅较大 存在较大风险】财联社3月5日电,华钰矿业(sh601020)(601020.SH)公告称,公司A股股票连续三个交易日内收盘价格涨幅偏离值累计达20%,属于股票交易异常波动情形。公司主营产品之一为锑精矿,2024年前三季度锑精矿收入占公司总营业收入的10.99%,近段时间锑产品价格涨幅较大,存在较大风险。 -
东方红陈晨今天 23:29:49
【全志科技(sz300458):基于RISC-V架构内核开发的芯片产品已实现量产】财联社3月5日电,全志科技(sz300458)在互动平台表示,公司基于RISC-V架构内核开发的芯片产品已实现量产,应用于多种智能终端设备中。