DeepSeek版o1,有消息了。
还未正式发布,已在代码基准测试LiveCodeBench霸榜前三,表现与OpenAI o1的中档推理设置相当
![](http://n.sinaimg.cn/spider20250119/633/w660h773/20250119/900f-01ea54141e154dada6f09f3b1da59652.jpg)
注意了,这不是在DeepSeek官方App已经能试玩的DeepSeek-R1-Lite-Preview(轻量预览版)。
而是摘掉了轻量版的帽子,称为DeepSeek-R1-Preview(预览版),意味着替换了规模更大的基础模型
LiveCodeBench团队透露,他们正在与DeepSeek合作评估新模型的能力,在合作过程中,DeepSeek团队还帮他们找出并解决了评分系统的一些bug。
![](http://n.sinaimg.cn/spider20250119/57/w660h197/20250119/a7a4-6f929a7564f6abc48ce439f4f16757b8.jpg)
与此同时,他们还晒出了目前仅有的一张DeepSeek-R1-Preview的思考过程。
![](http://n.sinaimg.cn/spider20250119/320/w660h460/20250119/0409-a68f00d5617d6147d0f9d9c51b832254.jpg)
鉴于DeepSeek此前已宣布R1模型将开源,有网友表示,与OpenAI o1编程能力相当的开源模型即将发布,2025年的编程就只剩下按Tab键了。
![](http://f.sinaimg.cn/spider20250119/73/w450h423/20250119/e808-giffc50972c8c3fe9a0e657f5a8bac90ee8.gif)
DeepSeek推理大模型满血版
两个月前,DeepSeek在官网上线DeepSeek-R1-Lite-Preview时曾透露:
DeepSeek-R1-Lite-Preview使用强化学习训练,推理含大量反思和验证,遵循新的Scaling Laws——
推理越长,表现越强。
在AIME测试基准中,随着推理长度的增加,DeepSeek-R1-Lite-Preview表现出稳定的得分提升。
![](http://n.sinaimg.cn/spider20250119/503/w660h643/20250119/0d36-2f9d35f758036e03e38bd46a7c48ef06.jpg)
DeepSeek-R1-Lite推理的特点在网友们的后续测试中也得到了验证:
![](http://n.sinaimg.cn/spider20250119/564/w632h1532/20250119/8aad-15e7b52fe8c32da9ba29c1af3a0095e8.jpg)
摘掉Lite的帽子,变成DeepSeek-R1-Preview,意味着换了更大的基础模型。
之前Lite版就在难度较高数学和代码任务上超越o1-preview,大幅领先GPT-4o。
![](http://n.sinaimg.cn/spider20250119/260/w660h400/20250119/d3e0-f4230c64d709da55abd1a788bffa9d7e.jpg)
这次在LiveCodeBench上,这次的DeepSeek-R1-Preview的表现又与OpenAI o1-Medium相当,网友们更加期待开源模型和API了。
LiveCodeBench由UC伯克利、MIT和康奈尔大学团队推出,旨在对大模型的代码能力进行全面且无污染的评估。
具体避免测试数据泄露的方法,是随着时间的推移不断从人类的编程竞赛平台收集新的题目。
除了代码生成,还会评估模型在代码自修复、执行和测试输出预测等方面的能力。
这样实时更新、确保公平性和可靠性的测试方法,获得了开发者社区的认可。
还有程序猿喊话Cursor直接把R1-Preview集成到Agent mode里:
![](http://n.sinaimg.cn/spider20250119/1/w660h141/20250119/64d4-4659746486b84bf909468d29d4dd427c.jpg)
One More Thing
赶在春节前,许多还在做训练的国产大模型团队,都把自家模型更新了一遍:
MiniMax开源4M超长上下文新模型!性能比肩DeepSeek-v3、GPT-4o
全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑
国内数学最强!实测讯飞版o1:上能打奥赛卷高考,下能辅导寒假作业
阿里开源首个视觉推理模型,击败GPT-4o,网页一度404
OpenAI似乎要趁这边放假开始搞事情了(狗头),奥特曼发帖透露:
![](http://n.sinaimg.cn/spider20250119/349/w660h489/20250119/84b7-702e8b02689d963964b138015abd7542.jpg)
在后续对话中,奥特曼还确认了未来模型更多基本情况:
![](http://n.sinaimg.cn/spider20250119/40/w660h180/20250119/22c8-958c2389a18281c1a3a096e0469cf122.jpg)
[1]https://x.com/StringChaos/status/1880317308515897761
[2]https://x.com/deepseek_ai/status/1859200149844803724
[3]https://x.com/sama/status/1880356297985638649
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
APP专享直播
热门推荐
特朗普:吞并加拿大,我是认真的 收起特朗普:吞并加拿大,我是认真的
- 2025年02月10日
- 08:28
- APP专享
- 广西台新闻910
7,557
男子强行变道失败骂人还做不雅动作 交警:被撞车全责 移交派出所
- 2025年02月10日
- 04:17
- APP专享
- 广西台新闻910
1,899
冠军!世界第一!时隔两年再度在狮城问鼎,孙颖莎多了一项“必杀技”
- 2025年02月09日
- 22:28
- APP专享
- 北京时间
1,549
![新浪财经公众号 新浪财经公众号](http://n.sinaimg.cn/finance/72219a70/20180103/_thumb_23666.png)
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 14:39:39
美股三大指数集体高开,道指涨0.56%,纳指涨0.73%,标普500指数涨0.51%,大型科技股多数上涨,苹果、微软涨近1%。贵金属板块走高,美洲白银公司涨超3%,泛美白银涨超2%。 -
趋势领涨今天 11:49:16
融资买入创新高,说明大资金还在加速进场。中证金融公布最新两融数据显示,2月7日,市场融资买入额为2064.83亿元,这是继2月6日融资买入额1599.11亿元之后,连续两日创年内新高。杠杆资金重新活跃体现了市场做多情绪的高涨。9.24行情以来,融资买入峰值是10月8日的4063.8亿,而上一次融资买入额超过2000亿元还要追溯到去年12月10日,当天融资买入额为2301.28亿元。 -
数字江恩今天 09:44:03
30分钟图来看,3674-3494的关键蓝色轮峰线目前在3340位置,而今天高点已经到了3325,非常接近。明日只要不能加速拉升站上图上蓝色轮峰线,那就不能摆脱5分钟图上的顶背离结构,会有短线回踩。本周最主要就是等待短线回踩所带来的机会。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:43:44
5分钟图来看,今日的新高已经有了5分钟顶背离的雏形。考虑到上周大盘已经向上扩展确立,所以小小的5分钟顶背离只会带来震荡,而非下跌。图上的红色轮谷线有强力支撑,回踩机会远大于风险。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:43:29
板块来看,深度求索概念带动国产算力,云数据,云计算继续强势。此外,今日低位的地产建筑,医药医疗也稍有运作。 -
数字江恩今天 09:43:27
A股两市今日成交6770 + 10538 = 17308 亿人民币,比上周五略低,但依然是3418回踩以来的放量水平。大盘早盘轻微抬起,10点后则在不到20个点的范围内窄幅震荡直至收盘。个股方面,超过3/4的个股收红上涨。 -
数字江恩今天 09:43:14
等待回踩的机会 -
趋势领涨今天 09:13:03
今天午后又有一个新概念爆发,简单定义为豆包视频生成概念股,其中涉及到个股出现异动,其中两只直线涨停,星宸科技(sz301536)20CM涨停,同为股份(sz002835)10CM的涨停。法本信息(sz300925)逼近20CM的涨停。最终大涨17.1%。VideoWorld视频大模型区别于主流生成视频的大模型不同点在于,首次实现了无需依赖语言模型,仅仅通过视觉信息就可以认知世界,即浏览视频数据,就能让机器掌握推理、规划和决策等复杂能力。 -
北京红竹今天 08:49:46
3、有主线也有补涨这几天主线也有,补涨也有,题材也有扩散,该有的都有了。DS为主线,扩散AI应用、服务器、云计算、算力。这两天DS相关品种换手也在逐步放大,我一直也在强调这个方向,但不要有直线型思维,什么线都要调整的。直线型思维在股市中裤衩都穿不上。人形机器人(sz300024)后排品种补涨明显,这两天也要注意下随时要调整洗盘。方向性还是老三样,只是要强调下,不要用直线型思维理解,每天大涨感觉没什么,出现一根阴线就叽叽歪歪的,那肯定是直线型思维,这样的思维不适合炒股。 -
北京红竹今天 08:49:42
2、春季吃肉行情今天的成交额1.7万亿,已经连续三天保持1.5万亿以上了,只要有成交额,活跃度就不会差,差价自然就会有。交易上做个滑头,该干活干活就好。指数注意周三附近就好,目前酝酿突破3330点,也就是60日均线,我主观感受了下。我蒙个第六感,我感觉会假突破一下,然后出现一波回落,也就是日线级别回落一笔。日线一笔回落后,展开春节的吃肉行情。缠论上反弹的防守线3203点有点远,等五分钟级别三买出现后,防守线就会上移了。