能思考会搜索的国产大模型，全网疯测的 DeepSeek 牛在哪？|推理_新浪财经

IT之家的家友们，蛇年吉祥！

在这个农历新年期间，科技界却并不平静...

距离 OpenAI 发布由 GPT-3.5 模型驱动的 ChatGPT 聊天机器人(19.460, -0.36, -1.82%)，已经过去了两年多的时间。

在这两年间，不管是微软、谷歌这样的科技巨头，还是如雨后春笋般出现的初创企业，都在 AI 大模型领域，投入了巨额的资源。

算力逐渐膨胀，大模型的训练及推理成本也同样水涨船高。

OpenAI 去年推出的 ChatGPT Pro 会员，价格已经来到了每月 200 美元。

“屠龙者终成恶龙”，每月 20 美元的 ChatGPT Plus 会员，包含的 o1 模型使用次数，可以说仅仅只够“玩一玩”，很难真的应用于自己的工作之中。

如果未来成本进一步上涨，难道 AI 的未来，是每月 2000 美元的“ChatGPT Pro Max 会员”吗？

然而，一家来自杭州的“小公司” DeepSeek，却给整个 AI 行业带来了新思路，这两天可以说是火遍了全网。IT之家这就来跟大家一起看看是怎么回事。

01.用起来怎么样？

去年年底，DeepSeek-V3 模型发布，其多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型，并在性能上和闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

作为一款开源的 MoE 混合专家模型，DeepSeek-V3 当时获得了业内人士不少的关注，但是还并没有“出圈”。

不过，在 DeepSeek 官方的手机应用 1 月上旬上线之前，已经有一些山寨 App 准备凑热度了。

▲极速推出的的山寨应用

而 1 月 20 日发布的推理模型 DeepSeek-R1，则在性能上实现了对 OpenAI-o1 正式版的对标。

此外，DeepSeek 也并没有藏着掖着，同期公开了 DeepSeek-R1 的训练技术，并且开源了模型权重。

而且对我们普通用户来说，DeepSeek-R1 直接在其官网免费开放使用。

而且，DeepSeek-R1 还可以联网搜索信息，增加了不少使用上的灵活性。

要知道，去年 10 月 31 号上线的 ChatGPT Search 搜索功能目前还不支持与 ChatGPT o1 模型协同使用，我们只能退而求其次选择 4o 模型。

此外，作为一款采用CoT 思维链技术的推理模型，DeepSeek-R1 直接把其思考过程显示给用户，这一点令我们可以直观感受到目前大模型技术的实力。

在海内外全网爆火的同时，DeepSeek 也承受了非常大的压力，相信我们不少家友都对下面这句话非常熟悉。

除了大量用户的涌入，DeepSeek 甚至还承受了大规模的恶意攻击。

要知道，即便是 ChatGPT，也经常出现宿机事件，这方面也希望大家可以“理解万岁”。

除了 671B 参数的完整模型，DeepSeek 还蒸馏了好几款小模型，32B 和 70B 模型也在多项能力上实现了对标 OpenAI o1-mini 的效果。

而这些蒸馏后的模型，我们已经可以尝试在自己的设备上，本地进行运行。

02.两把杀手锏- MoE混合专家模型

DeepSeek-R1 的成本优势，便在其官方 API 服务定价中体现了出来：

其输出 API 价格，甚至只是 ChatGPT o1 的约 3%，这就要聊到 MoE 混合专家模型了。

IT之家前面提到，DeepSeek-R1 是一款 671B 参数的模型，从传统的角度来看，运行起来绝不会轻松。

而 MoE 架构的核心思想，其实就是将一个复杂的问题分解成多个更小、更易于管理的子问题，并由不同的专家网络分别处理。

这样，当我们向 MoE 模型输入提示时，查询不会激活整个 AI，而只会激活生成响应所需的特定神经网络。

因此，R1 和 R1-Zero 在回答提示时激活的参数仅为 37B，不到其总参数量的十分之一，“让专业的人干专业的事”，推理成本大大降低。

其实，MoE 并不是一个新概念，最早起源于 1991 年的论文《Adaptive Mixture of Local Experts》。

不过这一思路的“起飞”，还要等到 2023 年 12 月 Mixtral 8x7B 模型的推出。

外界普遍认为GPT-4 就使用了 MoE 模型，但对于已经变成“CloseAI”的 OpenAI 来说，其旗舰模型的许多技术细节，我们无从得知......

- RL 强化学习

传统的 AI 大模型训练，使用的是SFT 监督微调过程，在精心策划的数据集上训练模型，教会它们逐步推理。

而 DeepSeek-R1 则使用 RL 强化学习的方法，完全依赖环境反馈（如如问题的正确性）来优化模型行为。

它也第一次证明了通过纯 RL 训练，即可提升模型的推理能力。模型在 RL 训练中自主发展出自我验证、反思推理等复杂行为，达到 ChatGPT o1 级别的能力。

这项技术，说明我们未来在训练的过程中，可能不再需要付出极为高昂的成本，获取大量经过详细标注的高质量数据。

03.多模态，补短板

尽管 DeepSeek-V3 和 DeepSeek-R1 十分强大，但他们还都是名副其实的“大语言模型”，并不具有多模态的能力。

也就是说，我们目前还没发把图片、音频等信息丢给他们，他们也不具备生成图片的能力，只能通过文字的方式来进行信息交流。

目前 DeepSeek 官方提供的文件上传能力，其实只是走了一遍文字 OCR 识别。

不过，就在 1 月 28 日凌晨，DeepSeek 开源了全新的视觉多模态模型 Janus-Pro-7B。

其在 GenEval 和 DPG-Bench 基准测试中击败了 Stable Diffusion 和 OpenAI 的 DALL-E 3。

不过作为一款仅有 7B 参数的“小”模型，Janus-Pro目前只能处理 384 x 384 分辨率的图像。

但我们相信，这只是一道开胃菜，我们期待在新思路下，DeepSeek 未来多模态大模型的表现。

04.除夕不眠夜

DeepSeek 的爆火，让不少 AI 大模型领域的“友商”，都没法无视这样一家“小公司”。

今天（1 月 29 日）凌晨，农历新年的钟声刚刚敲响，阿里通义团队带来了他们的“新年礼物”——Qwen2.5-Max 模型。

通义千问团队，也在 Qwen2.5-Max 模型的介绍中提到了 DeepSeek-V3。

与业界领先的模型（包括 DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet）相比，Qwen2.5-Max 的性能表现也相当有竞争能力。

在基座模型的对比中，与目前领先的开源 MoE 模型 DeepSeek V3、最大的开源稠密模型 Llama-3.1-405B 相比，Qwen2.5-Max 在大多数基准测试中都展现出了优势。

目前 Qwen2.5-Max 已经面向用户开放，不过作为“Max”定位的模型，Qwen2.5-Max 暂未开源。

而与 DeepSeek-R1 的直接对决，我们可能要等到未来新版的 QwQ、QVQ 模型。

OpenAI 的 CEO 阿尔特(12.120, -0.09, -0.74%)曼也对 DeepSeek-R1 进行了评价：

▲很“官方”的标准回答

面对大家价格上的抱怨，阿尔特曼也表示未来的 ChatGPT o3-mini 模型将会开放给免费用户使用，Plus 会员则每天有 100 条请求的额度。

此外，新的 ChatGPT Operator 功能也将尽快向 Plus 会员开放，而 OpenAI 的下一款模型也不会由每月 200 美元的 Pro 会员独占，Plus 会员就能用

这究竟是来自于 DeepSeek 等竞争对手的压力，还是 OpenAI 自身的成本优化，我们不得而知。

我们期待着在 2025 年，还会有哪些关键领域的突破，AGI通用人工智能是不是也离我们越来越近了。

海量资讯、精准解读，尽在新浪财经APP

文章关键词：推理

0条评论|0人参与网友评论

表情

分享到微博

发布

最热评论

最新评论 Deepseek延续强势，AI概念是否接力？

更多精彩评论>>

VIP课程推荐

市场进入新周期

跨年行情在路上

备战行情新方向

APP专享直播

开播时间 | 2-16 19:00

华安基金：ETF会客室：DeepSeek引领科技行情，后市如何投资？

开播时间 | 2-16 19:00

景顺长城基金：汇一代「综狮」铸科技中国

开播时间 | 2-16 14:00

中国全固态电池创新发展高峰论坛：人工智能赋能全固态电池研发平台升级

开播时间 | 2-16 14:00

2025复旦大学管理学院新年论坛

开播时间 | 2-16 13:44

为您·预见—宁波银行开年投策会

开播时间 | 2-16 08:00

中国全固态电池创新发展高峰论坛：材料创新趋势与先进技术

开播时间 | 2-15 17:00

中国全固态电池创新发展高峰论坛：欧阳明高、孙世刚、王德平、孙华军等演讲

开播时间 | 2-14 20:00

「2025蛇年投资大趋势」对话东方港湾但斌：拥抱时代与优秀企业共成长

开播时间 | 2-14 19:30

专家解析：苹果选阿里，为什么不是DeepSeek？

开播时间 | 2-14 16:00

国君资管：“春季躁动”行情显现，股债市演绎如何？

开播时间 | 2-16 19:00