「欧洲版 DeepSeek」发布新模型,盯着中国 AI 打

「欧洲版 DeepSeek」发布新模型,盯着中国 AI 打
2025年12月04日 17:55 爱范儿

被称为「欧洲版 DeepSeek」的 Mistral AI 在被 OpenAI、Google 和中国开源模型 DeepSeek、Qwen 夹击大半年后,终于坐不住了,正式发布了新一代 Mistral 3 系列模型。

Mistral AI 是一家总部位于法国的大模型公司。据报道,今年 9 月,英伟达第三次出手投资这家初创企业。经此,Mistral 的估值达到约 135 亿美元,成为欧洲 AI 领域最受瞩目的独角兽之一。

这一次,Mistral 居然只盯着中国模型打

Mistral 3 这次带来了旗舰模型 Mistral Large 3,以及三款高性价比的小模型 Ministral (3B、8B、14B)。

其中 Mistral Large 3 是绝对的主角,总参数量为 675B,其中活跃参数为 41B,这是自 2023 年底至 2024 年初的 Mixtral 8x7B 和 8x22B 以来,Mistral 首个开放权重的混合专家模型。

但最让我感到「不对劲」的是官方的对比策略。

在官方的跑分图里,Mistral 竟然完全无视了 GPT-5.1 或 Gemini 3,而是直接把枪口对准了中国的 DeepSeek-V3.1 和 Kimi-K2。

Mistral 的逻辑很直接:我的参数量只有 Kimi 的一半左右,但我的性能跟你五五开,甚至更强。

官方晒出的成绩单如下:

  • 赢面: 在 MMMLU 和 AMC 上,Mistral Large 3 分别拿到了 85.5 和 52.0 的高分,略微领先 DeepSeek-V3.1。
  • 输面: 在程序员最关心的 LiveCodeBench 和 SimpleQA 上,Mistral Large 3 还是输给了 Kimi-K2。

比 DeepSeek 笨,还贵 3 倍?

虽然 Mistral 试图证明自己是「效率之王」,但在 X 上,科技博主直接泼了一盆冷水,甚至用了「Mistral 正在缓慢死亡 (slow death)」这样严重的词。

他的评价简单粗暴,列出了 Mistral 新模型的三大罪状:

1. 更笨: 脑子不如 DeepSeek 好使。

2. 更贵: 价格却是 DeepSeek 的 3 倍。

3. 更慢: 推理速度甚至比 GPT-5 还慢。

这确实戳到了痛点。在 Artificial Analysis 的最新综合 AI 指数榜单上,Mistral Large 3 的得分只有 38 分。

看看排在前面的谁?Gemini 3 Pro(73分)、Claude Opus 4.5(70分)、GPT-5.1(70分)。Mistral 距离第一梯队的差距,已经不是「追赶」,而是断层了。

在 LMArena 排行榜中,它在开源非推理模型中排第二,总榜第六。成绩尚可,但绝对称不上「屠榜」。

有测试者发现 Mistral Large 3 各个方面都表现不佳:

  • 该模型难以正确执行工具调用,常会输出格式错误或无效的工具调用指令。
  • 在基于图像的基准测试中表现平平。

真正值得冲的,其实是小模型

Ministral 3 是所有开源模型中性价比最高的产品。每种参数规模均提供基础版、指令版和推理版,且均具备图像理解能力,全部基于 Apache 2.0 许可证开源。

这意味着什么?你可以免费商用,随便魔改。

  • 全能: 所有尺寸都支持图像理解,不再是「瞎子」 。
  • 能打: 14B 的推理版在 AIME’25 测试中准确率达到了 85%。

Mistral 3 确实进步了,就像网友说的那样:欧洲仍有一家前沿模型制造商能基本跟上中国开源模型的步伐,尽管 Mistral 尚未推出推理器,其实际性能仍落后于时代。

但在 DeepSeek 把大模型价格打下来的今天,仅仅做到「性能不错」已经不够了。用户要的是极致的聪明,或者极致的便宜。

目前的 Mistral ,似乎卡在了一个尴尬的中间位置。能不能成为「欧洲之光」,可能真得看后续的迭代了。

AI推理
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片