时隔两月,Mistral AI终于上新Medium 3,近期还有「One more thing」

时隔两月,Mistral AI终于上新Medium 3,近期还有「One more thing」
2025年05月08日 13:51 机器之心Pro

时隔两月,Mistral AI 终于又上新了。

「今天,我们欣喜地宣布推出 Mistral Medium 3,进一步提升语言模型的效率和可用性。」

据官方博客介绍,Mistral Medium 3 处于一个新的性能层级,介于轻量级和大规模模型之间。该模型在关键基准测试中优于 GPT-4o 甚至 Claude 3.7 Sonnet。

只是 Mistral Medium 3 并未开源,目前可通过 Mistral 的官网和 API 或其合作伙伴的 API 使用。Mistral Medium 3 将于周三上线亚马逊云科技的 Sagemaker 平台,后续也会登陆其他主机平台,包括微软的 Azure AI Foundry 和谷歌的 Vertex AI 平台。

该模型专为企业使用而设计,其性能在基准测试中达到了 Claude 3.7 Sonnet 的 90% 以上,但成本仅为后者的 1/8 —— 输入每百万 token 仅需 0.4 美元,输出每百万 token 仅需 2 美元。相比之下,Sonnet 的输入 / 输出价格分别为 3 美元和 15 美元。

另外,Mistral AI 还预告了「One more thing」:

随着三月份 Mistral Small 和今天 Mistral Medium 的发布,我们在接下来的几周内正在筹备一款「大型」产品,这早已不是什么秘密了。即使是我们的中型型号,其性能也远超 Llama 4 Maverick 等旗舰开源型号,我们非常期待「揭开」未来的神秘面纱 :) 

会是什么重磅发布?值得我们期待一下。

优于 GPT-4o 和 Claude 3.7 Sonnet 的性能

基准测试表明,Mistral Medium 3 在软件开发任务中表现出色。在 HumanEval 和 MultiPL-E 等编程测试中,它的表现与 Claude 3.7 Sonnet 和 OpenAI 的 GPT-4o 模型不相上下,甚至更胜一筹。

除了学术基准测试外,团队还报告了更能代表实际用例的第三方人工评测。

根据第三方的人类评估,在 82% 的编程场景中,它优于 Llama 4 Maverick,并且在近 70% 的案例中超过了 Command-A。

该模型在不同语言和模态上也具有很强的竞争力。与 Llama 4 Maverick 相比,它在英语(67%)、法语(71%)、西班牙语(73%)和阿拉伯语(65%)中的胜率更高,并且在多模态性能方面表现出色,在 DocVQA(0.953)、AI2D(0.937)和 ChartQA(0.826)等任务中取得了领先的分数。

Mistral Medium 3 针对企业整合进行了优化。它支持混合部署和本地部署,提供定制化后训练,并且能够轻松连接到业务系统。据 Mistral 称,它已经在金融服务、能源和医疗保健等行业的组织中进行测试,用于支持特定领域的业务流程和面向客户的解决方案。

企业级「ChatGPT」:Le Chat Enterprise

与此同时,Mistral 还推出了 Le Chat Enterprise。

这是一款面向企业的聊天机器人服务,今年早些时候就推出了私人预览版,但今天正式全面上市。

用法如下:

Le Chat Enterprise 可通过网络和移动应用程序使用,它就像 ChatGPT 的竞争对手,但它是专为企业及其员工打造的。考虑到了用户可能会跨不同的应用程序和数据源工作,它将人工智能功能整合到一个单一的、隐私优先的环境中,实现深度定制、跨职能工作流和快速部署。

Le Chat Enterprise 提供了 AI「智能体」构建器等工具,并将 Mistral 的模型与 Gmail、Google Drive 和 SharePoint 等第三方服务集成。

此外,Le Chat Enterprise 即将支持 MCP——Anthropic 为连接 AI 助手和数据所在系统及软件而制定的标准。包括谷歌和 OpenAI 在内的主要 AI 模型提供商,都已经在今年早些时候宣布将采用 MCP。

更多信息,可参考官方博客。

mediumAISonnet美元
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片