移动客户端

新浪科技> 滚动新闻 > 正文

刚刚，Gemini 3再次大更新，全球免费享Pro级智商，奥特曼又要失眠了

刚刚，Gemini 3再次大更新，全球免费享Pro级智商，奥特曼又要失眠了

2025年12月18日 17:22 36氪

新浪财经APP 缩小字体放大字体收藏微博微信

来源：36氪

又快又便宜，脑子还挺在线。

来源｜APPSO（ID：appsolution）

年底了，谷歌又开始冲业绩了。

就在刚刚，Gemini 3 Flash正式发布，直接对标OpenAI和Anthropic的旗舰模型，官方号称比2.5 Pro速度快3倍，价格砍到3 Pro的四分之一，性能还不降反升。

用谷歌自己的话说，这是「为速度而生的前沿智能」。翻译一下就是：又快又便宜，脑子还挺在线。

不过，在实际体验过程中，Gemini 3 Flash的性能表现还是远远不如Pro的，以至于让我产生一种「货不对板」的落差感，也欢迎更多朋友分享你的体验。

即便如此，谷歌在发布时机的选择上依然称得上「快、准、狠」。

紧随Gemini 3 Pro与Deep Think之后上马Flash，也是为了完全不给竞争对手喘息的机会，这也让我越来越期待Sam Altman的圣诞节反击礼物了。

而从今天起，你将能在Gemini产品线里用到三种模型：

Gemini 3 Flash(Fast)：主打一个「快」，适合那些不需要长链条思考、追求效率的对话场景。
Gemini 3 Flash(Thinking)：具备轻量化模型推理能力，使其能够在面对复杂难题时，通过模拟人类的思考过程来提升准确率。
Gemini 3 Pro：性能天花板，它依然是处理极高难度任务的首选。

倒反天罡！Gemini 3 Flash跑分超越Pro

基准测试结果显示，Gemini 3 Flash保留了Pro级别的推理能力，但延迟、成本直接降到Flash级别。

具体来说，在GPQA Diamond这种博士级推理测试里，它能拿到90.4%的成绩，跟那些体积更大的前沿模型打得有来有回。在Humanity's Last Exam这个变态难度的测试中，无需工具辅助就能拿到33.7%的分数。

更夸张的是MMMU Pro测试，Gemini 3 Flash直接拿下81.2%，达到业界最先进水平，跟自家的3 Pro表现相当，属于是有些倒反天罡了。

以前大家觉得「质量-成本-速度」三个维度很难兼顾，要么快但不聪明，要么聪明但却贵。现在谷歌试图用Gemini 3 Flash证明，只要工程化能力优化到位，六边形战士是可以存在的。

数据显示，其Token消耗比2.5 Pro少了三成，速度快三倍，价格更是压到了输入0.5美元/百万Token，输出3美元/百万Token的地板价。

行吧，现在的AI新模型不光要卷参数，还要卷性价比了。

而且它还是个推理型模型，能根据任务复杂度灵活调整「思考」时间。即使在最低的「思考等级」下，3 Flash的表现也常常超过前代模型的「高思考等级」。这种自适应能力在实际应用中特别有价值，不会出现「杀鸡用牛刀」的资源浪费。

对于开发者来说，Gemini 3 Flash的出现，也意味着终于不用在速度和智能之间二选一了。

基准测试显示，Gemini 3 Flash在SWE-bench Verified编码测试里拿到78%的高分，不仅吊打2.5系列，甚至比自家的3 Pro还高。

此外，Gemini 3 Flash的亮点还在于多模态能力，它能更快地处理视觉、音频等输入，把「看见、听见、理解」串成一条相对顺滑的链路，适合需要即时反馈的交互场景。

具体来说，它可以分析高尔夫挥杆视频并在短时间内给出改进建议；你画草图时，它也能实时识别并预测你的意图。再叠加代码执行能力，使它不仅能理解图片内容，还能在工具链支持下对图片进行处理与操作。

Gemini 3 Flash快是真的快，但……

谷歌官方展示了几个很有意思的应用场景。

比如在「投球解谜」类游戏中，Flash可以做实时的辅助推理，给出可行解甚至更优解；

在交互UI设计流程里，它能生成加载动画，并配合快速迭代做A/B方案对比；

你提供一张图片，它也能完成基础识别，再结合上下文生成交互式注释。这些Demo的共同点是：强调实时性、强调迭代效率、强调能跑起来。

我也用Gemini 3 Flash跑了几个案例。

不得不说，对比Gemini 3 Pro，前者的响应速度确实是极快的，但效果嘛，则比较中规中矩，对比Gemini 3 Pro则明显牺牲了视觉与交互细节的质量。

以复刻macOS界面为例，该模型的表现略显乏力：底部Dock栏出现了明显的图标缺失，且在交互细节的精致度上，也明显逊于Gemini 3 Pro的生成效果。

这种差距在「复古拟物风相机应用」的设计任务中尤为突出。从生成的单页应用结果来看，其视觉呈现与预期目标仍有较大差距。

此外，在尝试打造「星球信号」网页时，有一定程度的交互细节，但整体产出的页面效果还是略显粗糙，缺乏设计的细腻感。

两条腿走路的谷歌：一边卷死对手，一边把AI塞进几十亿人的生活

谷歌这次还把Gemini 3 Flash塞进了搜索的AI模式（国内暂不可用）里，逐步向全球开放。

相比之前的版本，它更能理解复杂问题中的细节，从全网抓取实时信息和有用链接，输出视觉上更清晰、有条理的综合答案。

与此同时，Gemini 3 Flash正在成为Google「全家桶」的默认底座。Gemini应用、搜索AI模式、Vertex AI、Google AI Studio、Antigravity、Gemini CLI，全线上新。

全球用户都能免费体验，企业用户则可以通过Vertex AI和Gemini Enterprise来调用。

最后再强调一遍价格，因为这个真的太香了。

输入每百万Token 0.5美元，输出每百万Token 3美元，音频输入每百万token 1美元。试用价格不到Gemini 3 Pro的四分之一。

如果用上下文缓存，重复Token的成本还能再省90%。用Batch API异步处理的话，又能再省50%，同时还能提升调用上限。对于同步或接近实时的场景，付费API用户可以获得面向生产环境的高调用速率。

价格打到这个程度、性能又不算差，OpenAI和Anthropic当然很难睡踏实。

但话得说严谨一点，当宣传口径把Flash包装成「几乎Pro级」的时候，用户自然会用Pro的标准去验货；而一旦遇到复杂推理、长链路任务、稳定性要求更高的场景，Flash的短板就会更明显。

谷歌最大的底牌还是流量。

搜索、YouTube、Gmail、Google Maps，每天数十亿用户在使用这些产品。把3 Flash嵌入到这些高频应用中，用户也就在最熟悉的场景里，无感地、自然地被谷歌AI服务包围。

这种打法OpenAI和Anthropic是学不来的。

一方面，谷歌财大气粗，确实有资本烧钱抢市场；另一方面，谷歌在TPU、数据中心、分布式训练等基础设施和工程优化上的积累，确实能帮他们把成本压下来。

一边做toB的API服务，一边直接把AI能力塞进自家产品里，覆盖海量普通用户。当用户习惯了在搜索里用AI模式，习惯了在Gemini应用里对话，自然就会对谷歌的AI产生依赖。这才是谷歌真正的阳谋。

当然，这种巨头间的内卷对行业是残酷的，但对用户绝对是好事。模型更强、价格更低，开发者能低成本创新，普通人能享受更智能的服务，这大概是这场AI军备竞赛中，为数不多的确定性红利。

关键词 : flash 谷歌奥特曼推理

新浪众测

新浪众测

新浪科技公众号

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

创事记

阅读排行榜

评论排行榜

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技

新浪数码

新浪手机

科学探索

苹果汇

新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻，精彩的震撼图片

新浪首页新浪众测

语音播报返回顶部