最早推出Transformer架构的谷歌,一度在大模型竞赛中落后。好在随着Gemini的不断进化,谷歌正在回到第一梯队。
3月26日,Gemini 2.5 Pro上线,这个模型一经推出就登顶各大榜单,在Chatbot Arena上较第二名高出整整39分!
Gemini 2.5 Pro是一款推理模型。谷歌表示,推理能力不仅仅指分类和预测,而是指系统分析信息、得出逻辑结论、融入上下文和细微差别,以及做出明智决策的能力。
据悉Gemini 2.5 Pro 目前支持 100 万 token 的上下文窗口,很快将推出200万token的上下文窗口,继承并发扬了 Gemini 模型的优势——原生多模态能力和超长上下文长度。
这让它能够理解海量数据(14.390, -0.09, -0.62%)集,并处理来自多种信息源的复杂问题,包括文本、音频、图像、视频,甚至完整的代码仓库。
在Chatbot Arena(由加州大学伯克利分校 SkyLab 和 LMSYS 的研究者开发,主要用于根据人类偏好评估大语言模型的性能)上,Gemini 2.5 Pro以横扫所有类别的显著优势排名第一,并且比紧随其后的Grok-3整整高出了39分。

同时Gemini 2.5 Pro还获得了创意写作、指令遵循和长查询三大领域唯一的冠军。

此外,Gemini 2.5 Pro成功登顶了视觉竞技场(Vision Arena)排行榜榜首。

在网页开发领域,作为首个实力媲美 Claude 3.7 Sonnet 的模型,Gemini 2.5 Pro成功获得了网页开发竞技场(WebDev Arena)的第二名。

不仅如此,Gemini 2.5 Pro在Humanity’s Last Exam(no tools),GPQA和 AIME 2025等数学和科学基准评测中同样表现卓越。
Humanity’s Last Exam (no tools)即 “人类的最后考试(无工具)”,这里的 “无工具” 指在进行该考试时,不允许使用外部工具,如搜索引擎、数据库等。已往实验显示,最先进的 LLMs 在 HLE 上的准确率普遍低于 10%,且存在信心与能力失衡、推理效率低等问题,表明当前 LLM 的能力与人类专家在封闭式学术问题上的前沿能力之间的差距。在这一背景下,Gemini 2.5 Pro 18.8%的成绩显得非常突出。

据悉,Gemini 2.5 Pro 已在 Google AI Studio 和 Gemini 应用中,向 Gemini Advanced 用户开放,并将在 Vertex AI 上推出。
而它会在未来几周内公布定价方案,用户可以在更高使用配额下,将模型应用于大规模生产环境。
有意思的是,最近国内和国外两大著名的“起大早赶晚集”选手都发布了最新大模型,含金量是否都能达到评测显示的效果呢?
本文系观察者网独家稿件,未经授权,不得转载。


APP专享直播
热门推荐
冲击全球第四!《哪吒2》票房破154亿元,已在比利时上映!苹果CEO库克:我是忠实观众 收起冲击全球第四!《哪吒2》票房破154亿元,已在比利时上映!苹果CEO库克:我是忠实观众
- 2025年03月29日
- 09:33
- APP专享
- 扒圈小记
33,641
胖东来工资表刷屏!基层员工平均月薪9886元、店长78058元!于东来最新透露:梦想是退休后路边打牌赢汽水
- 2025年03月29日
- 11:46
- APP专享
- 扒圈小记
27,838
胖东来今年前两月员工月均工资9886元,店长78058元!于东来:若员工到手工资不到4000,这个超市可以关了
- 2025年03月29日
- 08:29
- APP专享
- 北京时间
4,795

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨2025-03-29 07:15:50
调查报道《起底“医保取现”背后“回流药”销售网》播出后,国家卫生健康委相关负责人表示,按照《医疗机构药事管理规定》要求,医疗机构必须制订本机构药品采购工作流程;建立健全药品成本核算和账务管理制度;严格执行药品购入检查、验收制度;不得购入和使用不符合规定的药品。国家卫生健康委对此类违法行为保持“零容忍”态度,将协同医保、药监等部门,责成武汉等地压实属地责任,加强对医疗机构穿透式监管,持续严厉打击违法违规行为,切实保障人民群众健康权益。 -
趋势领涨2025-03-29 04:23:50
【飞天价格继续下跌 25年飞天茅台原箱批价报2165元/瓶】今日酒价披露的批发参考价显示,3月29日,25年飞天茅台原箱较前一日下跌5元,报2165元/瓶;24年飞天茅台原箱较前一日下跌10元,报2190元/瓶。 -
趋势领涨2025-03-29 03:50:20
美的集团(sz000333):拟50亿元-100亿元回购股份 其中70%及以上回购股份将用于注销美的集团(sz000333)公告称,拟50亿元-100亿元回购股份,资金来源为自有资金及/或股票回购专项贷款。回购价格不超过100元/股,回购股份将用于注销以减少注册资本及实施股权激励计划及/或员工持股计划,其中70%及以上回购股份将用于注销并减少注册资本。 -
趋势领涨2025-03-29 00:57:40
三、中航产融(sh600705):拟以股东大会决议方式主动撤回A股股票上市交易中航产融(sh600705)公告称,公司收到控股股东中航工业的函件,公司拟以股东大会决议方式主动撤回A股股票在上海证券交易所的上市交易。公司股票于2025年3月31日开市起复牌。前有玉龙股份(sh601028),现在有中航产融(sh600705)主动退市,并且给出现金选择权,这些都是良心公司,至少不忽悠现在持股的散户,至于当初怎么上市的,或者有没有造假,那就是后话了,所以,现有的公司如果增加一条主动退市,不给处罚,对净化市场环境不一定是坏事。四、美股大跌,中概股回调美股低开低走,三大指数均大幅收跌,纳指跌2.7%,本周累跌2.59%;标普500指数跌1.97%,本周累跌1.53%;道指跌1.69%,本周累跌0.96%。彭博科技七巨头指数收跌3.5%。大型科技股普跌,奈飞、谷歌、亚马逊、Meta跌超4%,特斯拉、微软、英特尔跌超3%,苹果跌逾2%,英伟达跌超1%。美股大跌的主要原因,一是老美挑战全世界,二是美国2月核心PCE物价指数环比增0.4%、同比增2.8%,均超预期。中概股也下跌超过3%,但中概股复制的是白天港股的走势,富时A50出现了小幅回调,说明市场还有抛压,下周开盘大盘要回踩60日线附近,随后有望启动上行,大家安心过周末吧,至少下周利空出尽。 -
趋势领涨2025-03-29 00:57:36
二是2015至2019年期间,东旭集团虚增收入累计478.25亿元,虚增利润累计130.01亿元,虚增货币资金447.9亿元(最高);东旭光电虚增收入累计167.6亿元,虚增利润累计56.27亿元。三是东旭集团及相关主体非经营性占用东旭光电、东旭蓝天货币资金,截至目前披露的尚未归还金额合计169.59亿元。河北、深圳证监局拟对李兆廷等43名责任主体合计罚款17亿元,19名主要责任人员采取五年以上直至终身证券市场禁入措施。东旭光电已经退市,证监会对东旭光电和母公司东旭集团开出罚单,意义重大,意味着对财务造假、市场操纵等上市公司,绝不允许一退了之,该罚就罚,该抓就抓,对相关公司都有一定的震慑作用,重点是罚的钱能赔给散户吗?散户能索赔吗? -
趋势领涨2025-03-29 00:57:31
昨天又是大家打酱油的一天,大盘量能继续大幅萎缩,两市只有927只个股红盘,超过4200只个股等待红盘,很多个股几分钟没有一笔交易,有交易的都是量化在收割,盘中急速拉升,随后快速回落,然后再也没有高点,这就是量化的手段,所以,如果你不能在拉升中撤离,最终只有坐电梯。不过,有个好现象就是大盘还没有完全破位,下面60日线还有较强的支撑,只要大盘不跌破60日线,就谈不上本轮行情结束,所以,让子D先飞一会吧,或许黎明就在眼前!另外,所有的靴子下周都将落地,市场或许迎来拨云见日,都担心的利空不一定是利空,所以,大家还是再忍忍吧!一、证监会:禁止参与IPO战略配售的投资者在承诺的限售期内出借股份证监会发布证券发行管理办法,一是禁止参与IPO战略配售的投资者在承诺的限售期内出借股份;二是增加银行理财产品、保险资产管理产品作为IPO优先配售对象。这是晚间实实在在的利好,限售股在限售期内出借出去砸盘,这本身就不叫限售,现在禁止出借,对市场当然是利好,至少减少了抛压。不过,真正的做空工具还有量化和期指交割,如果再把量化规范限制一下,把期指交割延长一点,我们相信A股一定能走出牛市!二、证监会拟对东旭集团证券违法行为行政处罚:对43名责任主体合计罚款17亿元经查,一是2017年东旭光电不符合股票发行条件,以欺骗手段骗取发行核准,违法募集资金75.65亿元;2018年东旭集团不符合公司债券发行条件,以欺骗手段骗取发行核准,违法募集资金35亿元。 -
趋势领涨2025-03-28 10:26:55
阿尔特(sz300825)(300825.SZ)公告称,公司与日产(中国)投资有限公司签署了《业务主协议》,双方将以汽车产品相关车型的开发为目标,在整车开发委托、汽车零部件和系统的开发等领域积极开展项目合作。该协议为合作框架性文件,具体业务合作将以另行协商签署的协议为准。协议有效期为6年。公司是行业领先的提供独立整车研发及系统解决方案的前瞻技术驱动型企业,能够为客户提供全流程、全领域、全栈式、短周期的“交钥匙”服务。日产汽车在中国市场深耕多年,开发了多款经典畅销车型。本次协议签署有利于公司业务拓展和稳健经营,提高公司在国际客户群体中影响力和全球范围内的品牌知名度。 -
数字江恩2025-03-28 09:18:43
2-c是否跌破3340不能保证,只能当下确认。下周几个需要确认的事情是:首先,如果跌破3297,则代表结构判断错误,反之,不跌破都将完成第2浪回踩,然后开始第3浪上涨。其次,下周一二内突破3406代表向上扩展,直接确认第3浪开始,这是小概率事件;正常来说,下周一二震荡,则下周二之后,站上图上的蓝色轮峰线,即确认第三浪开始。判断条件都给出了,下周大家可以结合条件,自己当下判断第2浪下跌结束、第3浪上涨开始。 -
数字江恩2025-03-28 09:18:38
5分钟图来看3297上涨的内部次级别结构。其中第1浪上涨内不是abc三段式结构,第2浪回踩也同样是abc三段式结构。其中2-c的主要跌幅已经在本周五完成。【更多独家重磅股市观点请点击】 -
数字江恩2025-03-28 09:18:25
首先看15分钟图,这是大盘去年12月3494以来的总体结构。对3140的反弹结构,提前预测了abc+X+12345的内部形态。这里我们已经看到3297开始新的1浪上涨结束,而上周高点3439开始的第2浪回踩将在下周确认结束,这是下周最重要的事情。【更多独家重磅股市观点请点击】