谷歌新模型2.5Pro霸榜AI竞技场,开发者对谷歌新模型评价两极分化

谷歌新模型2.5Pro霸榜AI竞技场,开发者对谷歌新模型评价两极分化
2025年06月06日 15:27 第一财经

【#谷歌新模型2.5Pro霸榜AI竞技场#,#开发者对谷歌新模型评价两极分化#】北京时间6月6日,谷歌推出升级预览版大模型Gemini 2.5 Pro(0605),并表示这会在几周后成为正式的稳定版本,适用于企业级应用。

Gemini 2.5 Pro是谷歌旗舰模型系列,在前三个月公布了几个预览版,此前也一直在大模型竞技场LMArena排名第一,这一次更新的版本各方面的分数都超过了此前的版本,继续排在榜一。

不过,第一财经也询问了一些开发者,他们认为,不能完全相信榜单,要看实际体验和绝大多数开发者的选择,此前Gemini的模型表现各有优劣,开发者评价两极分化,目前刚出来大家或许要用一用才能有更客观的评价。

根据谷歌官方博客,最新2.5 Pro 在多项AI性能基准测试中取得了更高的分数,在 LMArena上Elo分数(衡量模型相对技能水平的评分)提升了24分,目前以1470分的成绩保持领先。

具体领域上,谷歌称,最新模型在代码方面继续表现出色,在 Aider Polyglot 等高难度编程基准测试中保持领先。此外,它在 GPQA(研究生级别的问答测试)中的成绩超过了OpenAI的o3、Claude 4以及DeepSeek-R1的最新版。在“人类的最后考试(HLE) ” 中成绩达到21.6%,比OpenAI的o3多出 1.3个百分点。

海量资讯、精准解读,尽在新浪财经APP
谷歌 开发者 AI

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 06-11 新恒汇 301678 --
  • 06-10 华之杰 603400 --
  • 06-03 海阳科技 603382 11.5
  • 05-30 影石创新 688775 47.27
  • 05-27 交大铁发 920027 8.81
  • 新浪首页 语音播报 相关新闻 返回顶部