H2O.ai宣布其AI大模型已经接近人类通用智能

H2O.ai宣布其AI大模型已经接近人类通用智能
2024年12月28日 12:13 芯智讯

当地时间12月26日,H2O.ai 宣布其 h2oGPTe Agent 以前所未有的 65% 的得分在 GAIA(通用 AI 助手)基准排行榜上名列前茅,超过了 Google Langfun Agent 的 49%、Microsoft Research 的 38% 和 Hugging Face 的 33%。

GAIA 基准上的这一显着成就表明,H2O.ai 正在主导通用 AI 代理的新兴领域,为该行业树立了新的黄金标准。

H2O.ai 宣布其 h2oGPTe Agent 以前所未有的 65% 的得分在 GAIA(通用 AI 助手)基准排行榜上名列前茅,超过了 Google Langfun Agent 的 49%、Microsoft Research 的 38% 和 Hugging Face 的 33%。

这一非凡的成就表明,H2O.ai 正在主导通用 AI 代理的新兴领域,为该行业树立了新的黄金标准。

GAIA 基准测试衡量 AI 系统在解决熟练人类需要大量时间、思考和精力的现实任务方面的有用程度。它包括数百个挑战,需要费力的研究、数据分析、文档处理和推理。持有学位的人类受访者的分数为 92%,需要几个人类日来解决所有 300 个测试集问题。

h2oGPTe Agent 通过提供始终如一的稳健性、准确性和效率超越了竞争对手,凸显了它为严重依赖熟练人工助理的企业用例做好了准备。

H2O.ai 创始人兼首席执行官 Sri Ambati 评论道:“今天我们宣布,AI 距离 GAIA 基准上人类水平的一般智能仅差 30%。GAIA 中的开放式问题是比 MMLU 更好的智力衡量标准,MMLU 依赖于多项选择。仅仅一年前,整个 Gen AI 生态系统在最严格的 AGI 基准测试之一的准确率上勉强通过十分之一。

“H2O.ai 的创客们构建了 h2oGPTe 代理 AI,它使用世界上最好的模型进行推理、多模态图像、视频、语言理解、代码生成和执行,以惊人的 15% 的准确率超越了 GAIA 基准测试,比 Google Deepmind 的研究人员使用相同的 Claude-3.5-Sonnet 创下的之前记录高出 3.5%。h2oGPTe 代理还击败了 Microsoft Research 的代理 Magentic-1,后者使用 OpenAI 的 o1 模型 27%。

“Agentic AI 正在蚕食 SaaS,随着 h2oGPTe Agentic AI 现已全面推出,我们所有的企业客户都可以解决各种复杂的商业和研究问题。”

H2O.ai 在 GAIA 上的成功凸显了其简单性和适应性的理念,包括:

用于解决复杂的实际任务的高级推理和规划。

跨文本、图像和音频的多模态理解,实现无缝的上下文理解。

集成 Python 执行和 DriverlessAI 等企业工具,用于预测分析和决策。

编辑:芯智讯-林子

海量资讯、精准解读,尽在新浪财经APP
AI Google 基准 推理

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 01-06 惠通科技 301601 --
  • 01-06 思看科技 688583 --
  • 12-30 钧崴电子 301458 10.4
  • 12-30 赛分科技 688758 4.32
  • 12-24 星图测控 920116 6.92
  • 新浪首页 语音播报 相关新闻 返回顶部