H2O.ai宣布其AI大模型已经接近人类通用智能|AI_新浪财经

当地时间12月26日，H2O.ai 宣布其 h2oGPTe Agent 以前所未有的 65% 的得分在 GAIA（通用 AI 助手）基准排行榜上名列前茅，超过了 Google Langfun Agent 的 49%、Microsoft Research 的 38% 和 Hugging Face 的 33%。

GAIA 基准上的这一显着成就表明，H2O.ai 正在主导通用 AI 代理的新兴领域，为该行业树立了新的黄金标准。

H2O.ai 宣布其 h2oGPTe Agent 以前所未有的 65% 的得分在 GAIA（通用 AI 助手）基准排行榜上名列前茅，超过了 Google Langfun Agent 的 49%、Microsoft Research 的 38% 和 Hugging Face 的 33%。

这一非凡的成就表明，H2O.ai 正在主导通用 AI 代理的新兴领域，为该行业树立了新的黄金标准。

GAIA 基准测试衡量 AI 系统在解决熟练人类需要大量时间、思考和精力的现实任务方面的有用程度。它包括数百个挑战，需要费力的研究、数据分析、文档处理和推理。持有学位的人类受访者的分数为 92%，需要几个人类日来解决所有 300 个测试集问题。

h2oGPTe Agent 通过提供始终如一的稳健性、准确性和效率超越了竞争对手，凸显了它为严重依赖熟练人工助理的企业用例做好了准备。

H2O.ai 创始人兼首席执行官 Sri Ambati 评论道：“今天我们宣布，AI 距离 GAIA 基准上人类水平的一般智能仅差 30%。GAIA 中的开放式问题是比 MMLU 更好的智力衡量标准，MMLU 依赖于多项选择。仅仅一年前，整个 Gen AI 生态系统在最严格的 AGI 基准测试之一的准确率上勉强通过十分之一。

“H2O.ai 的创客们构建了 h2oGPTe 代理 AI，它使用世界上最好的模型进行推理、多模态图像、视频、语言理解、代码生成和执行，以惊人的 15% 的准确率超越了 GAIA 基准测试，比 Google Deepmind 的研究人员使用相同的 Claude-3.5-Sonnet 创下的之前记录高出 3.5%。h2oGPTe 代理还击败了 Microsoft Research 的代理 Magentic-1，后者使用 OpenAI 的 o1 模型 27%。

“Agentic AI 正在蚕食 SaaS，随着 h2oGPTe Agentic AI 现已全面推出，我们所有的企业客户都可以解决各种复杂的商业和研究问题。”

H2O.ai 在 GAIA 上的成功凸显了其简单性和适应性的理念，包括：

用于解决复杂的实际任务的高级推理和规划。

跨文本、图像和音频的多模态理解，实现无缝的上下文理解。

集成 Python 执行和 DriverlessAI 等企业工具，用于预测分析和决策。

编辑：芯智讯-林子