让AI像人类一样操作电脑!Anthropic上新Claude 3.5 Sonnet模型新能力

让AI像人类一样操作电脑!Anthropic上新Claude 3.5 Sonnet模型新能力
2024年10月23日 15:30 TechWeb

【TechWeb】10月23日消息,OpenAI竞争对手Anthropic宣布推出升级版的Claude 3.5 Sonnet和新款Claude 3.5 Haiku。

根据Anthropic介绍,升级版Claude 3.5 Sonnet获得了一项革命性的新技能:能够像人类一样操作电脑。同时,升级版Claude 3.5 Sonnet模型各项能力均超越之前版本,尤其在代码方面取得了特别显著的进步,进一步巩固其行业领先地位。

新款Claude 3.5 Haiku则在许多评估中与Anthropic之前最大的型号Claude 3 Opus的性能相匹配,其成本和速度与上一代Haiku相同。

升级后的Claude 3.5 Sonnet现在可供所有用户使用。从今天开始,开发者可以在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上使用计算机测试版进行构建。新的Claude 3.5 Haiku将于本月晚些时候发布。

升级版Claude 3.5 Sonnet:超强编码能力,公测“计算机使用”功能

据介绍,升级版Claude 3.5 Sonnet在业界基准测试中表现卓越,在SWE-bench Verified编码测试的得分由33%跃升至49%,超越所有目前公开可用的模型。在TAU-bench(评估模型灵活运用工具和API综合能力的基准测试)中,其零售领域得分从62.6%提高到69.2%,航空领域从36.0%提高到46.0%。性能全面提升的同时,Claude 3.5 Sonnet的成本与之前版本保持一致。

另外,Anthropic早期的客户反馈表明,升级后的Claude 3.5 Sonnet代表了人工智能编码的重大飞跃。GitLab测试了DevSecOps任务的模型,发现它提供了更强的推理能力(跨用例高达10%),没有增加延迟,使其成为支持多步骤软件开发过程的理想选择。

同时,Anthropic在Claude 3.5 Sonnet公测版中引入了一项突破性的新功能:计算机使用。通过API接入,开发人员可以指导Claude使用计算机,就像人们看屏幕、移动光标、单击按钮和输入文本一样。

Anthropic表示,Claude 3.5 Sonnet是第一个在公测中提供“计算机使用”的AI模型。该功能现阶段是实验性的,预计随着时间的推移,这种能力会迅速提高。

Anthropic介绍,在“计算机使用”能力上,没有制作特定的工具来帮助Claude完成个人任务,而是教它一般的计算机技能,让它能够使用为人类设计的各种标准工具和软件程序。开发人员可以使用这个新兴功能来自动化重复流程,构建和测试软件,并执行研究等开放式任务。

Anthropic构建了一个API,允许Claude感知计算机界面并与之交互。开发人员可以集成此API,使Claude能够将指令(例如,“使用我的计算机和在线数据填写此表单”)转换为计算机命令(例如,检查电子表格;移动光标打开web浏览器;导航到相关网页;使用这些网页中的数据填写表单等等)。

效果方面,在评估人工智能模型像人一样使用计算机的能力的OSWorld上,Claude 3.5 Sonnet在屏幕截图(screenshot-only)类别中的得分为14.9%,明显高于次佳人工智能系统的7.8%。当提供更多步骤来完成任务时,Claude的得分为22.0%。

不过Anthropic也强调,Claude 3.5 Sonnet目前使用计算机的能力并不完美。人们毫不费力地执行的一些操作——滚动、拖动、缩放——目前给都Claude带来了挑战,鼓励开发人员从低风险任务开始探索。

据悉,Asana、Canva、Cognition、DoorDash、Replit和浏览器公司已经开始探索这些功能,执行需要几十个甚至几百个步骤才能完成的任务。例如,Replit正在使用Claude 3.5 Sonnet的“计算机使用”和UI导航功能来开发一个关键功能,该功能在为Replit Agent产品构建应用程序时对其进行评估。

下面是Claude 最新演示的 AI 操作电脑的视频截图

在这个演示中,Claude浏览了不同的标签页,收集了所需信息,并填写了一个表单,所有电脑操作均由Claude生成。

Claude 3.5 Haiku:最快速模型

新推出的Claude 3.5 Haiku是Anthropic下一代速度最快的模型。在与Claude 3 Haiku相同的成本和相似的速度下,Claude 3.5 Haiku在每个技能集上都有所提高,甚至在许多智能基准上超过了Anthropic上一代最大的型号Claude 3 Opus。

Claude 3.5 Haiku在编码任务上表现得尤为出色。例如,它在SWE bench Verified上的得分为40.6%,超过初代版Claude 3.5 Sonnet和GPT-4o。

凭借低延迟、改进的指令遵循和更准确的工具使用,Claude 3.5 Haiku非常适合面向用户的产品、专门的子代理任务,以及从大量数据(如购买历史、定价或库存记录)中生成个性化体验。

Anthropic介绍,Claude 3.5 Haiku将于本月晚些时候提供,并随后提供图像输入能力。

Anthropic是由前OpenAI员工创立的公司,亚马逊是Anthropic的重要投资者。今年3月,亚马逊宣布已完成对 Anthropic 的 40 亿美元投资,以深化推进生成式 AI 技术的发展。

Anthropic于2023年3月发布了Claude 3系列模型Claude 3 Haiku、Claude 3 Sonnet、 Claude 3 Opus,此后便按照各型号进行能力升级迭代。今年6月,Anthropic发布最强大模型Claude 3.5 Sonnet,拥有相比前代模型2倍的推理速度和1/5的调用成本。(果青)

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片