大模型新王诞生!Claude 3首次超越GPT4

大模型新王诞生!Claude 3首次超越GPT4
2024年03月28日 12:21 市场资讯

安装新浪财经客户端第一时间接收最全面的市场资讯→【下载地址

  大模型新王诞生!Claude 3首次超越GPT4

  Claude 3超大杯Opus登顶榜首,大杯Sonnet和小杯Haiku分别获得第四和第六的好成绩,Haiku水平已达到GPT-4级别。

  作者:卜淑情

  来源:硬AI

  一觉醒来,大模型世界迎来了“新王登基”!

  当地时间周三,聊天机器人竞技场Chatbot Arena更新对战排行榜,Claude 3反超GPT-4,一举摘得“最强王者”桂冠。

  这次登顶榜首的是Claude 3系列的超大杯Opus,它以2分Elo的微弱优势,险胜GPT-4-1106-preview模型,GPT-4-0125-preview位列第三。


  而且,不仅仅是超大杯Opus,Claude 3家族其他两个成员大杯Sonnet和小杯Haiku都杀进了TOP10,分别获得了第四和第六的好成绩。

  小杯Haiku达到GPT-4级别

  尤其是小杯Haiku,被官方单独拉出来表扬。

  “Haiku给所有人留下了深刻的印象,根据我们的用户偏好,Claude 3 Haiku已经达到了GPT-4级别!”运行Chatbot Arena的LMSYS平台发帖大赞,“它的速度、功能和上下文长度目前在市场上是独一份的。”

  更难等可贵的是,Haiku参数规模远远小于Opus以及任何的GPT-4模型,而且它的价格是Opus的1/60,响应速度却是它的10倍。

  GPT-4自去年5月被纳入Chatbot Arena榜单以来一直牢牢霸占榜首,但现在,Claude 3凭借其出色表现,尤其是其在高级任务处理上的能力,成功颠覆了这一格局。

  “这是史上第一次,面向高级任务的第一模型Opus和面向成本效率的Haiku均出自非OpenAI的供应商,”独立AI研究员Simon Willison在接受媒体采访时表示,“这非常让人欣慰——在这个领域,顶尖供应商的多样性对大家都有好处。”

  “向新国王下跪!”

  吃瓜网友也纷纷对Claude 3竖起大拇指。

  “印象深刻,Very nice!”

  还有人建议苹果将Claude设置为默认AI工具。

  更有人直呼:“旧王已死。安息吧,GPT-4。”

  “向新国王下跪!”

  相比之下,网友对GPT-4的感情更加复杂。

  “GPT-4变得非常蹩脚。”

  最近几个月,有关GPT-4变懒的话题在网上闹得沸沸洋洋。

  据称,GPT在高峰时段使用时,响应会变得非常缓慢且敷衍,甚至还会拒绝回应,单方面中断对话。

  比如,它在进行编程工作时会习惯性地跳过部分代码,还出现了让人类自己写代码的名场面

  评分准确吗?

  在一阵赞扬Claude 3的声音中,也夹杂着质疑的声音。

  那么,Chatbot Arena究竟是如何给这些大模型打分的?

  Chatbot Arena由伯克利大学主导团队的LMSYS开发。平台采用匿名、随机的方式让不同的大模型“打擂台”,并让人类用户担任裁判,最后根据大模型所得的积分进行排名。

  具体来说,系统每次会随机选择两个不同的大模型和用户匿名聊天,让用户决定哪款大模型的表现更好一些,系统会根据用户的选择对大模型进行打分,然后将分数汇总整理形成最终的积分,最后以排行榜的形式呈现。

  自推出以来,已有超过40万名用户成为Chatbot Arena的裁判。新一轮排名又吸引了7万名用户加入。

  在本次激烈的“擂台赛”中,Claude 3通过成千上万次的对战,在GPT-4、Gemini等一众强劲对手中杀出重围,成为新的大模型之王。

  值得一提的是,在评价一个大模型的好坏时,用户的“感觉”也就是体验感至关重要。

  “所谓的参数标准无法真正评价大模型的价值,”AI软件开发者Anton Bacaj此前发贴说,“我刚和Claude 3 Opus进行了一场长时间的编码会话,真的是远超GPT-4。”

  Claude 3的进化可能会令OpenAI感到一丝不安,一些用户已经开始在工作中“叛变”,放弃ChatGPT,转而使用Claude 3。

  “自从有了Claude 3 Opus,我再也没有用过ChatGPT。”

  软件开发者Pietro Schirano在X平台写道:“老实说,Claude 3 > GPT-4最令人震惊的事情之一,就是切换太容易了。”

  但也有人指出,Chatbot Arena并没有考虑到添加工具后的表现,这恰恰是GPT-4的强项。

  另外,Claude 3 Opus和GPT-4之间的分数非常接近,而且GPT-4已经问世一年了,预计今年某个时候会出现更强大的 GPT-4.5或GPT-5。

  毋庸置疑,到那时这两大模型之间的PK将会更加激烈。

  本文来自微信公众号“硬AI”,关注更多AI前沿资讯请移步这里

  市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

股市回暖,抄底炒股先开户!智能定投、条件单、个股雷达……送给你>>
海量资讯、精准解读,尽在新浪财经APP

责任编辑:王永生

AI

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 04-01 宏鑫科技 301539 --
  • 03-29 灿芯股份 688691 19.86
  • 03-27 无锡鼎邦 872931 6.2
  • 03-25 中瑞股份 301587 21.73
  • 03-22 广合科技 001389 17.43
  • 新浪首页 语音播报 相关新闻 返回顶部