移动客户端

新浪科技> 滚动新闻 > 正文

现在起，真正的强者敢于直面「扣子」的「模型广场」

现在起，真正的强者敢于直面「扣子」的「模型广场」

2024年06月15日 12:11 机器之心Pro

新浪财经APP 缩小字体放大字体收藏微博微信

机器之心原创

作者：Sia

实时 Pk、“蒙面“ 对垒、大众点评、定期排名...... 就问敢不敢揭榜？

字节版 GPTs “扣子”上线后，五年级小学生都能创建自己的英语外教。

“扣子”有一个相当大的优势，就是支持国内知名大语言模型作为底座，还免费，许多 “AI bot" 孕育而生。

不过，无限续杯也有烦恼。“学霸”这么多，挑谁最合适？看跑分？不太懂，也飘渺。要不，大家现场"全开麦“ PK一下？

“扣子”已经把舞台搭好。一个相当刺激的新功能“模型广场”，上线了。

一、“模型广场”：评测玩出盲盒的乐趣

“扣子”支持国内多个知名主流大语言模型作为底座，最新名单除了自家的豆包、通义千问、MiniMax、Moonshot ，新增了智谱 GLM-4 、百川智能 Baichuan4 两员大将。

名单不断更新中，截图时间6月13日

名单不断更新中，截图时间6月13日

名单不断更新中，截图时间6月13日

模型参数、架构各有千秋，特点、擅长领域、生成风格也不尽相同。一位小朋友用“扣子”做手抄报 Bot 时，就问过一个难倒大人的问题，这些“人”，该选谁啊？谁擅长做手抄报呢？

现在，有了官方指引——一个在线大语言模型对比与评估系统“模型广场”，大伙儿“物尽其用”的难度会小很多。

你可以将 “模型广场”视为一个类似“歌手”的竞技舞台，大语言模型“选手”可以不同方式 PK。每一轮对战结束，由观众（用户）给结果投票，看谁表现更好。

为避免先入为主，“选手”匿名出战，用户投票后才会亮出真实身份。

“模型广场”支持三种对战模式。

一个是指定 Bot 对战。我们在 Bot 列表中选了一个感兴趣的 Bot “数学老师”。

“扣子”会随机选取两个匿名模型，基于“数学老师” 既有工作流、知识库等能力配置，回答我们挑选的“容斥”问题（如下图）。

我们人工算出答案 “7”。首先，算出至少参加一科竞赛的人数（15+8+6 -3*2）。然后，从班级总人数 30 中减去这个结果（30-23），即可。

模型 A 很快有了答案，思路清晰简单，答案正确。

模型 B 把“思考”过程写得很详细、很复杂，但结果不对。

评估结果，有四个选项可选：

我们认为“ A 表现更好”，投票后，谜底揭晓。

第二个是随机 Bot 对战。

如果说，指定 Bot 对战适合评估不同“选手”在指定岗位（比如数学教学）上的业务能力。那么，随机 Bot 对战就是现场抽题、即兴发挥，评测“选手”任意业务场景下的能力，综合能力要求更高。

随机 Bot 对战模式下，“扣子”（不再是用户）会从上架的 Bot 中随机选一个出战。我们被随机分配到“军事大模型评估”专家。

“扣子” 会随机选择两个匿名模型，基于“军事大模型评估专家” Bot 的编排、工作流、知识库等能力配置，回答我们的问题。

如何看待孙子兵法的价值？模型 A 的回答，有些片面。

相比之下，模型 B 的回答更为深入、全面。

这一票给 B ，谜底揭晓。

第三个是纯模型对战。

前两个对战模式都是基于 Bot ，“选手”会借助工作流等 Bot 配置来完成任务。

纯模型对战考验的是大模型“裸”的文本生成能力，Bot 配置带来的影响都被清空。

针对“老问题”，模型 A 像粗心的小朋友。

思路对、甚至算式都对，结果计算错误（29-6=24？），功亏一篑：

模型 B 简单利落地解决了问题。

Wait，这答题风格看着眼熟，好像见过？

投票给 B ，谜底揭晓。看来， Baichuan4 数学能力确实强一些：

其实，用过 Quora AI 聊天应用 Poe 的人，对“纯模型对战“不会陌生。Poe 接入了不少炙手可热的大模型，可以针对同一任务，直接比较不同大模型的结果（但不设投票）。

看看这些回答，如果接入“模型广场” PK ，GPT-4o 也不见得稳操胜券。

二、为何大模型需要“大众点评”？

纸面指标好的模型，不一定在实战中表现优秀。

开发者和普通用户追求的是应用落地，在“模型广场”，他们可以直接比较“选手”在真实、具体业务场景下表现，多维度评估能力，选择最合适的一个。

当然，还有一个关键，不用自己掏钱！

比如，几轮 PK 后，我们发现 Baichuan4 数学能力突出，如果要做数学作业 Bot ，肯定会优先考虑它；如果辅导低年级语文学习 Bot ，我们会考虑豆包。

通义千问-Max 文本写作突出，一份书单推荐也能写得文采飞扬，看来适合做手抄报设计 Bot 的底座。

如果要找“六边形战士” ，最好三种对战模式都玩到。你会体感到，有的模型的回答切中要害，但言简意赅；有的回答丰富详尽,但稍显啰嗦；有的擅长多轮对话理解用户意图，但知识覆盖明显不足。多轮 PK，总能找到最靠近需求的一个。

除了实战"亲测"，“模型广场”还会定期推出大语言模型排行榜。和一些常见大语言模型性能榜单相比，它有两个明显不同。

一个是动态更新，可以持续纳入新的评测任务和真实用户反馈，及时反映模型的表现和进步。

另一个就是基于人类偏好，就像一个大模型的“大众点评” 。

其实，LMSYS Org 的大模型竞技场 Chatbot Arena 已经尝鲜在前，成为引用次数最多的大语言模型排行榜之一，被领先的大模型开发商和公司广泛引用。

至于为什么要纳入人类偏好，“扣子”也有自己的解释：

“对于 Chat-GPT 等对齐过人类偏好的对话模型，往往需要一些半开放或开放式问题才能合理评估模型能力，传统 LLM 基准测试框架在这种场景下可能会略有不足。”

这是“扣子”推荐的一些赛题。

第一题是一个开放性问题，评估“今朝晴朗可喜”短文，不同评估者可能对同一篇文章有不同的看法和评分标准。

第五题属于半开放，对于 Tracy 是否应该支付生父的医疗费用，不同评估者的道德观和价值观可能不同，导致对答案的评价产生较大差异。

传统方法确实拿捏不准答案好坏。一方面，回复的质量无法用客观指标衡量。另一方面，也没有一成不变的评估程序，判断不同 Bot 回答的优劣。

这个时候，对比不同模型的回复是一个补强的办法。另外，就是众包评测。在“扣子”看来，客户自己就能判断出什么是最合适的模型。

当然，“模型广场”为“选手”提供展示机会的同时，也会将压力传给大模型厂商，特别是当自家“娃” 表现不佳、排名靠后时。

如果"模型广场"能带来良性竞争，对行业发展是一件好事。

真实消费场景的数据，能为大模型的优化提供参考。评分排名，可以帮助厂商判断自己在行业中的位置，以及与竞品的差距。

“模型广场"聚集了大量对模型性能有强需求的开发者用户，对于模型表现突出、口碑良好的厂商而言，这意味着广阔的潜在客户群体。

通过"模型广场"，开发者们可以充分“把脉”前沿大模型，快速开发和迭代各种创新应用，将 AI 生成能力嵌入到各行各业的场景应用，蓬勃 AIGC 生态。

三、“这东西，你真能用得上！”

“模型广场”上线时，扣子还联合 Intel 推出的一个主题 Bot 征集活动，叫扣子 AI 工坊（ Coze AI Factory ）。

聚焦图文创作、实用工具、互动创意三个赛道，未成年人也能参与，还有上万元奖金可以拿。

“扣子” 定位在平台，不难看出，为求取最大的使用量，他们将心思都倾注在了 “你也能上手 DIY ”。

确实，毫无编程背景，我们曾在一分钟内搞定一个 Bot，尽管是“毛坯”。

“装修”也不费力。因为，为拓展 Bot 的各种技能，插件甚至开发者关心的工作流都有了商店。你要做的就是“选中”+“添加”。

除了技能插件，还有知识库、数据库、长期记忆等，让 “AI Bot ”变得更加个性化和本地化。

为了有更好的交互体验，”扣子”还支持配置开场白、快捷指令、背景图片、语音等。

当然，最特别的一点是，“扣子”可以将构建的 Bot 直接发布到飞书和微信等平台，无缝嵌入到你的生产力工具中。

至此，除了力压开发难度和成本，“扣子”又将 AI 应用的运营难度、成本，一降再降，并完成闭环。

经历了过去一年的大语言模型热，国内的玩家们也都明白，产品要有商业落地才能活下去。

最近有新闻报道，在过去六个月时间里，OpenAI 年收入增长了一倍多，大部分收入来自 ChatGPT 等聊天机器人订阅费，以及软件开发人员付费访问模型 API 。

字节也为 AIGC 产品规划了两条路径，一个是赋能既有业务，另一个就是卡位不同赛道，开发对应的 AI 原生产品。“扣子”正是面向大模型 C 端应用做的探索。

在强大技术实力、丰富的数据资源和广泛应用场景加持下，期待“扣子”接下来的一路生花。

参考链接

https://www.coze.cn/model/arena?bid=6cqv06psk9000&utm_source=jqzx

关键词 : AI

新浪众测

新浪众测

新浪科技公众号

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

创事记

阅读排行榜

评论排行榜

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技

新浪数码

新浪手机

科学探索

苹果汇

新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻，精彩的震撼图片

新浪首页新浪众测

语音播报返回顶部