移动客户端

新浪科技> 数码 > 正文

GPT-4o mini 登顶大模型竞技场，OpenAI 阿尔特曼：两个月内微调免费

GPT-4o mini 登顶大模型竞技场，OpenAI 阿尔特曼：两个月内微调免费

2024年07月24日 12:34 IT之家

新浪财经APP 缩小字体放大字体收藏微博微信

刚刚，GPT-4o mini 版迎来“高光时刻”—— 登顶了 lmsys 大模型竞技场，和满血版并列第一，还把 Claude 3.5 甩在了身后。

不同于一般的数据集测评，大模型竞技场是用户自己出题、用脚投票的结果，无法通过“刷题”来走捷径，因此更为真实。这个成绩一出，连 CEO 阿尔特曼都激动起来了：

面对评估成绩，我们本来是尽量矜持的，但是看到 GPT-4o mini 表现和满血版一样，价格却只有 1/20，内心还是很激动。

网友看到之后表示 OK，但更关心的还是 GPT-4o 发布会上演示的“Her”到底啥时候上线。

与此同时，OpenAI 也送来了另一个好消息，将为开发者送出福利 ——GPT-4o mini 的微调将逐步开放，目前已开放给 tier 4 和 tier 5 用户，然后会陆续扩展范围。而且从即日起到 9 月 23 号，每天都能免费使用 2 百万的训练 token。

mini 与满血版平起平坐

经过 80 多款模型上百万轮的 1v1 比拼，GPT-4o mini 在 lmsys 榜单上的成绩与满血版只差 7 分。按照 lmsys 榜单的排法，这 7 分的差距没有影响名次，把两个型号算作了并列第一。

紧随其后的是 Claude 3.5 和 Gemini 家族，还有 GPT-4 的另外两个版本。

如果我们查看 GPT-4o mini 的原始数据，会发现它 0.6 的平均胜率仅次于满血版本。

单独看两者比拼的结果，同样是打得不相上下。

之所以 lmsys 的成绩受到关注，在于它拥有一套独特的比拼方式 —— 不用数据集，而是让用户自己出题，随机拉两个模型 1 对 1battle，然后选择哪个模型表现更好。

在给出选择之前，模型是匿名的，用户也不知道是哪两个模型正在比拼，如果模型自己说漏嘴则投票无效。

这样得到的分数更加真实，既避免了“刷题”获取虚高分数的可能，也更加接近用户体验。这个大模型竞技场，最近还登上了机器学习顶会 ICML2024。

而且，lmsys 的评测也非常受 OpenAI 的青睐，GPT-4o mini 正式上线之前的早期版本，就曾化名为 gpt-mini 在其中打榜。当时就已经排行第 4，和 GPT4-Turbo 处在同一水平。

更早一些，GPT-4o 上线之前也是化名 gpt2-chatbot，在 lmsys 上搞起了测试。

不过也有人提出质疑，表示虽然 GPT-4o mini 表现确实很好，但是要说它超过了 Claude 3.5 sonnet 就有些言过其实了。

有人更是直言，lmsys 方法的完善性已经开始瓦解，需要做出改变，否则将不再是一个有用的测试基准。

“小模型”也卷起来了

mini 版本的推出，主打的就是一个性价比。每百万输入 / 输出 tokens，价格分别为 15 美分和 60 美分（约 1.09/4.36 人民币），甚至还不到 3.5 Turbo 的一半。

如果和两年前 GPT-3 的 text-davinci-003 版（当时最好的模型）相比，价格更是下降了 99%。

而且除了把小模型开放给用户，OpenAI 还搞出了新鲜玩法 —— 在“超级对齐”团队的一篇遗作中，使用了参数量为大模型千分之一或百分之一的小模型，来对大模型进行优化。

实验中，大小两个模型相互“博弈”，大模型需要不断优化调整自己的输出，让小模型相信自己说的是真话。

在这个“博弈”的过程中，大模型的能力得到了提升，在精度没有明显损失的情况下获得了大幅度的可理解性提升。

除了 OpenAI，其他公司也都纷纷搞起了小模型。比如在 GPT-4o mini 之前，谷歌和 Anthropic 就分别推出了 Gemini Flash 和 Claude 3-Haiku。

甚至可以说，GPT-4o mini 就是 OpenAI 对两家的反击，无论是性能还是价格都超越了这两个模型。

在 GPT-4o mini 发布的同一周，抱抱脸 Hugging Face，以及“欧洲 OpenAI”Mistral 都相继推出了小号模型。甚至苹果也推出了自己的 7B 模型，而且一次性开源了全部训练过程和资源。

总之，在性能足以满足使用需求的前提下，小模型无疑是一种更经济实惠的选择。同时，更小的规模也意味着有可能在端侧运行，在隐私保护等方面显现出优势。

这样就不难理解，“小”模型为什么也越来越卷了。

参考链接：

[1]https://x.com/sama/status/1815877987696533897/
[2]https://x.com/OpenAIDevs/status/1815836887631946015

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

关键词 : 分数

新浪众测

新浪众测

新浪科技公众号

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

创事记

阅读排行榜

评论排行榜

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技

新浪数码

新浪手机

科学探索

苹果汇

新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻，精彩的震撼图片

新浪首页新浪众测

语音播报返回顶部