刚刚,GPT-4o mini 版迎来“高光时刻”—— 登顶了 lmsys 大模型竞技场,和满血版并列第一,还把 Claude 3.5 甩在了身后。
![](http://n.sinaimg.cn/spider20240724/357/w1080h877/20240724/2041-4609ea392f6fab07d5a5a023beca1e6a.png)
不同于一般的数据集测评,大模型竞技场是用户自己出题、用脚投票的结果,无法通过“刷题”来走捷径,因此更为真实。这个成绩一出,连 CEO 阿尔特曼都激动起来了:
面对评估成绩,我们本来是尽量矜持的,但是看到 GPT-4o mini 表现和满血版一样,价格却只有 1/20,内心还是很激动。
![](http://n.sinaimg.cn/spider20240724/596/w1080h316/20240724/e30e-51300ca3330c909cab807a3ee08e0d58.png)
网友看到之后表示 OK,但更关心的还是 GPT-4o 发布会上演示的“Her”到底啥时候上线。
![](http://n.sinaimg.cn/spider20240724/528/w1080h248/20240724/28f2-252e1118228e7b956b7cd2f79f48918e.png)
与此同时,OpenAI 也送来了另一个好消息,将为开发者送出福利 ——GPT-4o mini 的微调将逐步开放,目前已开放给 tier 4 和 tier 5 用户,然后会陆续扩展范围。而且从即日起到 9 月 23 号,每天都能免费使用 2 百万的训练 token。
![](http://n.sinaimg.cn/spider20240724/686/w1080h406/20240724/9a87-333186eda27f927359d0979795832ca8.png)
mini 与满血版平起平坐
经过 80 多款模型上百万轮的 1v1 比拼,GPT-4o mini 在 lmsys 榜单上的成绩与满血版只差 7 分。按照 lmsys 榜单的排法,这 7 分的差距没有影响名次,把两个型号算作了并列第一。
紧随其后的是 Claude 3.5 和 Gemini 家族,还有 GPT-4 的另外两个版本。
![](http://n.sinaimg.cn/spider20240724/131/w1080h651/20240724/ac60-c06d4e246f711be6cb7c2d0377c816a5.png)
如果我们查看 GPT-4o mini 的原始数据,会发现它 0.6 的平均胜率仅次于满血版本。
![](http://n.sinaimg.cn/spider20240724/239/w1080h759/20240724/1102-9c169abd51d2d3847706ebc02f6c3f4b.png)
单独看两者比拼的结果,同样是打得不相上下。
![](http://n.sinaimg.cn/spider20240724/449/w1080h969/20240724/748e-40beb0b746a74a2689d8a8e4653a52e1.png)
之所以 lmsys 的成绩受到关注,在于它拥有一套独特的比拼方式 —— 不用数据集,而是让用户自己出题,随机拉两个模型 1 对 1battle,然后选择哪个模型表现更好。
在给出选择之前,模型是匿名的,用户也不知道是哪两个模型正在比拼,如果模型自己说漏嘴则投票无效。
![](http://n.sinaimg.cn/spider20240724/343/w1080h863/20240724/debf-b731e948b9db7ff253f91b96aff59fd7.png)
这样得到的分数更加真实,既避免了“刷题”获取虚高分数的可能,也更加接近用户体验。这个大模型竞技场,最近还登上了机器学习顶会 ICML2024。
![](http://n.sinaimg.cn/spider20240724/708/w1080h1228/20240724/6b10-f569bc3e16eb532661c488552cb54fd0.png)
而且,lmsys 的评测也非常受 OpenAI 的青睐,GPT-4o mini 正式上线之前的早期版本,就曾化名为 gpt-mini 在其中打榜。当时就已经排行第 4,和 GPT4-Turbo 处在同一水平。
![](http://n.sinaimg.cn/spider20240724/555/w1080h1075/20240724/ac99-7394a4361f97667b6bdaec84e91c7158.png)
更早一些,GPT-4o 上线之前也是化名 gpt2-chatbot,在 lmsys 上搞起了测试。
![](http://n.sinaimg.cn/spider20240724/91/w1080h611/20240724/a8ee-afa19792b29867baefb89e81ff9e4f55.png)
不过也有人提出质疑,表示虽然 GPT-4o mini 表现确实很好,但是要说它超过了 Claude 3.5 sonnet 就有些言过其实了。
![](http://n.sinaimg.cn/spider20240724/535/w1080h255/20240724/fdc0-a48b48c5cf573b865f5a02dd005270db.png)
有人更是直言,lmsys 方法的完善性已经开始瓦解,需要做出改变,否则将不再是一个有用的测试基准。
![](http://n.sinaimg.cn/spider20240724/543/w1080h263/20240724/e6ff-de81b66959aab493f72040847f56f91e.png)
“小模型”也卷起来了
mini 版本的推出,主打的就是一个性价比。每百万输入 / 输出 tokens,价格分别为 15 美分和 60 美分(约 1.09/4.36 人民币),甚至还不到 3.5 Turbo 的一半。
![](http://n.sinaimg.cn/spider20240724/47/w1080h567/20240724/c3b9-c0df4d83ae7e60e5c8696e87b65b6c73.png)
如果和两年前 GPT-3 的 text-davinci-003 版(当时最好的模型)相比,价格更是下降了 99%。
而且除了把小模型开放给用户,OpenAI 还搞出了新鲜玩法 —— 在“超级对齐”团队的一篇遗作中,使用了参数量为大模型千分之一或百分之一的小模型,来对大模型进行优化。
实验中,大小两个模型相互“博弈”,大模型需要不断优化调整自己的输出,让小模型相信自己说的是真话。
在这个“博弈”的过程中,大模型的能力得到了提升,在精度没有明显损失的情况下获得了大幅度的可理解性提升。
![](http://n.sinaimg.cn/spider20240724/782/w1080h502/20240724/bd58-98122fbfd25e229e7e5b79340c5ed5d1.png)
除了 OpenAI,其他公司也都纷纷搞起了小模型。比如在 GPT-4o mini 之前,谷歌和 Anthropic 就分别推出了 Gemini Flash 和 Claude 3-Haiku。
甚至可以说,GPT-4o mini 就是 OpenAI 对两家的反击,无论是性能还是价格都超越了这两个模型。
![](http://n.sinaimg.cn/spider20240724/463/w720h543/20240724/fb69-9855737f2bdc2437f0ae56b6aa6da2fd.png)
在 GPT-4o mini 发布的同一周,抱抱脸 Hugging Face,以及“欧洲 OpenAI”Mistral 都相继推出了小号模型。甚至苹果也推出了自己的 7B 模型,而且一次性开源了全部训练过程和资源。
总之,在性能足以满足使用需求的前提下,小模型无疑是一种更经济实惠的选择。同时,更小的规模也意味着有可能在端侧运行,在隐私保护等方面显现出优势。
这样就不难理解,“小”模型为什么也越来越卷了。
参考链接:
[1]https://x.com/sama/status/1815877987696533897/
[2]https://x.com/OpenAIDevs/status/1815836887631946015
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
![新浪科技公众号 新浪科技公众号](http://n.sinaimg.cn/tech/content/tech_qr2x.png)
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)
![](http://n.sinaimg.cn/tech/content/tech_weixin2.png)