4o-mini只有8B,Claude 3.5 Sonnet有175B,微软论文「透露」了下顶级模型参数

4o-mini只有8B,Claude 3.5 Sonnet有175B,微软论文「透露」了下顶级模型参数
2025年01月02日 12:00 机器之心Pro

刚刚,X 上的一则推文受到了大家的广泛讨论,浏览量迅速增长。原来,OpenAI 发布的 GPT-4o-mini 居然是一个仅有 8B 参数的模型?

图源:https://x.com/Yuchenj_UW/status/1874507299303379428

事情是这样的。就在前几天,微软和华盛顿大学合作完成了一篇论文《MEDEC: A BENCHMARK FOR MEDICAL ERROR DETECTION AND CORRECTION IN CLINICAL NOTES 》。

论文地址:https://arxiv.org/pdf/2412.19260

这篇论文主要介绍了一个用于检测和纠正临床记录中医疗错误的公开基准测试 MEDEC1,其包含 3,848 个临床文本。论文描述了数据创建方法,并评估了近期的 LLMs(例如 o1-preview、GPT-4、Claude 3.5 Sonnet 和 Gemini 2.0 Flash)在检测和纠正需要医学知识和推理能力的医疗错误任务上的表现。

因为要进行实验,因而在论文实验部分出现了众多模型的参数量,如下所示。

此前,有些模型的参数量都是未知的,也是大家比较好奇的。

此外,在这部分内容底下,微软还列出了一句声明「大多数模型参数的数量是估计的」。

通过这张图,我们不难发现,除了 GPT-4o-mini,大家还发现了其他模型的大小,比如:

  • Claude 3.5 Sonnet: 175B;

  • GPT-4: 1.76T;

  • GPT-4o: 200B;

  • o1-preview: 300B;

  • o1-mini: 200B。

结果部分也是将模型参数分为多个等级:

但是在这个推文下面大家讨论的非常激烈,主要围绕微软对模型大小的估计到底准不准确。

前面我们已经提到,模型参数都是估计出来的。因此有网友表示「就算微软确实知道,但并不代表微软 99% 的员工都知道。」「有 98% 的可能性是他们只是微软雇佣的研究人员,但与有权访问 OpenAI 的团队没有任何联系。」

「感觉这些数字只是作者的猜测,因为他们没有解释他们是如何估计的。」不过这位网友强调的这一点,论文确实说明了参数是估计的。

还有网友表示这篇论文将 Claude 3.5 Sonnet 估计为 175B 有点扯。

「Claude 不可能只有 175B,我敢打赌它接近这个数字的两倍。尤其是自 deepseek-v3 发布以来,其内存大小达到 671B,而 Claude 的表现轻松超越了后者。」

「我敢打赌 4o-mini 是一个 MoE 模型,总共有大约 400 亿个参数,可能有 80 亿个激活参数。我发现它比 80 亿个模型拥有更多的知识(当询问事实时),同时速度相当快。」

还有网友认为这是一个合理的猜测。消息毕竟出自微软。

讨论来讨论去,最后的结论依然是没有结论,你怎么看这篇论文给出的数据呢?

论文微软
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片