OpenAI“草莓”落地了？ChatGPT惊现神秘GPT-4o模型，网友热议：新版本提升不多，草莓单词测试依然“翻车”，但逻辑推理有改进|改进_新浪财经

每经记者文巧每经实习记者岳楚鹏每经编辑兰素英

当地时间8月13日，OpenAI的聊天机器人账号@ChatGPTapp发文宣布，自上周以来，ChatGPT上了一个新的GPT-4o模型。

根据该账号的回帖，新上线的ChatGPT-4o模型并不是上周发布的API端GPT-4o 0806模型，目前该模型也对免费用户开放，不过有使用次数的限制。

图片来源：X

这一消息立刻引发了网友的热议与猜测：难道这就是传说中的“草莓”项目？之所以网友的热情如此之高，是因为“草莓”项目的前身是Q*算法模型，Q*能够解决棘手的科学和数学问题。如果AI模型掌握了数学能力，将拥有更强的推理能力，甚至与人类智能相媲美。

然而，在随后的测试中，网友们发现新模型与原来的版本相比，没有太大改善，也未能通过经典的草莓单词测试，不过在逻辑推理方面还是有所改进。

GPT-4o家族上新，“草莓”落地？

网友的激动并非毫无缘由。

新模型发布的前一周，OpenAI CEO阿尔特曼在X上发布了一张花园里的草莓照片，网友随即联想到了OpenAI团队此前被爆出的一个名为“草莓（Strawberry）”的项目。但对于评论区的猜测，阿尔特曼本人没有证实，也没有否认，只是确认这张照片拍的是他现实中的花园。

而后，ChatGPT账号发了一个草莓表情，OpenAI员工特里弗·克里奇发了餐盘上的草莓图片，以及爆料人@iruletheworldmo也频繁更新，几乎次次都与草莓相关，这些似乎都指向了一个可能即将揭晓的重要时刻。

因此，当ChatGPT账号宣布GPT-4o家族更新，网友们的情绪和讨论也达到了高点，这一更新是否就是“草莓”的落地？

不过，随着测试信息的披露，网友发现，这一更新并没能满足他们的预期。而且，对于新模型的具体改进和新功能，OpenAI却出奇地保持了沉默。

一系列测试显示，新模型与之前的模型相比并没有太大的改善。在经典的草莓单词测试中，新模型还是出现了错误。大多数测试者反馈称，他们并没有感受到明显的性能提升。有的网友甚至直言根本分不清楚新版本和旧版本到底有什么区别。

图片来源：X

但本次更新并非没有亮点。一些用户指出，新模型在逻辑推理方面有所改进，例如它不再轻易陷入逻辑循环。另外，新模型的响应速度也比之前的版本快了不少。

有网友还总结出了新旧模型之间的三点差异：一是输出风格略有不同，其次推理略有改进，不再陷入循环，最后是更加亲切，更愿意探索其存在的哲学层面（更少机器人化，更像Claude）。但是他也承认新旧模型之间的差异不大。

来源：X

AI发展背后的安全挑战

对于这些评论，ChatGPT的回复是：“还有很多工作要做，我们正在努力。”至于新更新是否是备受关注的“草莓”，外界依然不得而知。

之所以网友们的热情如此高涨，是因为“草莓”项目的前身是Q*算法模型，Q*能够解决棘手的科学和数学问题。如果AI模型掌握了数学能力，将拥有更强的推理能力，甚至与人类智能相媲美。而这一点是目前的大语言模型还无法做到的。

尽管这一方法有可能使模型在智能上实现质的飞跃，但其伴随的危险性也不容忽视。正如斯坦福大学教授、STaR技术的开发者之一Noah Goodman所言：“这种技术潜力巨大，但同时也伴随着相当大的风险。”

据外媒此前报道，“草莓”项目的训练涉及对经过后期训练的模型（这些模型已经针对特定用途或应用进行了有效的后期训练）进行最终微调。这一过程类似于斯坦福大学的自学推理机（STaR）技术。STaR技术允许AI模型通过反复创建自己的训练数据，“引导”自己进入更高的智能水平，理论上可以让语言模型达到超越人类的智能水平。

值得注意的是，OpenAI此前多次因安全问题而受到质疑。今年7月，OpenAI的一名内部人士向美国证券交易委员会（SEC）投诉，指控公司通过非法限制性保密协议限制员工对外披露与公司技术潜在安全问题相关的信息。更早之前，OpenAI原超级对齐团队负责人Jane Leike在离职后也指责公司忽视安全文化，只注重“闪亮的产品”而非安全。

而在8月9日，OpenAI发布了一篇关于安全性的博客文章，详细介绍了公司在开发ChatGPT用户的旗舰模型GPT-4o时所做的安全努力，并探讨了这些技术可能对社会带来的风险。

OpenAI警告称，用户可能会与AI建立社会关系，进而减少对人际交往的需求——这或许对孤独的人有益，但也可能影响健康的社会关系。与AI的长期互动甚至可能影响社会规范，比如，模型允许用户随时打断和“拿走麦克风”，这种行为虽然对AI来说理所当然，但在人际交往中却显得粗鲁。

在谈到GPT-4o的早期测试时，OpenAI透露，他们观察到用户与模型的互动语言开始出现微妙的变化，例如，表达共同纽带的语言，“这是我们在一起的最后一天”等等。这种看似无害的行为，背后可能隐藏着更大的问题。

此外，OpenAI还提到，GPT-4o有时会无意间生成模仿用户声音的输出。换句话说，它可能被用来冒充他人，从而被利用进行犯罪活动。