o1满血版泄露了!
没想到,OpenAI还搁那儿“今年一定”呢,不少网友已经率先上手体验到了(doge)。
事情是酱婶的:有网友发现,OpenAI已经在ChatGPT官网上部署了完整版o1,大家伙儿还都能卡bug直接用!
![](http://n.sinaimg.cn/spider20241104/145/w600h345/20241104/750a-1d04a559730968979a3e1b2f6e16a0e3.png)
最初发现此事的网友,测试确认泄露模型具有奥特曼所说的图像推理能力。
![△图源:@legit_rumors](http://n.sinaimg.cn/spider20241104/155/w600h355/20241104/4d6b-a7051736f51ddf606b3bdd4790dec614.png)
而日志也显示该模型就是o1本模。
![](http://n.sinaimg.cn/spider20241104/96/w600h296/20241104/887e-094328e7ae528af8cd75d85874e6b5be.png)
于是,赶在OpenAI出手修复之前,网友们抓紧大玩特玩了一波——
满血o1到底有多牛
和已经发布的o1-preview、o1-mini最直观的不同是,泄露出来的o1支持上传附件。
这也就意味着,终于能测测o1的多模态能力了。
网友们也不说废话,直接上强度,普特南数学竞赛的证明题截图一贴,甩给满血o1。
对正整数n,有fn(x)=cos(x)cos(2x)cos(3x)…cos(nx)。找出最小的n,使得|fn‘’(0)|>2023。
![](http://n.sinaimg.cn/spider20241104/357/w600h557/20241104/20a1-d7178a0d7a939506c7b451d7ec4da242.png)
思考了18秒之后,o1给出答案:18。
![](http://n.sinaimg.cn/spider20241104/248/w600h448/20241104/a05a-9d64113005c88ab02a2bb767013ffd93.png)
答案正确:
![](http://n.sinaimg.cn/spider20241104/267/w600h467/20241104/8060-025c66af15b8ad8d0819d125cf9b7046.png)
再来一道更复杂的,虽然在识图上遇到了一点小问题,但还是稳稳做对了。
![](http://n.sinaimg.cn/spider20241104/245/w600h445/20241104/0240-d7a3ca2f266c6b18e5f0ea4070dc8b04.png)
![](http://n.sinaimg.cn/spider20241104/151/w600h351/20241104/e55f-f51887208e62050f7d5148a9f8f519c9.png)
在如此惊艳表现之下,似乎正确识别人类史上首张黑洞照片也不算什么了(doge)。
![](http://n.sinaimg.cn/spider20241104/310/w600h510/20241104/5996-2f606cecc449e17472d835e32b3cb3e0.png)
不过嘛,也不是没有翻车案例。比如,让大模型数数图里有多少个三角形。
![](http://n.sinaimg.cn/spider20241104/80/w600h280/20241104/4116-3bc1c6597b6169f5f531911529cc8648.png)
ID为anagh的网友,给泄露模型和GPT-4o做了个同屏对比:4o速度很快,给出了错误答案19。
而满血o1花了1分39秒,狂刷一堆token……给出了不同的错误答案:29。
正确答案是24。
![](http://n.sinaimg.cn/spider20241104/365/w598h567/20241104/2199-019bb209164376eff2543d6fe723a91c.png)
这个bug现在已经修复了。不过,有意思的是,这次模型泄露,持续了整整3个小时。
不小心还是故意的?
有网友犀利地点出,这事儿看上去不是“不小心”,而是“精心策划”:
目的是让人们对即将发布的模型有一个预期。
![](http://n.sinaimg.cn/spider20241104/145/w600h345/20241104/e213-da9c323d66cbddc9c089992de6ec6417.png)
不少网友赞同这样的观点:
奥特曼的目的是测试和炒作。
![](http://n.sinaimg.cn/spider20241104/84/w600h284/20241104/26ed-6c02d22dec3f0ddbbd4a95366e138dfb.png)
而由于一切看上去已经部署就绪,甚至有人猜测,o1完整版的正式上线时间就在未来一周之内。
![](http://n.sinaimg.cn/spider20241104/181/w600h381/20241104/cd56-7baa56a85d56430764c15aa9d87cdb1e.png)
值得注意的是,就在这次泄露事件之后,奥特曼马上在??上开始了自己的表演:
![](http://n.sinaimg.cn/spider20241104/413/w600h613/20241104/4599-08699934672d4cd741f3bd526cd43cef.png)
好家伙,都已经吹上o2的风了(还假装上错号……)。
![](http://n.sinaimg.cn/spider20241104/243/w600h443/20241104/3922-ec49a242d7fb22364c17795cc219b9bf.png)
至于为什么是这个时间……
那不得赶在Anthropic发布Claude Haiku 3.5之前搞点事嘛(doge)。
![](http://n.sinaimg.cn/spider20241104/730/w600h130/20241104/ec89-f619edd664f8e2cca3ad737586facf81.png)
参考链接:
[1]https://x.com/legit_rumors/status/1852625385801859321
[2]https://x.com/koltregaskes/status/1852657291469709626
[3]https://x.com/anaghnairr/status/1852668741751919016
![新浪科技公众号 新浪科技公众号](http://n.sinaimg.cn/tech/content/tech_qr2x.png)
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)
![](http://n.sinaimg.cn/tech/content/tech_weixin2.png)