Grok 大模型终于能看懂图像了。
设想一下,如果我们能够将所有 LaTeX 时代之前的文本资料输入到先进的大型语言模型(LLM)中,并从中获得格式规范的 LaTeX 文档库,这无疑将极大地推动科学文献的数字化进程和标准化工作。对于科研工作者而言,这不仅仅是技术层面的飞跃,它更标志着知识管理和信息传播方式的一次重大变革。
马斯克旗下的人工智能公司 xAI 发布的 Grok 大模型有助于实现这一目标 —— 在经历了最近的一次更新后,Grok 大模型终于能看懂图像了,甚至还能做公式 OCR、解释笑话。
AI 销售和营销自动化平台 Amplemarket 创始人 Luis Batalha 在试用后表示:借助 Grok,他能把理论物理学家 Feynman 博士论文中的公式转换成 LaTeX。
转化之前的文本长这样:
可以看出,里面的公式基本都是手写的,肉眼辨认尚有难度。而 Grok 可以把它们转化成如此工整的结果,而且准确率令人惊叹。
这个帖子吸引了众多研究人员的关注,整个帖子的浏览量已经突破 100 万。
还有人晒出了自己用 Grok 识别出的 18 世纪文件:
在识别其他图像方面,Grok 表现也非常不错。比如网友上传了一张手表的照片,Grok 根据表壳形状和表带设计猜出了表的品牌(对手表有研究的读者可以看下猜得对不对)。
你还可以让 Grok 点评图片,它能从时尚、风格、表情等多个角度进行描述。比如针对下面这张图,Grok 回答:「图片中描述了一位动漫风格的人物,这位人物拥有中等长度的棕色头发,戴着眼镜,并且正在弹奏贝斯吉他。该角色展现了一种休闲、现代的造型,穿着一件格子衫外套和深色裤子,以及带有红色装饰的白色运动鞋。这种装扮表明这是一个年轻的、可能还在上学的角色,给人一种悠闲的艺术氛围……」
马斯克表示,Grok 其实也可以用来解释笑话(梗图)。
今年三月,Grok-1 正式亮相,在数学、推理等能力上取得了不错的成绩。之后,xAI 迅速推出 Grok 1.5,新一代模型实现了长上下文理解和高级推理能力。8 月,Grok 2 上线,在常识、数学竞赛问题 (MATH)、研究生水平科学知识 (GPQA) 等领域与其他前沿模型相媲美。
如今,在 xAI 不断完善下,大家终于可以体验 Grok 的图像理解能力了。为了验证各路网友的说法,机器之心在第一时间进行了测试。
公式 OCR 能力实测
首先,机器之心测试了一下 Grok 对公式的处理能力。我们输入经典论文《 Attention Is All You Need 》中的一张公式截图,要求转换成 LaTeX 代码。
然后,我们将 LaTeX 表达式输入到在线 LaTeX 公式编辑器中进行转换,比对之后发现结果完全正确。
之后,我们上了点难度,用手写公式进行测试,输入的公式截图看起来不是很规范,但 Grok 还是给出了结果。
梗图理解能力实测
接着,我们再看看 Grok 对图片的理解能力。
不知大家是否 get 到小女孩吃蛋糕这张图的笑点。如果没有,当你看完 Grok 的解释,有种恍然大悟的感觉。
不过,Grok 并不是总懂幽默。我们输入如下图片,图片原来的意思应该是想表达打工人的一天似乎都很疲惫,但到了深夜却格外精神。但 Grok 给出的结果并不是。
经过测试,我们还发现 Grok 对图片中的中文理解的不是很好,比如错把中文字符「我的精神状态」转换成「敌人的精神状态」。
Grok vs. ChatGPT,谁的识图能力更强?
虽然识图是 Grok 的新功能,效果也很惊艳,但在众多 AI 模型中,这实在算不上一项新颖的功能。因此,有人在马斯克的评论区发出灵魂拷问,「Grok 到底进展到什么程度了?感觉远远落后于 ChatGPT 啊」。对此,马斯克耐心回复说,「我们只用了几个月就完成了其他人花了几年时间的工作。」言下之意似乎是不着急,慢慢打磨新功能。
还有网友上传了一张饮料图片,让 Grok 和 ChatGPT 进行回答。从上传的资料来看,图片内容并不清晰,而且还不是中文,对于不懂外语的小伙伴可能有点难度。但是 Grok 和 ChatGPT 都给出了回答。
Grok 回答:图片中的饮料是「백세주(Baekseju)」 ,这是一种传统的韩国酒精饮料。它是一种用人参和其他草药浸泡的米酒,以其假定的健康益处而闻名。瓶子上的标签显示了 D,这可能是 Baekseju 的某个特定品牌或变种。由于其浓烈的风味和药用属性,通常只消费少量。
ChatGPT 回答:这款饮料是 Bacchus-D,一种在韩国流行的能量饮料。它通常包含咖啡因、牛磺酸和维生素 B2、B6、B12,这些成分被认为可以提升能量水平。在韩国,它常被用作快速提神的饮品。
熟悉这款饮料的小伙伴,可以点评一下,这两个模型,哪个回答的更好。
对于 Grok 没有理解的梗图,我们在 ChatGPT 上也做了测试。ChatGPT 的回答明显更胜一筹,中文识别能力也更强。
经过一番测试以及网友给出的示例来看,Grok 在输出 LaTeX 表达式方面确实不错,对图片中出现的主体和场景解释的非常到位,但对梗图的解释时好时坏,有时能完全解释笑点,有时会解释错误,此外,Grok 对中文字符的识别能力也不是很好。
最后提醒大家一下,Grok 并不是免费的,付费用户才能体验。可以使用的小伙伴,可以进行测试了。
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)