来源:DeepTech深科技
近期,大语言模型(Large Language Models,LLMs)已经在理解和生成自然语言上取得了空前的成功。
但是,人类依靠自己的大脑不仅仅可以读写文字,还可以看图、看视频、听音乐等。
所以,为了让 AI 更接近真实世界,将额外的模态比如图像输入,融入大语言模型从而打造多模态大模型(MLLMs,Multi-modal LLMs),被认为是 AI 发展的一个关键新领域。
相比纯文本数据,多模态数据更加难以获取,而从零开始直接训练多模态模型也比较困难。
因此,目前的主流方法是基于预训练好的大语言模型,为其配备一个视觉感知模块,来获取多模态感知能力。典型的该类模型有 Flamingo、BLIP、LLaVA、MiniGPT4 等。
这些模型可以处理图片输入,根据用户的问题生成相应的文本回复。
然而,研究发现尽管这些模型表现出不错的多模态理解能力,但是存在严重的视觉幻觉问题。
具体表现为:幻想图片中不存在的物体、回答中对图片内容的描述与事实严重不符等。
该问题的本质其实是:现有模型在细粒度文本图像匹配能力上存在缺失。
近期,Kosmos、Shikra 和 Ferret 等模型,将 Grounding 能力引入了 MLLM(即 Grounding MLLM)。
它指的是当模型在输出文本时,可以同时输出名词短语所对应物体的边界框坐标,以表示该物体在图片中的位置。
实验结果证明,此类模型具备更可靠的性能,能显著减少视觉幻觉的发生。
此外,由于模型可以更全面地呈现输出文本和文本所指物体在图片中的位置关系,因此可以给用户提供信息量更多、也更容易理解的内容输出。
然而,目前基于边界框的 Grounded MLLM 模型仍然存在几个问题:
首先,受限于长方形物体边界框的表达能力,现有模型无法进行更精细的文本实体定位。
例如,当文本所指物体是不规则的背景形状(如天空、树林)时,或者和其他物体有部分重叠或位置交错等,边界框无法准确表达所表示物体的位置,以至于容易产生歧义。
其次,受限于模型训练数据的多样性,现有模型仅限于指代单个物体,而很难生成物体局部区域、多个物体组成的整体、以及图片中文本的指代。
最后,现有模型是基于图像的隐式特征,来直接预测物体的边界框坐标。
而这一过程并不透明,当出现物体指代错误时,很难诊断问题是出在检测上——即没有成功检测到目标物体,还是出在识别上——即成功检测到物体但是识别错误。
![图 | GROUNDHOG 支持的任务示例(来源:arXiv)](http://n.sinaimg.cn/sinakd20240602s/482/w772h510/20240602/2120-49601d3110e3fa21d9490154d8573ceb.png)
针对这些问题,美国密歇根大学博士生张亦弛和所在团队提出了 GROUNDHOG,这是一个可以支持大型语言模型与视觉实体进行像素级语义对齐的 Grounded MLLM 模型。
![图 | 张亦弛(来源:张亦弛)](http://n.sinaimg.cn/sinakd20240602s/484/w786h498/20240602/3eb7-10148c3b765b07df71331277f610e60e.png)
对于已有的 MLLM 模型来说,其采用输入 patch-level 视觉特征后直接输出定位坐标的黑盒架构。
而 GROUNDHOG 的关键思想是将 Language Grounding(语言接地)解藕成两个阶段:定位和识别。
在定位阶段:
首先,由一个可以提出各种不同实体区域分割的专家模型,提供图像中所有实体的分割。
然后,通过一个掩码特征提取器,提取每个实体的视觉特征,以此作为多模态语言模型的输入。
在识别阶段:
当大语言模型解码出可进行视觉锚定的短语时,就会从输入的所有实体中,选择相应的实体分割进行融合,借此得到文本对应的视觉分割区域。
这种分离的设计不仅允许独立优化实体分割模型和多模态语言模型,还提高了错误分析的可解释性,并允许 MLLM 与多种视觉专家模型灵活结合,从而提高整体性能。
![图 | GROUNDHOG 架构(来源:arXiv)](http://n.sinaimg.cn/sinakd20240602s/733/w1080h453/20240602/71c3-9723c8c1e15c7f7f4f64227c7393673f.png)
此外,GROUNDHOG 的这种设计模式可以自然拓展到区域级的图像理解任务,能够灵活地接受任何图像中的位置和区域指代方式来作为输入。
另据悉,不同于 GPT4ROI、Ferret 等现有模型需要引入额外的 spatial prompt encoder,GROUNDHOG 可以直接和 SAM(Segment Anything)等预训练专家模型结合,从而处理位置的指代输入,进而极大拓展应用场景。
![图 | 与 SAM 无缝衔接处理各种形式的位置提示输入(来源:arXiv)](http://n.sinaimg.cn/sinakd20240602s/155/w673h282/20240602/0587-2796f05477605419292a80528325f940.png)
据了解,为了训练 GROUNDHOG,课题组整合了 27 个现有数据集的 2.5M 文本-图像对,并进行了衍生和增强。
通过此,他们组成一个名为 M3G2 的新数据集,以便用于学习多模态多粒度的视觉文本对齐能力。
M3G2 包括图文锚定描述、指代物体分割、图文锚定问答、视觉指代对话 4 大类任务,涵盖 36 种子任务,具备丰富的视觉文本对齐标注能力。
![图 | M3G2 数据集的 4 种任务示例及数据统计(来源:arXiv)](http://n.sinaimg.cn/sinakd20240602s/313/w720h393/20240602/1a9e-8c6ed825b6d5ef12911b67bbcb00ae1d.png)
通过相关实验,该团队证明 GROUNDHOG 在各种视觉文本对齐任务上,都能达到很好的性能,且无需针对特定任务进行微调。
此外,GROUNDHOG 能显著减少视觉幻觉现象的出现,并在失败案例中提供了易于理解的诊断信息,为需要精确视觉理解和自然语言处理的领域的发展奠定了一定基础。
![(来源:arXiv)](http://n.sinaimg.cn/sinakd20240602s/473/w774h499/20240602/f15d-c8fade42f0eb5b4dcba5f1fd089461af.png)
关于上述数据集和本次模型的详细介绍,可以参考本次论文的附录。之后,他们也会将这部分数据处理和模型训练的代码一并公开。
后续,他们希望能将 GROUDHOG 拓展到第一视角视频,打造一个能够处理视频输入的 Grounded MLLM 个人助手。
参考资料:
1.https://arxiv.org/pdf/2402.16846
排版:初嘉实
![新浪科技公众号 新浪科技公众号](http://n.sinaimg.cn/tech/content/tech_qr2x.png)
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)
![](http://n.sinaimg.cn/tech/content/tech_weixin2.png)