可信度超越GPT-4V，清华&面壁揭秘「小钢炮」模型背后的高效对齐技术|迭代|清华大学|凯尔·洛瑞_新浪科技

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文主要作者来自 MiniCPM-V 团队，其中第一作者余天予是清华大学 2021 级硕士研究生，他的主要研究方向是通用多模态基础大模型构建及其对齐方法。

近期，由清华大学自然语言处理实验室联合面壁智能推出的全新开源多模态大模型 MiniCPM-Llama3-V 2.5 引起了广泛关注，在发布后火速登顶 Hugging Face、GitHub、Papers With Code 的 Trending 榜首，与 Meta、微软、谷歌等科技巨头共同从全球 66 万模型中脱颖而出。与此同时，该模型使用的多模态对齐数据集也登上了 Hugging Face Trending 第二位。

仅有 8B 体量的 MiniCPM-Llama3-V 2.5 不仅在多模态综合性能上超越了商用闭源的 GPT-4V、Gemini Pro、Claude3，同时在模型可信度方面也达到了开源模型中的最高水平。其出色的性能离不开背后的一项关键性技术 ——RLAIF-V。这项技术基于完全开源的范式进行多模态大模型的对齐，实现了超越 GPT-4V 的可信度。

论文：RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness
论文地址: https://arxiv.org/abs/2405.17220
项目地址：https://github.com/RLHF-V/RLAIF-V
DEMO：https://huggingface.co/spaces/openbmb/RLAIF-V-12B

RLAIF-V 核心特点

从亦步亦趋迈向切磋琢磨，通过开源反馈实现超越 GPT-4V 的可信度。

已有的多模态大模型对齐方案主要采用蒸馏 GPT-4V 等昂贵的闭源模型的方式，实际上提供了一种模仿的方法（“亦步亦趋”）。随着开源社区的不断发展，我们急需一种能够让开源模型利用能力相仿或者相同的模型提供反馈，进行自动对齐的方案（“切磋琢磨”）。RLAIF-V 通过无偏候选构造和分而治之的反馈收集策略，可以从 OmniLMM 12B 等常规开源模型收集大规模的高质量反馈数据。通过充分利用这些数据，RLAIF-V 12B 模型在生成任务和判别任务中都实现了超越 GPT-4V 的可信度。

具备优秀泛用性的大规模高质量反馈数据。

研究团队将训练 RLAIF-V 7B 和 RLAIF-V 12B 过程中所构造的高质量对齐数据整理为规模超过 83k 的多任务多模态对齐数据集 RLAIF-V Dataset，包括图片详细描述、图片知识问答、文字识别等多类指令，图片种类覆盖照片、艺术作品、名人、地标、场景文字等。实验表明，该数据集可有效减少 LLaVA 1.5, MiniCPM-V 等不同多模态大模型在多种任务中的幻觉，展现出了优秀的泛用性。

迭代对齐的高效反馈学习。

在现有的模型训练中，采用的偏好数据是静态的，但随着训练的进行，模型的输出分布却在不断变化，这导致训练数据分布与模型真实分布产生偏移，从而无法充分利用偏好数据，影响模型的对齐效率。RLAIF-V 采用了迭代的方式进行对齐训练，相较于非迭代方法表现出了更高的学习效率和更好的性能，具有更优秀的规模效应。

更可靠全面的多模态评测集 RefoMB。

随着模型能力的发展，已有的评测集或存在评测饱和的情况，或评测准确性不足，从而难以正确区分不同可信度的模型。为此，RLAIF-V 提出了新的 RefoMB 评测集，其指令覆盖了多模态模型感知和推理任务中的 8 个子能力，并包含了卡通图片、富文字图片、照片等多样化的图片类型，用于评估现有多模态模型在开放生成时的回复可信度和通用性能。通过人工标注图片详细描述作为评判参考，RefoMB 有效提高了评测准确性，人工一致性可以达到 96%。

RLAIF-V 框架

RLAIF-V 包含两项创新方法：数据层面，提出完全基于开源模型的高质量反馈数据构造方法；算法层面，采用迭代对齐算法进行模型优化。

大规模高质量开源模型反馈数据的构造

为了减小反馈对齐数据的获取成本，实现规模化的反馈对齐数据获取，并提高开源多模态大模型提供反馈的质量，研究团队结合分而治之的思想，提出了如下数据构造流程以实现高质量开源模型反馈的获取：

无偏候选回复生成（deconfounded candidate response generation）：使用随机解码方法生成多个候选响应。在这种生成方式下，不同回复来自一个相同的分布，有效消除了样本对之间的文本风格差异等混淆因素，使训练过程专注于内容的可信度，从而提高数据效率。
分而治之（divide-and-conquer）：将复杂的响应分解为更简单、可以单独评估的子问题。这种简化使开源多模态大模型可以提供更可靠的反馈。

应用这种数据构造方法，我们不仅可以利用具有更高模型性能的开源多模态大模型为性能较弱的模型提供反馈，还能够通过模型自身反馈的方式，使 OmniLMM 12B 模型实现超越 GPT-4V 的可信度。

迭代对齐算法

为了缓解现有对齐算法存在的分布偏移问题，一个直接的思路是在每步优化时更新反馈数据。但是，这种在线反馈的方式开销大、训练不稳定。因此，研究团队采用了一种迭代对齐算法，在每轮迭代中更新反馈数据，提升数据与模型分布的一致性。具体而言，在每一轮迭代时，利用上一轮训练得到的模型权重生成新的反馈数据，并使用新数据进行训练。