NeurIPS2025 | 攻破闭源多模态大模型：一种基于特征最优对齐的新型对抗攻击方法|闭源|图像_新浪科技

近年来，多模态大语言模型（MLLMs）取得了令人瞩目的突破，在视觉理解、跨模态推理、图像描述等任务上表现出强大的能力。然而，随着这些模型的广泛部署，其潜在的安全风险也逐渐引起关注。

研究表明，MLLMs 同样继承了视觉编码器对抗脆弱性的特征，容易受到对抗样本的欺骗。这些对抗样本在现实应用中可能导致模型输出错误或泄露敏感信息，给大规模模型的安全部署带来严重隐患。

在此背景下，如何提升对抗攻击的可迁移性 —— 即对抗样本跨模型、尤其是跨闭源模型仍能保持攻击有效性 —— 成为当前研究的关键难题。

然而，当面对如 GPT-4、Claude-3 等强大的闭源商业模型时，现有攻击方法的迁移效果显著下降。原因在于，这些方法通常仅对齐全局特征（如 CLIP 的 [CLS] token），而忽略了图像补丁（patch tokens）中蕴含的丰富局部信息，导致特征对齐不充分、迁移能力受限。

为解决这一难题，本文提出了一种名为 FOA-Attack（Feature Optimal Alignment Attack）的全新靶向迁移式对抗攻击框架。该方法的核心思想是同时在全局和局部两个层面实现特征的最优对齐，从而显著提升攻击的迁移能力。

在全局层面，通过余弦相似度损失来对齐粗粒度的全局特征。
在局部层面，创新性地使用聚类技术提取关键的局部特征模式，并将其建模为一个最优传输（Optimal Transport, OT）问题，实现细粒度的精准对齐。
此外，本文还设计了一种动态集成权重策略，在攻击生成过程中自适应地平衡多个模型的影响，进一步增强迁移性。

大量实验表明，FOA-Attack 在攻击各种开源及闭源 MLLMs 时，性能全面超越了现有 SOTA 方法，尤其是在针对商业闭源模型的攻击上取得了惊人的成功率，且本工作对应的论文和代码均已开源。

论文链接：https://arxiv.org/abs/2505.21494
代码链接：https://github.com/jiaxiaojunQAQ/FOA-Attack

研究背景

多模态大语言模型（MLLMs），如 GPT-4o、Claude-3.7 和 Gemini-2.0，通过融合视觉和语言能力，在图像理解、视觉问答等任务上展现了非凡的性能。然而，这些模型继承了其视觉编码器的脆弱性，容易受到对抗样本的攻击。对抗样本通过在原始图像上添加人眼难以察觉的微小扰动，就能诱导模型产生错误的输出。

对抗攻击分为非目标攻击（旨在使模型输出错误）和目标攻击（旨在使模型输出特定的目标内容）。对于无法访问模型内部结构和参数的黑盒场景（尤其是商业闭源模型），实现高效的目标迁移攻击极具挑战性。

这意味着，在一个或多个替代模型（surrogate models）上生成的对抗样本，需要能够成功欺骗一个完全未知的黑盒目标模型。尽管现有工作已证明了这种攻击的可行性，但其迁移成功率，特别是针对最先进的闭源 MLLMs 时，仍有很大的提升空间。

动机和理论分析

在多模态大语言模型（MLLMs）依赖的 Transformer 架构视觉编码器（如 CLIP）中，存在明确的特征分工：[CLS] token 提炼图像宏观主题（如「大象」「森林」），但会舍弃细粒度细节；patch tokens 则编码局部信息（如「大象耳朵形态」「植被密度」），是模型精准理解图像的关键，缺失会导致对抗样本语义真实性不足。

现有对抗攻击方法的核心局限的是，仅聚焦 [CLS] token 全局特征对齐，忽略 patch tokens 的局部价值，引发两大问题：一是语义对齐不充分，全局特征难区分「大象在森林」与「大象在草原」这类细节差异，局部特征却能清晰界定；二是迁移性差，扰动过度适配替代模型的全局特征，闭源 MLLMs（如 GPT-4o）因视觉编码器设计不同，易识别「虚假语义」，攻击效果骤降。

为突破此局限，FOA-Attack 提出「全局 + 局部」双维度对齐思路（如图 1 所示）：

图 1 (a) 中「特征最优对齐损失」包含两大模块，全局层面用余弦相似度损失对齐 [CLS] token，保证整体语义一致；局部层面通过聚类提取关键模式，将对齐建模为最优传输（OT）问题（右侧「Optimal Transmission」），用 Sinkhorn 算法实现细粒度匹配。

图 1 (b) 的「动态集成模型权重策略」则让多编码器并行生成对抗样本，依收敛速度自适应调权 —— 易优化模型权重低、难优化模型权重高，避免偏向单一模型特征。两者互补，解决了单一维度对齐缺陷，显著提升对开源及闭源 MLLMs 的攻击迁移性。

图 1: FQA-Attack 示意图

方法

FOA-Attack 以生成「语义对齐、迁移性强」的对抗样本为核心目标，通过三个协同模块构建攻击框架，且所有设计均基于对多模态模型特征机制与对抗迁移性的深度优化。

首先是全局粗粒度特征对齐模块，旨在确保对抗样本与目标图像的整体语义一致。该模块从对抗样本

中，分别提取视觉编码器（如 CLIP）[CLS] token 所代表的全局特征 X 与 Y，再通过损失函数最小化两类特征的差异，避免宏观语义偏差（如目标为「大象」却被识别为「汽车」）。核心全局损失公式如下：

和目标图像

其中，为特征内积，||X||、||Y|| 为特征的范数，该公式通过最大化余弦相似度，让对抗样本的全局语义与目标图像高度匹配。

其次是局部细粒度特征对齐模块，针对 patch tokens 局部特征「丰富但冗余」的问题，采用「聚类 + 最优传输」策略实现精准对齐。先通过 K-means 对

；再将两类聚类中心视为特征分布，转化为最优传输问题，用 Sinkhorn 算法求解「最小成本」匹配方案，最终计算局部损失。关键局部损失公式为：

、

聚类，得到代表语义连贯区域（如「大象头部」「森林地面」）的聚类中心

、

的局部特征

和

式中，

为传输计划（表示对抗样本与目标图像局部特征的匹配比例），该损失确保对抗样本的细节与目标图像精准对应。

为特征匹配成本（基于余弦相似度定义），

最后是动态集成模型权重模块，解决传统多模型集成「权重均等易偏科」的问题。以 ViT-B/16、ViT-B/32 等 CLIP 变体为替代模型，先定义「学习速度」Si (T)（第 i 个模型第 T 步与 T−1 步的损失比值，比值越小学习越快），再根据学习速度自适应调整权重 —— 学习慢的模型权重更高，避免优化偏向易适配模型。核心权重公式与总损失公式分别为：

其中，

为单个模型的损失，总损失通过加权融合多模型优化目标，让对抗样本适配不同模型特征偏好，大幅提升迁移性。

为初始权重（设为 1.0）、t 为模型数量、

实验效果

开源模型

表 1：在不同开源模型上的攻击成功率（ASR）与语义相似度（AvgSim）

在 Qwen2.5-VL、LLaVA、Gemma 等开源模型上，FOA-Attack 的攻击成功率（ASR）和语义相似度（AvgSim）显著高于 M-Attack、AnyAttack 等方法。

闭源模型

表 2：在不同闭源模型上的攻击成功率（ASR）和语义相似度（AvgSim）

对 GPT-4o、Claude-3.7、Gemini-2.0 等商业闭源模型，FOA-Attack 表现尤为突出：尤其在 GPT-4o 上，FOA-Attack 的 ASR 达到 75.1%。

推理增强模型

表 3：在不同推理增强模型上的攻击成功率（ASR）和语义相似度（AvgSim）

即使对 GPT-o3、Claude-3.7-thinking 等推理增强模型（理论上更鲁棒），FOA-Attack 仍能突破，这表明推理增强模型的视觉编码器仍存在脆弱性，FOA-Attack 的「全局 + 局部」对齐策略能有效利用这一漏洞。

可视化

图 3：原始干净图像、对抗图像和扰动图像的可视化

结语

FOA-Attack 揭示：通过同时精细对齐全局与局部特征，并在多模型集成中做动态平衡，可以显著提升目标式对抗样本对闭源 MLLMs 的迁移性。研究一方面暴露了当前 MLLMs 在视觉编码阶段的脆弱面，另一方面也为防御方向提供了新的思路（例如如何在局部特征层面加固鲁棒性）。作者在论文中也讨论了效率和计算成本的限制，并给出未来改进方向。

目前，论文与代码已公开，欢迎感兴趣的同学阅读，复现以及深入讨论。

作者介绍

本文作者分别来自新加坡南洋理工大学、阿联酋 MBZUAI、新加坡 Sea AI Lab 以及美国伊利诺伊大学香槟分校（UIUC）。第一作者加小俊为新加坡南洋理工大学博士后。