ECCV 2024 | 让GPT-4图像理解更易出错，全新策略增强VLP模型对抗迁移性|图像|周围_新浪科技

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文作者分别来自南开大学、南洋理工大学和新加坡科技局。第一作者高森森为南开大学大四学生，此工作为其在新加坡科技局实习期间完成，实习导师为本文通讯作者郭青研究员（主页：https://tsingqguo.github.io）。本文的共同第一作者和共同通讯作者是南洋理工大学的加小俊博后研究员（主页：https://jiaxiaojunqaq.github.io）。

针对视觉-语言预训练（Vision-Language Pretraining, VLP）模型的对抗攻击，现有的研究往往仅关注对抗轨迹中对抗样本周围的多样性，但这些对抗样本高度依赖于代理模型生成，存在代理模型过拟合的风险。

为了解决这一问题，我们引入了对抗轨迹交集区域的概念。这个区域由干净样本、当前对抗样本以及上一步对抗样本所构成的三角形区域。通过利用这一区域的多样性，我们不仅考虑了更加多样化的扰动方向，还关注了干净样本周围的对抗多样性，从而提升了对抗样本的迁移性。

本篇工作的论文和代码均已开源。

论文题目：Boosting Transferability in Vision-Language Attacks via Diversification along the Intersection Region of Adversarial Trajectory
论文链接：https://arxiv.org/pdf/2403.12445
代码链接：https://github.com/SensenGao/VLPTransferAttack

研究背景

近年来，ChatGPT-4等视觉 - 语言预训练模型（VLP）展示了强大的多模态理解和生成能力，在图像识别、文本生成等任务中表现出色。然而，这些模型的强大性能也伴随着一个显著的安全隐患：对抗攻击（Adversarial Attacks）。对抗攻击是指通过对输入数据进行微小且难以察觉的扰动，诱使模型产生错误输出。这种攻击方式不仅可以影响模型的预测准确性，甚至可能导致严重的安全问题。

由于 ChatGPT-4 等商业模型通常是闭源的，攻击者无法直接访问其内部参数和结构信息，这使得直接攻击这些模型变得困难。然而，攻击者可以通过对类似的开源或已知结构的 VLP 模型（如 CLIP）进行研究，生成对抗样本并将其应用于闭源商业模型。这种方法被称为对抗攻击的迁移攻击（Transfer Attack）。

对抗攻击的迁移性研究具有重要意义。一方面，了解对抗攻击在不同模型间的迁移性，可以提高对这些商业闭源模型的攻击成功率，从而帮助我们更好地评估和提升闭源模型的安全性，防止潜在的安全漏洞。另一方面，通过研究对抗样本在不同模型上的表现，可以进一步优化对抗训练方法，提高模型的鲁棒性和抗攻击能力。

动机