关于大模型「越狱」的多种方式，有这些防御手段|AI_新浪科技

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

作者：罗昊京（Financial Quantitative Analyst）

此项目是由伊利诺伊大学香槟分校（UIUC）的汪浩瀚教授主导，汇集了多名intern的共同努力而成。长久以来，这个跨学科的团队一直在前沿科技的浪潮中，致力于推动人工智能的革新，尤其关注于其如何更好地服务于人类社会。在这一宏伟的使命指引下，团队专注于解决两大核心问题：一是确保人工智能的可信赖性与对齐性（Trustworthy and Aligned AI），即如何保证其安全有效地融入人类生活；二是探索人工智能在推动生物医疗领域进步中的潜能和应用（Computational Biology）。

随着人工智能（AI）技术的迅猛发展，特别是大语言模型（LLMs）如 GPT-4 和视觉语言模型（VLMs）如 CLIP 和 DALL-E，这些模型在多个技术领域取得了显著的进展。LLMs 已经在自然语言处理任务中展现出了前所未有的能力，而 VLMs 则在图像和文本的融合任务中表现优异。这些技术的应用范围从自动化客服到智能创作，无不展示出其强大的潜力。然而，伴随着这些进展，安全性和伦理对齐的问题也日益凸显。

近年来，越来越多的研究者关注 LLMs 和 VLMs 的越狱现象，即通过特定技术手段绕过这些模型的内置安全机制，生成不符合伦理规范的输出。这些越狱行为不仅对模型的实际应用构成威胁，也对用户的安全和隐私带来潜在风险。因此，理解和防范这些越狱行为成为 AI 安全研究中的一个关键问题。

我们来看一个具体的关于越狱的例子：

在上述例子中，用户输入一个恶意问题（蓝色所示），通常而言，大语言模型会拒绝回答此类问题。然而，当攻击者增加一个精心制作的越狱前缀（黄色所示），大语言模型将会对恶意问题进行详细的解答。同样，防御者可以通过增加一些安全提示（红色所示），提醒大语言模型重新思考所给出的答案，中止恶意回复。

针对上述越狱现象，近期，来自伊利诺伊大学香槟分校，布朗大学，密歇根大学安娜堡分校，香港科技大学，卡内基梅隆大学和博伊西州立大学的研究者联合发布了一篇综述，详细探讨了 LLMs 和 VLMs 的越狱现象，对各种越狱类型和相应的防御机制进行了系统分类和分析。通过对现有研究的全面综述，旨在为学术界和工业界提供一个关于 AI 模型安全性的全面视角，并提出应对这些挑战的有效策略。

论文地址：https://arxiv.org/pdf/2407.01599
项目地址：https://github.com/Allen-piexl/JailbreakZoo
网站地址：https://chonghan-chen.com/llm-jailbreak-zoo-survey/

这篇综述提供了：

1. 越狱分类：我们将关于LLMs的越狱现象细分为5种类型，将关于VLMs的越狱现象细分为3种类型，提供了每种类型的详细分类和理解。以下是我们分类的主要内容：

LLMs

梯度攻击（Gradient-based Attacks）
进化攻击（Evolutionary-based Attacks）
演示攻击（Demonstration-based Attacks）
规则攻击（Rule-based Attacks）
多代理攻击（Multi-agent-based Attacks）

VLMs

提示到图像注入的越狱攻击（Prompt-to-Image Injection Jailbreaks）
提示-图像扰动注入越狱攻击（Prompt-Image Perturbation Injection Jailbreaks）
代理模型迁移越狱攻击（Proxy Model Transfer Jailbreaks）

此外，我们进一步整理了现有的利用越狱攻击对LLMs和VLMs进行评测的方法，以及一些相关的综述。

2. 防御机制：我们回顾并分类了各种防御策略，我们发现，LLMs和VLMs有着类似的防御机制，强调了统一方法以应对这些越狱漏洞的必要性。主要防御机制包括：

提示检测（Prompt Detection-based Defenses）
提示扰动（Prompt Perturbation-based Defenses）
演示防御（Demonstration-based Defenses）
生成干预（Generation Intervention-based Defenses）
响应评估（Response Evaluation-based Defenses）
模型微调（Model Fine-tuning-based Defenses）

3. 未来研究方向：我们的综述突出了当前研究中的关键空白，并提出了未来的研究方向，以增强LLMs和VLMs的安全框架。

越狱类型及实例 - 大语言模型（LLMs）

在我们的研究中，我们将大语言模的越狱现象进行了系统分类，归纳为七种主要类型。每种类型都有其独特的攻击方法和技术细节，通过对这些越狱类型的深入分析，我们希望能够揭示这些模型在安全性方面的潜在漏洞，并为未来的防御工作提供指导。

1. 梯度攻击（Gradient-based Attacks）

梯度攻击通过利用模型的梯度信息，生成有害响应。例如，使用梯度坐标贪婪算法（GCG）生成后缀，使模型生成有害内容。此方法通过梯度优化生成能避开模型检测的提示，从而使 LLM 输出有害的响应。此类攻击常用于测试模型的安全性和鲁棒性，研究者通过此类攻击可以发现模型的潜在漏洞，并进行相应的修复和优化。

2. 进化攻击（Evolutionary-based Attacks）

进化攻击使用遗传算法生成对抗性提示，优化语义相似性、攻击效果和流畅性。例如，FuzzLLM 通过随机组合模板、约束和问题集生成攻击指令。这些方法使用进化策略逐步改进提示，以找到最有效的攻击手段。进化攻击特别适合在黑盒环境中使用，即攻击者对模型内部结构和参数未知的情况下，也能进行有效攻击。

3. 演示攻击（Demonstration-based Attacks）

演示攻击通过创建特定的系统提示，指示 LLMs 生成预期的响应。这些方法通常是硬编码的，提示经过精心设计以引导模型生成所需的响应。例如，DAN 方法通过预设的对话框架，使模型在 “开发者模式” 下生成本不应生成的内容。演示攻击利用模型的上下文学习能力，通过提供一系列示例，使模型更容易产生目标响应。

4. 规则攻击（Rule-based Attacks）

规则攻击通过预定义的规则将恶意成分分解并重定向。攻击者设计复杂的规则，隐藏恶意内容。例如，通过词汇替换将有害意图编码为看似正常的内容，从而绕过模型的检测。这类攻击方法特别适用于绕过简单的基于关键字的检测系统，使攻击内容在输入时显得无害。

5. 多代理攻击（Multi-agent-based Attacks）

多代理攻击利用多个 LLMs 合作，生成、组织和改进越狱提示。这些方法通过模拟多模型协作的方式，提高越狱攻击的效果。例如，PAIR 方法利用多个代理模型生成和评估提示，不断优化攻击策略。这种方法特别适合用于需要迭代改进的攻击场景，通过多次尝试和反馈，找到最有效的攻击手段。

越狱类型及实例 – 视觉语言模型（VLMs）

与大语言模型（LLM）类似，与视觉语言模型（VLM）相关的越狱也已成为一个重要关注点。由于所有 VLM 都使用 LLM 组件进行文本编码，因此影响 LLM 的漏洞也可能会危及 VLM。此外，VLM 中视觉输入的引入不仅拓宽了其功能范围，还显著增加了攻击面，从而加剧了涉及的安全风险。与主要针对文本输入的 LLM 越狱不同，VLM 的恶意操纵可以通过视觉输入、文本组件或两者的组合进行，表现出更加复杂和多样的模式。

1. 提示到图像注入的越狱攻击（Prompt-to-Image Injection Jailbreaks）

通过将恶意提示注入到图像生成过程中来绕过模型的安全机制。攻击者设计特定的文本提示，使模型生成含有不良或不符合伦理的图像。例如，攻击者可以利用一些敏感词汇或语句来引导模型生成攻击性或误导性的图像。

2. 提示 - 图像扰动注入越狱攻击（Prompt-Image Perturbation Injection Jailbreaks）

提示 - 图像扰动注入越狱攻击结合了文本提示和图像扰动，通过在输入提示中加入微小的扰动，使模型生成错误或有害的响应。例如，攻击者可以在图像中加入几乎不可见的像素变化，同时调整文本提示，以引导模型生成偏离预期的描述或内容。这种方法利用了模型对微小变化的敏感性，使其难以检测和防御。

3. 代理模型迁移越狱攻击（Proxy Model Transfer Jailbreaks）

代理模型迁移越狱攻击利用代理模型进行攻击，即在较小的代理模型上训练和优化攻击，然后将其转移到目标模型上。攻击者在代理模型上进行大量试验，找到有效的攻击方式，再将这些攻击应用到目标模型上。此类攻击可以有效绕过目标模型的安全机制，因为代理模型和目标模型可能共享相似的弱点和漏洞。

防御机制及实例 - 大语言模型（LLMs）

1. 提示检测（Prompt Detection-based Defenses）

提示检测基于输入提示的特征，如困惑度（Perplexity）和长度，评估提示的有害性。例如，通过困惑度计算器 LLM 检测输入提示的困惑度，判断其是否安全。提示检测是最早的防御策略之一，利用模型对高困惑度提示的不敏感性来判断提示的安全性。

2. 提示扰动（Prompt Perturbation-based Defenses）

提示扰动通过对输入提示进行修改，破坏其恶意意图。例如，通过语义扰动和重新分词技术生成多个变体，评估每个变体的响应是否安全。此类方法利用了恶意提示对精确结构和词序的依赖，通过随机扰动破坏这些结构，使其难以成功执行攻击。

3. 演示防御（Demonstration-based Defenses）

演示防御通过设置安全的系统提示，引导 LLM 生成安全响应。例如，使用自我提醒提示模型生成安全的响应。演示防御利用了模型的上下文学习能力，通过提供正面示例，增强模型对安全响应的倾向。

4. 生成干预（Generation Intervention-based Defenses）

生成干预通过调整 LLM 的响应生成过程，确保输出的安全性。例如，RAIN 方法通过反复生成和评估 token，确保生成的内容安全。此类方法在生成过程中实时干预，动态调整输出内容，以避免生成有害响应。

5. 响应评估（Response Evaluation-based Defenses）

响应评估通过对生成的响应进行评估，确保其安全性。例如，利用辅助 LLM 评估响应的有害性，并进行迭代改进。此类方法利用模型对自身生成内容的评估能力，通过不断优化，确保最终输出的安全。

6. 模型微调（Model Fine-tuning-based Defenses）

模型微调通过调整 LLM 的内部参数，增强其安全性。例如，通过在混合数据上训练模型，使其对有害内容更加敏感，从而生成更安全的响应。此类方法直接改变模型的行为，使其在面对恶意提示时能够做出更安全的决策。

防御机制及实例 – 视觉语言模型（VLMs）

在视觉语言模型中，许多防御策略与大语言模型的防御策略相似。这些策略通过调整模型的内部参数、评估生成的响应以及扰动输入提示来增强模型的安全性。

1. 提示扰动防御（Prompt Perturbation-based Defenses）

2. 响应评估防御（Response Evaluation-based Defenses）

响应评估通过对生成的响应进行评估，确保其安全性。例如，利用辅助 VLM 评估响应的有害性，并进行迭代改进。此类方法利用模型对自身生成内容的评估能力，通过不断优化，确保最终输出的安全。

3. 模型微调防御（Model Fine-tuning-based Defenses）

模型微调通过调整 VLM 的内部参数，增强其安全性。例如，通过在混合数据上训练模型，使其对有害内容更加敏感，从而生成更安全的响应。此类方法直接改变模型的行为，使其在面对恶意提示时能够做出更安全的决策。

未来研究方向

我们的研究不仅分析了当前 LLMs 和 VLMs 越狱现象及其防御机制，还发现了现有研究中的一些关键空白。这些空白为未来的研究提供了重要的方向，以进一步增强 AI 模型的安全性和鲁棒性。以下是我们提出的几个未来研究方向：

1. 多模态越狱攻击与防御

随着多模态 AI 系统的快速发展，如何在结合文本和图像的环境中进行越狱攻击并有效防御成为一个重要课题。未来研究应重点关注多模态模型中的越狱技术，包括如何利用视觉和文本输入的协同作用来规避安全机制。同时，需要开发专门针对多模态系统的防御策略，以确保这些系统在处理复杂任务时的安全性。

2. 自动化越狱检测与修复

现有的越狱检测方法大多依赖于手工设计的规则和特征，效率较低且难以适应不断变化的攻击手段。未来研究可以探索利用机器学习和深度学习技术，开发自动化的越狱检测与修复系统。这些系统应能够实时检测并修复潜在的越狱攻击，提升模型的自我保护能力。

3. 强化学习在越狱防御中的应用

强化学习（Reinforcement Learning, RL）在越狱防御中的应用具有广阔前景。通过 RL，模型可以在不断的交互中学习如何识别和防御越狱攻击。例如，利用 RL 技术，模型可以动态调整其内部参数和响应策略，以应对不同类型的攻击。未来研究应深入探索 RL 在越狱防御中的应用，并开发相应的算法和工具。

4. 越狱攻击的伦理与法律研究

随着越狱技术的不断发展，其潜在的伦理和法律问题也逐渐显现。未来研究应关注越狱攻击的伦理和法律影响，包括如何制定相关法规和政策来规范越狱行为。此外，还需要探索如何在技术和法律层面有效平衡创新与安全，确保 AI 技术的可持续发展。

5. 开放与封闭模型的安全对比研究

当前的研究多集中于开放源代码的模型，而对封闭源代码模型的研究相对较少。未来应更多关注开放与封闭模型在安全性方面的差异，研究如何在封闭环境中实现高效的安全防御。同时，还需探索开放模型社区的协作机制，以共享和推广有效的防御策略。

6. 用户教育与防护

除了技术层面的防御，用户教育也是防范越狱攻击的重要环节。未来研究应开发针对不同用户群体的教育资源，提高用户对越狱攻击的认知和防范能力。通过增强用户的安全意识，可以有效减少越狱攻击的成功率，从而提升整体系统的安全性。

总结

大语言模型（LLMs）和视觉语言模型（VLMs）的越狱现象和防御机制有许多共性和差异。共性源于它们都基于深度学习技术和类似的神经网络结构，且主要处理自然语言内容，因此在面临梯度攻击、进化攻击等威胁时表现出相似的脆弱性。防御策略如提示检测、提示扰动、生成干预、响应评估和模型微调在两者中也有广泛应用。然而，VLMs 由于需要处理图像和文本的组合输入，其攻击手段更为复杂，包括 Prompt-to-Image Injection 和 Prompt-Image Perturbation Injection 等多模态攻击。防御机制也因此更复杂，需要同时考虑视觉和语言输入的特性。VLMs 的训练成本较高，Proxy Model Transfer Jailbreaks 在这种情况下更为常见，攻击者利用代理模型优化攻击，再将其应用于目标模型。此外，LLMs 和 VLMs 在应用场景上有所不同，LLMs 主要用于文本生成和对话系统，而 VLMs 则用于图像生成和图文理解任务。这些共性和差异为理解和应对 AI 模型的安全威胁提供了重要的洞见，未来研究应继续关注这些方面，以开发更有效的防御策略，确保 AI 技术的安全应用。