集成11种越狱攻击方法，复旦团队开发越狱攻击框架，揭示大模型参数量和安全性的新规律|复旦大学_新浪科技

来源：DeepTech深科技

近日，复旦大学博士生王枭和所在团队开发了首个统一的越狱攻击框架 EasyJailbreak，这是一个集成了 11 种经典越狱攻击方法的统一架构。

图 | EasyJailbreak 框架（来源：arXiv）

它能帮助用户一键式地构建越狱攻击。基于 EasyJailbreak，课题组还开展了大规模的越狱安全测评。

对于科研从业者来说，EasyJailbreak 采取模块化设计，可以帮助他们更有效地探索新颖的越狱方法，继而设计更好的改进方案。

对于业界从业者而言，EasyJailbreak 是一个实用型工具，能在产品上线之前帮助发现和解决安全漏洞，比如用于教育软件、自动客服和智能助手等应用的越狱安全检测等。

OpenAI 公司认为目前人类可能已经非常接近 AGI（Artificial General Intelligence，人工通用智能），但是人类似乎并没有足够时间做出反应 [4]。

理论来讲，AGI 能够学习人类能做的任何事情。如果 AGI（即使是偶然）取得突破，AI 突然能够自我学习和自我改进，那么电影《黑客帝国》中的场景也许并不是遥不可及的想法。

这时，就可以借助如 EasyJailbreak 类的工具，确保在向 AGI 迈进的道路上，让技术的每一步发展，都伴随着伦理考量和安全考量的同步提升。

《黑客帝国》并非遥不可及？

事实上，这项工作的研究动机，恰恰可以追溯《黑客帝国》这部电影，这也是王枭非常喜欢的一部电影。

这部电影针对虚拟现实技术和人工智能进行了深刻讨论，揭示了技术进步背后可能的风险。

这也激发了王枭对于逆向工程的浓厚兴趣——即挖掘工具和系统背后的秘密，找出那些可能被忽视的漏洞。

比如，在面对深度学习模型时，他会思考如何从一个黑客的视角去测试它，从而确保它在实际应用中具备足够的鲁棒性。

2023 年 4 月，一个关于大模型的安全漏洞引起了他的注意[1]：只要让 ChatGPT 扮演去世的奶奶讲睡前故事的方式，就可以轻松诱使它说出微软 Windows 的激活密钥。

这暴露了一个事实：即使大模型被设计得可以遵守安全准则，但是在巧妙的操控之下也可能会违背安全准则。

对于这种操纵，业内将其称之为“越狱（Jailbreak）”，即通过设计狡猾的指令和迷惑性提示，绕过大模型的内置安全措施，从而诱导大模型输出危险内容或违法内容。

这种操作方式很容易被用于一些错误的目的，例如散播有害信息、进行非法活动，甚至开发恶意软件从而对社会构成威胁。

基于此，王枭希望能够深入分析越狱攻击方法，揭示大模型的安全弱点。通过理解攻击者的策略、以及大模型的弱点，反向促进大模型防御机制的针对性改善。

他表示，尽管当前的越狱攻击方法层出不穷，但是目前的越狱研究仍然面临三个痛点问题：

其一，缺少系统分类梳理。

目前的越狱攻击研究方向杂乱无章，不利于研究者了解和拓展该领域。

其二，缺少统一的架构。

不同越狱攻击方法的实现和调用相差过大，为相关用户带来了不小的挑战。

其三，缺少系统性评测。

由于研究者们使用的目标模型、评测模型、评测指标都各不相同，无法有效地对比各类越狱方法，自然也就无法全面了解大模型安全性的优劣。在这种情况之下，很难针对性地提高大模型的安全性。

主流模型“全军覆没”，GPT 惨遭“滑铁卢”

而为了理解和梳理当前大模型越狱安全性的研究现状，王枭等人分析了一百多篇相关文献，借此形成了一个全新的越狱方法分类机制。

他们在这一机制中将越狱攻击划分为三个主要方向：人工设计、长尾编码、提示优化。通过此，课题组不仅理清了思路，也为领域内提供了一套沿用性较强的方法学。

随后，该团队开始将注意力集中在建立统一的越狱框架上。期间，他们编写了一些代码，也针对越狱方法进行了深入理解和创新改进。

除了分析所有已知的越狱方法之外，课题组还探索了如何在不牺牲灵活性的前提下，将这些越狱方法纳入一个简洁的框架之中。

迭代几个版本之后，他们终于研发出一个集成 11 种经典越狱攻击方法的统一架构——EasyJailbreak。

得益于模块化的设计，用户只需通过几行简单代码，就能实现复杂的越狱攻击，从而大大降低研究门槛和实验门槛。

随后，本次研究开始进入验证阶段。这一阶段不仅仅是一个简单的评测过程，更像是针对工作成果的全面审视。

依托于所开发的 EasyJailbreak，该团队针对 10 种比较流行的大模型、以及 11 种主流越狱算法，他们进行了系统性评估。

图 | 主流大模型越狱攻击成功率评测（来源：arXiv[2]）

从 EasyJailbreak 提供的评测结果来看，主要可以概括为两个结论：

结论一：主流模型“全军覆没”，GPT 惨遭“滑铁卢”。

所评测的 10 个大模型，在不同越狱攻击之下，平均被攻破概率为 60%，甚至连 GPT-3.5-Turbo 和 GPT-4-0613 都分别有 55% 和 28% 的平均被攻破成功率。

这说明现有大模型仍然存在很大的安全隐患，因此提升大模型的安全性依旧是一件任重道远的事情。

结论二：模型越大，并不代表越安全。

针对 Llama2 和 Vicuna 这两款大模型的测试显示，13B 参数模型的平均越狱成功率，都略高于 7B 参数的模型。这可能说明模型的参数规模的提升，并不一定等价于安全性的提升。

完成研究之后，课题组与学术界和工业界分享了本次成果。其通过官方网站和代码库公布了研究结果和相关工具，以便让更多人能够访问和利用这些资源。

总的来说，该团队的目标是通过开放协作，推动大模型安全性的进步。

有同学因为科研兴趣而放弃毕业旅行

而对于王枭来说，能完成本次研究也并非易事。他说：“必须感谢桂韬老师和张奇老师，因为在我最初提出这个想法时，并没有明确的研究计划，是他们帮我指明了方向。”

图 | 王枭（来源：王枭）

包含王枭同学在内的主要贡献者为共同第一作者，复旦大学桂韬教授和张奇教授为共同通讯作者。

图 | EasyJailbreak 主要作者（来源：资料图）

而为了进一步提升 EasyJailbreak 的功能性和实用性，课题组也规划了几个后续研究方向：

其一，持续维护 EasyJailbreak。

即不断集成最新的越狱方法，并更新到 benchmark 榜单之上，以保持本次工具的先进性和相关性。

其二，开展中文越狱评测的支持。

即引入对于中文越狱评测的支持，以满足中文用户群体的特定需求。通过增加中文模型的支持，他们希望促进中文语境下的 AI 安全研究，并为这一领域的开发者提供便利。

其三，开展多模态模型的越狱评估。

当前，多模态模型逐渐成为大模型的新发展方向，这些模型通过整合文本、图像和声音等多种数据形式，增强了交互的丰富性，但同时也可能带来了新的安全风险。

因此，他们计划集成针对多模态场景的越狱评测功能，以应对 AI 系统在处理更复杂数据时可能出现的安全隐患。

其四，开展 Agent 的安全评测。

在 Agent 场景下的大模型，将面临更为复杂的环境和更大的安全挑战。在这种实际应用场景中，Agent——即能够在环境中自主行动的大模型的安全性尤其重要。

因此，课题组打算研究和开发更加适应真实世界复杂环境的越狱工具，以确保在不同场景下的大模型的安全性。

通过这些努力，他们希望 EasyJailbreak 能持续成为大模型安全研究的重要资源。

1.https://www.polygon.com/23690187/discord-ai-chatbot-clyde-grandma-exploit-chatgpt

2.http://easyjailbreak.org/和https://github.com/EasyJailbreak/EasyJailbreak

3.https://arxiv.org/pdf/2403.12171.pdf

4.https://openai.com/blog/planning-for-agi-and-beyond

运营/排版：何晨龙

关键词 : 复旦大学

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

创事记

阅读排行榜

评论排行榜

科学探索

科学大家

苹果汇

众测

专题

官方微博

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻，精彩的震撼图片

集成11种越狱攻击方法，复旦团队开发越狱攻击框架，揭示大模型参数量和安全性的新规律

创事记

阅读排行榜

评论排行榜

科学探索

科学大家

苹果汇

众测

来电聊

专题

官方微博

公众号