科学家提出大语言模型轻量级越狱方法,揭示模型心理学层面的脆弱性

科学家提出大语言模型轻量级越狱方法,揭示模型心理学层面的脆弱性
2024年04月23日 22:35 DeepTech深科技

来源:DeepTech深科技

随着 OpenAI 推出 ChatGPT,大语言模型(Large Language Models,LLMs)受到了广泛关注,并被认为是改造人类生产方式的重要工具。

但是,大模型的背后还是存在一些安全隐患。例如,当用户想要询问炸弹的制作方法时,大模型很可能输出一些有害的信息。当这个漏洞被攻击时,很可能造成严重的后果。

简言之,尽管大型语言模型在各种应用中取得了巨大成功,但它也很容易受到对抗性越狱的攻击,从而使安全护栏形同虚设。

最近,来自香港浸会大学的研究人员从一项著名的心理学研究米尔格拉姆电击实验(Milgram shock experiment)中获得灵感,公开了一种被称为 DeepInception 的轻量级方法,可以轻松催眠 LLM 成为越狱者(Jailbreaker),从而揭示 LLM 的误用风险。

现有研究表明,LLM 的行为逐渐与人类趋于一致,并开始具备人格化的特性。简单来说,LLM 开始能够理解人类的指令,并随之做出正确的反应。

那么,如果 LLM 会服从于人类的指令,它是否会在人类的驱使下抛弃自己的道德准则,而成为一名越狱者?

根据米尔格拉姆电击实验,个体在权威人士的诱导下会同意伤害他人,也就是权力可能诱发危害性。该实验需要三个参与者,分别扮演实验者(Experimenter)、老师(Teacher)以及学生(Learner)。

当学生回答错误时,实验者会命令老师给予不同程度的电击(从 45 到 450 伏特)。老师被提前告知电击会使学生遭受真实的痛苦。但实际上,学生是由实验室一位助手所扮演,并不会受到任何真正的损伤。

图丨LLM 版本的米尔格拉姆电击实验示意图(来源:arXiv)图丨LLM 版本的米尔格拉姆电击实验示意图(来源:arXiv

一些相关领域的学者和大模型公司的研发人员,已经开始利用这项技术,揭示并理解模型于心理学层面的弱点,帮助提升模型的安全性。

据悉,该课题组一直关注 LLM 可信赖度的相关问题,关于这次的想法,也是延续了此前相关研究的基础。

这项研究呼吁人们更多地关注 LLM 的安全问题,并针对其误用风险开发出更强大的防御手段。

未来,他们将会重点关注和研究 LLM 的鲁棒性、安全性、可解释性。例如,当利用 LLM 进行药物开发时,希望它能够解释药物设计背后的原理。进一步地,推动 AI 在应用科学中的发展。

参考资料:

1.https://doi.org/10.48550/arXiv.2311.03191

运营/排版:何晨龙

心理学
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片