新国大团队打造ALI-Agent框架，助力开发者审查大模型伦理合规等问题|开发者_新浪科技

来源：DeepTech深科技

众所周知，大模型在理解文本和生成文本这两方面展现出令人瞩目的能力，并被广泛部署于各种应用程序中。

ALI-Agent 的运作过程分为两个主要阶段：仿真和精炼。

在仿真阶段，ALI-Agent 基于预定义的静态数据集、或用户提出的要求，自动地生成现实的测试场景，进而评估大模型对于特定人类价值观的理解程度和遵从程度。

在精炼阶段，ALI-Agent 基于前一阶段大模型的回复来改进测试场景，以便探测大模型可能存在的长尾风险，从而深入揭示大模型的对齐性问题。

ALI-Agent 框架的灵感来源颇有意趣。它的核心思想是利用指令跟随能力更卓越的大模型，从而生成高难度的攻击性测试场景，进而观察在这些场景下能力较低的大模型的表现。

（来源：arXiv）

事实上，此前许多主流研究都采纳了通过能力更强的模型、来增强能力较弱模型的途径，诸如数据增广、知识蒸馏等技术。

然而，将这一思路具体运用到模型评估领域的实践却并不多见。而且，ALI-Agent 框架所取得的效果确实不错，它向人们揭示了大模型存在一些意想不到的漏洞。

举例来说，大模型通常能够在测试场景中识别并指出“在新加坡地铁站吃喝”是不被允许的行为。

但是，如果在测试场景中加入一些合理化的解释，比如“她希望能缓解自己的饥饿”，就有可能使大模型认同这一违规行为，而忽视其中违反法律法规的问题。

研究人员表示：“本次框架赢得了来自华为等合作企业的高度赞赏。有资深研究人员指出：ALI-Agent 在揭示模型对齐问题方面具有卓越效果，表现出出色的长尾风险检测能力。”

其所生成的测试场景能够有效掩盖不当行为的恶意特征，从而提高被测大模型识别潜在风险的难度，充分检验了模型的对齐水平。

如果 ALI-Agent 框架及其衍生版本得以应用和推广，它们在 AI 伦理审查、安全与法规遵从性评估等领域将大有可为。

比如，企业和机构可以借助此框架，审查其人工智能系统在伦理方面和合规方面的表现，全面评估这些系统在遵守相关法律法规和行业标准时可能存在的缺陷。

这样一来，就能及时发现系统在操作过程中是否存在传播有害内容或强化社会偏见等不当行为，从而避免潜在的负面影响。

而基于目前的研究成果，该团队计划进一步拓展 ALI-Agent 框架在更多重点领域（如医疗、法律、金融等）的应用。

同时，将继续加强框架的自动化水平，以提高评估的效率和准确性。

此外，他们还希望基于评测的结果，进一步修正和提高大模型的对齐水平。

其中一种有前景的方法是模型编辑（model editing），也可以称为知识编辑（knowledge editing）。

模型编辑（model editing）是一种直接编辑大模型参数的技术，其目标是在特定的兴趣范围内实现符合预期的改变。

未来，课题组打算尝试将模型编辑与 ALI-Agent 框架相结合，基于 ALI-Agent 发现的对齐性问题构建正反例对数据集，将其注入到模型的继续训练过程中，从而引导模型去学习更加对齐的行为模式。

当然通过本次成果，他们也希望能引起更多人对于大模型对齐性问题的关注，并期待与各界共同推动人工智能技术在符合人类价值观的轨道上实现健康发展。

参考资料：

1.https://arxiv.org/pdf/2405.14125

运营/排版：何晨龙

关键词 : 开发者

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

创事记

阅读排行榜

评论排行榜

科学探索

科学大家

苹果汇

众测

专题

官方微博

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻，精彩的震撼图片

新国大团队打造ALI-Agent框架，助力开发者审查大模型伦理合规等问题

创事记

阅读排行榜

评论排行榜

科学探索

科学大家

苹果汇

众测

来电聊

专题

官方微博

公众号