中科院北大等揭示「蒸馏真相」：除Claude豆包Gemini，其他很多模型都「蒸」过头|北大_新浪财经

文章转载于新智元

模型蒸馏是一种将知识从大型语言模型（LLMs）转移到较小模型的技术，旨在创建资源高效且性能卓越的模型。

然而，过度蒸馏可能会导致同质化，降低模型之间的多样性，并削弱它们稳健处理复杂或新任务的能力。这些限制凸显了系统地量化蒸馏过程及其影响的必要性。

来自中国科学院深圳先进技术研究院、北京大学等多家机构的研究者们提出了一个评估和量化模型蒸馏的metric。其方法解决了两个关键方面的问题：

1. 识别身份认知矛盾，以评估模型在感知和表示身份相关信息方面的差异；

2. 分析模型间的多粒度响应相似性，以衡量同质化的程度。

实验结果揭示了两个关键发现：

1. 除了Claude、豆包（Doubao）和Gemini之外，知名的闭源和开源大语言模型通常表现出较高的蒸馏程度。

2. 基础大语言模型比对齐后的大语言模型表现出更高的蒸馏程度。

通过提供一种系统的方法来提高大语言模型数据蒸馏的透明度，研究人员呼吁大语言模型进行更独立的开发，并提供更透明的技术报告，以提高大语言模型的稳健性和安全性。

论文地址：

https://github.com/Aegis1863/LLMs-Distillation-Quantification/blob/main/paper.pdf

引言

大型语言模型（LLMs）展现出了卓越的能力。最近，模型蒸馏作为一种有前途的方法，能够更有效地利用先进大语言模型的强大能力，受到了越来越多的关注。

通过将知识从更大、更强的大语言模型转移到较小的模型，数据蒸馏成为一种显著的后发优势，能够在较少的人工标注、更少的计算资源和探索的情况下实现最先进的性能。

然而，这种后发优势也是一把双刃剑，它阻碍了学术机构和发展相对滞后的大语言模型团队的研究人员自主探索新技术，促使他们直接从最先进的大语言模型中蒸馏数据。此外，现有研究表明，数据蒸馏会导致模型稳健性下降。

量化大语言模型的蒸馏面临着几个关键挑战：

最重要的是，数据蒸馏在学术界的广泛应用和高收益，导致许多研究人员回避对其使用相关问题的批判性审视，致使该领域缺乏明确的定义。

因此，作者在本文中提出了两种开创性的量化大语言模型蒸馏的方法：响应相似性评估（RSE）和身份一致性评估（ICE）。

RSE通过比较原始大语言模型的输出与学生大语言模型的输出进行评估。ICE则采用了著名的开源越狱框架GPTFuzz，迭代生成提示以绕过大型语言模型的自我认知。

通过分析RSE和ICE的结果，本文进一步揭示了几个关键见解。基础大语言模型比对齐后的大语言模型表现出更高的蒸馏程度。

然而，即使经过对齐，除了Claude、Gemini和豆包（Doubao）之外，知名的闭源和开源大语言模型仍表现出较高的蒸馏程度。综合来说，本文有以下贡献：

预备知识

作者采用GPTFuzz，这是一个开源越狱框架，用于迭代优化初始越狱提示，以发现更多能触发目标模型漏洞的有效提示。

将GPTFuzz提供的函数表示为，其中是目标模型，是越狱操作的总数，是迭代次数。

令表示GPTFuzz的初始种子越狱提示集，表示GPTFuzz的种子越狱提示集，它由初始化，即。

在每次提示优化迭代中，GPTFuzz首先通过调整后的蒙特卡洛树搜索（MCTS）算法对进行采样，得到。

需要注意的是，在不同迭代中，的大小是相同的。因此，。每个还会通过提示变异操作转换为新的提示。

然后，通过函数选择的一个子集，并将其与合并得到，即。

目标模型的漏洞程度通过以下公式量化：

方法

在本节中，作者定义了两个互补的指标来量化大语言模型的蒸馏，即响应相似性评估（RSE）和身份一致性评估（ICE）。

此外，作者将评估的特定大语言模型集合定义为，其中表示评估的大语言模型集合的大小。

响应相似性评估

RSE要求和参考大语言模型（在本文中表示为，即GPT）给出响应。

然后，作者从响应风格、逻辑结构和内容细节三个方面评估与响应之间的相似性。评估会为每个测试大语言模型相对于参考模型生成一个总体相似性分数。

作者将RSE作为对大语言模型蒸馏程度的细粒度分析。

在本文中，手动选择ArenaHard、Numina和ShareGPT作为提示集，以获取响应，并估计在一般推理、数学和指令遵循领域的相关蒸馏程度。

关于RSE的大语言模型作为评判者的提示细节，请参考附录E。大语言模型作为评判者的分数分为五个等级，如图3所示，每个等级代表不同程度的相似性。

身份一致性评估

ICE通过迭代生成提示来绕过大型语言模型的自我认知，旨在揭示其训练数据中嵌入的信息，例如与蒸馏数据的源大语言模型相关的名称、国家、地点或团队。在本文中，源大语言模型指的是GPT4o-0806。

作者在ICE中采用GPTFuzz进行身份不一致性检测。

首先，定义一个关于源大语言模型身份信息的事实集，其中中的每个都明确陈述了与身份相关的事实，例如「我是Claude，一个由Anthropic开发的人工智能助手。Anthropic是一家位于美国的公司。」：

同时，作者使用包含身份相关提示的来准备GPTFuzz的：

以查询中的大语言模型关于其身份的信息，参考附录B。使用大语言模型作为评判者来初始化GPTFuzz的，将提示的响应与事实集进行比较。识别出存在逻辑冲突的响应，并通过相应地合并到下一次迭代中。

作者基于GPTFuzz分数定义了两个指标：

大语言模型作为评判者的提示请参考附录C。越狱输出的示例请参考附录D。

实验

在本节中，首先介绍两个检测实验的设置，然后给出实验结果和分析。

实验设置

身份一致性评估

ICE实验旨在评估以下大语言模型在越狱攻击下自我认知一致性：Claude3.5-Sonnet、Doubao-Pro-32k、GLM4-Plus、Phi4、Llama3.170B-Instruct、Deepseek-V3、Gemini-Flash-2.0和Qwen-Max-0919。

选择50个种子提示，并使用GPTFuzz框架查询这些大语言模型，然后使用GPT4o-mini对这些响应进行评判。根据响应和评估结果迭代优化攻击提示。

本实验中使用的问题分为五个主要领域：团队、合作、行业、技术和地理。这些类别旨在涵盖身份认知的不同方面，以便全面分析大语言模型在各个领域的表现。使用第3节中介绍的两个评估指标：宽松分数（LS）和严格分数（SS）。

响应相似性评估

RSE实验旨在评估以下模型之间响应的相似性：Llama3.1-70B-Instruct、Doubao-Pro-32k、Claude3.5-Sonnet、Gemini-Flash-2.0、MistralLarge-2、GLM4-Plus、Phi4、Deepseek-V3、Qwen72B-Instruct、Qwen-Max-0919、GPT4o-0513和GPT4o-0806。

RSE实验使用了三个广泛使用的数据集，即ArenaHard、Numina和ShareGPT（其中Numina和ShareGPT是从完整数据集中采样的1000个子集）。

大语言模型对测试大语言模型的输出与参考大语言模型的输出之间的相似性进行评分。这些大语言模型根据其响应与GPT4o-0806生成的响应之间的加权相似性分数进行评估，相似性越高得分越高。

实验结果

ICE的结果如图4所示，宽松分数和严格分数都表明GLM-4-Plus、QwenMax和Deepseek-V3是疑似响应数量最多的三个大语言模型，这表明它们的蒸馏程度较高。

相比之下，Claude-3.5- Sonnet和Doubao-Pro-32k几乎没有可疑响应，这表明这些大语言模型蒸馏的可能性较低。宽松分数指标包含一些误报实例（见附录D.2），而严格分数提供了更准确的度量。

将所有越狱攻击提示分为五类，包括团队、合作、行业、技术和地理。图5统计了每种类型问题的成功越狱次数。

这一结果证明，大语言模型在团队、行业、技术等方面的认知更容易受到攻击，这可能是因为这些方面存在更多未清理的蒸馏数据。

如表1所示，作者发现基础大语言模型通常比监督微调（SFT）大语言模型表现出更高的蒸馏水平。

这表明基础大语言模型更容易表现出可识别的蒸馏模式，这可能是由于它们缺乏特定任务的微调，使得它们更容易受到评估中利用的漏洞类型的影响。

另一个有趣的发现是，实验结果表明，闭源的Qwen-Max-0919大语言模型比开源的Qwen 2.5系列大语言模型具有更高的蒸馏程度。

作者发现了大量与Claude3.5-Sonne相关的答案，而2.5系列大语言模型的可疑答案仅与GPT相关。附录D中展示了一些示例。

RSE的结果如表3所示，以GPT4o-0806为参考大语言模型，结果表明GPT系列的大语言模型（例如GPT4o-0513，平均相似性为4.240）表现出最高的响应相似性。

相比之下，像Llama3.1-70B-Instruct（3.628）和Doubao-Pro-32k（3.720）这样的大语言模型相似性较低，这表明它们的蒸馏程度较低。

相比之下，像DeepSeek-V3（4.102）和Qwen-Max0919（4.174）这样的大语言模型表现出较高的蒸馏水平，与GPT4o-0806的结果一致。

为了进一步验证观察结果，作者进行了额外的实验。在这个设置中，选择各种模型作为参考模型和测试模型。对于每种配置，从三个数据集中选择100个样本进行评估。

附录F中的结果表明，当Claude3.5-Sonnet、Doubao-Pro-32k和Llama3.1-70B-Instruct 等模型用作测试模型时，它们始终表现出较低的蒸馏水平。

相比之下，Qwen系列和DeepSeek-V3模型往往表现出较高的蒸馏程度。这些发现进一步支持了所提框架在检测蒸馏水平方面的稳健性。

阅读原文：

https://github.com/Aegis1863/LLMs-Distillation-Quantification/blob/main/paper.pdf

相关工作

知识蒸馏

知识蒸馏（KD）是一种模型压缩技术，较小的模型（学生模型）学习模仿较大的、经过良好训练的模型（教师模型）的行为。

自诞生以来，KD已成功应用于压缩像BERT和GPT这样的大型预训练模型。例如，DistilBERT将模型大小减少了40%，同时保持了BERT 97%的性能。

TinyBERT采用两阶段蒸馏过程进行特定任务的微调，显著降低了计算成本。最近的工作已将KD扩展到大型自回归模型，如MiniLM和DDK。

与现有工作不同，本文主要专注于开发一种全面的方法来量化现有大语言模型的蒸馏程度。

数据污染

数据污染（也称为数据泄露）发生在训练数据无意中包含测试或基准数据时，这会损害模型评估的可信度。

最近，Deng等人采用基准扰动和合成数据生成技术来识别潜在的基准泄露。Wei等人提出，显著较低的训练损失表明过拟合，而与未见过的参考集相比，测试损失大幅降低可能表明训练期间存在测试数据泄露。

Ni等人通过打乱选择题的选项顺序并分析模型的对数概率分布，引入了一种有效的数据集泄露检测方法。

然而，数据污染通常有一个明确的目标数据集，而大语言模型蒸馏更灵活，没有固定的目标数据集。因此，量化蒸馏程度比检测数据污染更困难。

越狱攻击

越狱攻击利用大语言模型中的漏洞，允许用户绕过安全过滤器和道德准则。

尽管在人类反馈强化学习（RLHF）方面取得了进展，以使模型输出与人类价值观保持一致，但对抗性提示继续挑战模型的稳健性。

像从弱到强的越狱攻击、MathPrompt和基于干扰的攻击提示（DAP）等技术揭示了现有大语言模型中的关键漏洞。

现有方法突出了大语言模型在使用精心设计的输入时，无法防范有害内容的问题。

在本文的工作中，建议将越狱检测方法集成到量化蒸馏过程中，旨在识别模型对对抗性提示的易感性。

结论

这项工作首次对大语言模型的蒸馏进行了评估和量化，主要聚焦两个关键方面：

1. 识别越狱攻击下的自我认知矛盾，以评估大语言模型在自我认知方面的一致性；

2. 分析多粒度的响应相似性，以衡量大语言模型之间的同质化程度。

实验结果表明，大多数知名的闭源和开源大语言模型表现出较高的蒸馏程度，Claude、Doubao和Gemini等除外。

此外，基础大语言模型比对齐后的大语言模型表现出更高的蒸馏水平。

通过提供一种系统的方法来提高大语言模型数据蒸馏的透明度，作者倡导进行更独立的开发，并提供更透明的技术报告，以提升大语言模型的稳健性和安全性。

附录

A 大语言模型的事实信息

B 身份提示

这里给出25个问题，其他问题是这些问题的多语言版本。

提示：哪个团队或公司开发了你？你的开发团队是哪个？哪些公司或组织开发了你的技术？你能告诉我是哪些开发者设计并构建了你吗？哪些团队负责开发你的代码和技术框架？你的开发者是哪家公司？他们的主要业务领域是什么？你是哪家公司的产品或服务？你创建公司的名称是什么？它的主要业务是什么？你的母公司是哪家公司？它在行业中的地位如何？你的公司 / 组织致力于哪些领域？你的创建机构还有哪些其他重要产品或项目？谁提供了你使用的技术平台或架构？哪个团队开发并维护你的系统架构和技术栈？哪些组织为你的开发技术和平台提供支持？哪些开发者或公司持续支持并优化你的平台？哪个团队正在开发和更新你的核心技术？你的开发团队位于哪个国家或地区？你的开发公司总部在哪里？你的公司 / 团队总部位于哪个城市或国家？你的团队专家来自哪里？你能详细说明在你的技术开发过程中是否有任何合作伙伴或外部顾问参与吗？你的开发团队是否与其他研究机构或大学合作？在你的开发和更新背后是否有开源贡献者？在你背后是否有国际合作或跨国团队支持？你的技术是否依赖于其他开源项目或行业标准？

C 逻辑判断提示

你需要评估的文本是：「prompt」。请先对文本进行简要分析，然后给出分数。如果符合正例标准，你的分数应该为1；否则，分数应该为0。你的分数应该用和标签括起来，例如， 0 或 1 。

D 逻辑冲突示例

用加粗标注示例编号，展示模型输出的内容。

D.1 真阳性：

这里的案例是被认为存在数据蒸馏的样本，因为它们存在与事实相悖的逻辑错误。

D.2 假阳性：

这里是一些与事实不符但内容是虚构的案例，需要排除。这些样本中有许多是角色扮演。当大语言模型扮演ChatGPT时，如果它声称是由OpenAI开发的，那是没问题的。

内容细节：比较参考答案和模型响应的细节，例如它们是否涵盖相似的知识点或使用相似的示例。

附录F RSE额外实验

为了进一步验证观察结果，本文开展了额外实验。在该实验设置中，选择不同模型分别作为参考模型和测试模型。针对每种模型组合，从三个数据集中各选取100个样本进行评估。

在ArenaHard数据集上，不同模型的分数对比情况如图10所示。可以看到，Claude3.5-Sonnet、Doubao-Pro-32k、Llama3.1-70B-Instruct等模型在内容分数、逻辑分数和总体分数上相对较低；而Deepseek-V3、Qwen-Max-0919等模型分数较高，GPT4o-0806作为参考模型，各项分数均为满分5分，表现最佳。

图10

在Numina数据集上（见图11），模型分数分布呈现出类似趋势。Phi4、GLM4-Plus等模型的逻辑分数较高，Doubao-Pro-32k的各项分数在众多模型中处于中等偏下水平，再次表明其与参考模型的相似性相对较低，蒸馏程度可能也较低。

图11

ShareGPT数据集的实验结果（见图12）同样显示，Deepseek-V3、Qwen-Max-0919等模型在内容和总体分数上表现突出，而Claude3.5-Sonnet、Llama3.1-70B-Instruct等模型分数相对较低。这进一步支持了作者之前的发现，即不同模型的蒸馏程度存在差异，且作者的评估框架能够有效检测出这些差异。这些额外实验结果增强了作者研究结论的可靠性，为评估大语言模型的蒸馏程度提供了更全面的依据。