
文章转载于新智元
模型蒸馏是一种将知识从大型语言模型(LLMs)转移到较小模型的技术,旨在创建资源高效且性能卓越的模型。
然而,过度蒸馏可能会导致同质化,降低模型之间的多样性,并削弱它们稳健处理复杂或新任务的能力。这些限制凸显了系统地量化蒸馏过程及其影响的必要性。
来自中国科学院深圳先进技术研究院、北京大学等多家机构的研究者们提出了一个评估和量化模型蒸馏的metric。其方法解决了两个关键方面的问题:
1. 识别身份认知矛盾,以评估模型在感知和表示身份相关信息方面的差异;
2. 分析模型间的多粒度响应相似性,以衡量同质化的程度。
实验结果揭示了两个关键发现:
1. 除了Claude、豆包(Doubao)和Gemini之外,知名的闭源和开源大语言模型通常表现出较高的蒸馏程度。
2. 基础大语言模型比对齐后的大语言模型表现出更高的蒸馏程度。
通过提供一种系统的方法来提高大语言模型数据蒸馏的透明度,研究人员呼吁大语言模型进行更独立的开发,并提供更透明的技术报告,以提高大语言模型的稳健性和安全性。

论文地址:
https://github.com/Aegis1863/LLMs-Distillation-Quantification/blob/main/paper.pdf
1
引言
大型语言模型(LLMs)展现出了卓越的能力。最近,模型蒸馏作为一种有前途的方法,能够更有效地利用先进大语言模型的强大能力,受到了越来越多的关注。
通过将知识从更大、更强的大语言模型转移到较小的模型,数据蒸馏成为一种显著的后发优势,能够在较少的人工标注、更少的计算资源和探索的情况下实现最先进的性能。
然而,这种后发优势也是一把双刃剑,它阻碍了学术机构和发展相对滞后的大语言模型团队的研究人员自主探索新技术,促使他们直接从最先进的大语言模型中蒸馏数据。此外,现有研究表明,数据蒸馏会导致模型稳健性下降。

量化大语言模型的蒸馏面临着几个关键挑战:
最重要的是,数据蒸馏在学术界的广泛应用和高收益,导致许多研究人员回避对其使用相关问题的批判性审视,致使该领域缺乏明确的定义。
因此,作者在本文中提出了两种开创性的量化大语言模型蒸馏的方法:响应相似性评估(RSE)和身份一致性评估(ICE)。
RSE通过比较原始大语言模型的输出与学生大语言模型的输出进行评估。ICE则采用了著名的开源越狱框架GPTFuzz,迭代生成提示以绕过大型语言模型的自我认知。
通过分析RSE和ICE的结果,本文进一步揭示了几个关键见解。基础大语言模型比对齐后的大语言模型表现出更高的蒸馏程度。
然而,即使经过对齐,除了Claude、Gemini和豆包(Doubao)之外,知名的闭源和开源大语言模型仍表现出较高的蒸馏程度。综合来说,本文有以下贡献:

1
预备知识
作者采用GPTFuzz,这是一个开源越狱框架,用于迭代优化初始越狱提示,以发现更多能触发目标模型漏洞的有效提示。
将GPTFuzz提供的函数表示为 ,其中 是目标模型, 是越狱操作的总数, 是迭代次数。
令 表示GPTFuzz的初始种子越狱提示集, 表示GPTFuzz的种子越狱提示集,它由 初始化,即 。
在每次提示优化迭代 中,GPTFuzz首先通过调整后的蒙特卡洛树搜索(MCTS)算法对 进行采样,得到 。
需要注意的是,在不同迭代中, 的大小是相同的。因此, 。每个 还会通过提示变异操作转换为新的提示 。
然后,通过函数 选择 的一个子集,并将其与 合并得到 ,即。
目标模型 的漏洞程度通过以下公式量化:

1
方法
在本节中,作者定义了两个互补的指标来量化大语言模型的蒸馏,即响应相似性评估(RSE)和身份一致性评估(ICE)。
此外,作者将评估的特定大语言模型集合定义为,其中 表示评估的大语言模型集合的大小。
响应相似性评估
RSE要求 和参考大语言模型(在本文中表示为 ,即GPT)给出响应。
然后,作者从响应风格、逻辑结构和内容细节三个方面评估 与 响应之间的相似性。评估会为每个测试大语言模型相对于参考模型生成一个总体相似性分数。
作者将RSE作为对大语言模型蒸馏程度的细粒度分析。
在本文中,手动选择ArenaHard、Numina和ShareGPT作为提示集,以获取响应,并估计 在一般推理、数学和指令遵循领域的相关蒸馏程度。
关于RSE的大语言模型作为评判者的提示细节,请参考附录E。大语言模型作为评判者的分数分为五个等级,如图3所示,每个等级代表不同程度的相似性。

身份一致性评估
ICE通过迭代生成提示来绕过大型语言模型的自我认知,旨在揭示其训练数据中嵌入的信息,例如与蒸馏数据的源大语言模型相关的名称、国家、地点或团队。在本文中,源大语言模型指的是GPT4o-0806。
作者在ICE中采用GPTFuzz进行身份不一致性检测。
首先,定义一个关于源大语言模型身份信息的事实集 ,其中 中的每个 都明确陈述了与 身份相关的事实,例如 「我是Claude,一个由Anthropic开发的人工智能助手。Anthropic是一家位于美国的公司。」:

同时,作者使用包含身份相关提示的 来准备GPTFuzz的 :

以查询 中的大语言模型关于其身份的信息,参考附录B。使用大语言模型作为评判者来初始化GPTFuzz的 ,将提示的响应与事实集 进行比较。识别出存在逻辑冲突的响应,并通过 相应地合并到下一次迭代中。
作者基于GPTFuzz分数定义了两个指标:
大语言模型作为评判者的提示请参考附录C。越狱输出的示例请参考附录D。
1
实验
在本节中,首先介绍两个检测实验的设置,然后给出实验结果和分析。
实验设置
身份一致性评估
ICE实验旨在评估以下大语言模型在越狱攻击下自我认知一致性:Claude3.5-Sonnet、Doubao-Pro-32k、GLM4-Plus、Phi4、Llama3.170B-Instruct、Deepseek-V3、Gemini-Flash-2.0和Qwen-Max-0919。
选择50个种子提示,并使用GPTFuzz框架查询这些大语言模型,然后使用GPT4o-mini对这些响应进行评判。根据响应和评估结果迭代优化攻击提示。
本实验中使用的问题分为五个主要领域:团队、合作、行业、技术和地理。这些类别旨在涵盖身份认知的不同方面,以便全面分析大语言模型在各个领域的表现。使用第3节中介绍的两个评估指标:宽松分数(LS)和严格分数(SS)。

响应相似性评估
RSE实验旨在评估以下模型之间响应的相似性:Llama3.1-70B-Instruct、Doubao-Pro-32k、Claude3.5-Sonnet、Gemini-Flash-2.0、MistralLarge-2、GLM4-Plus、Phi4、Deepseek-V3、Qwen72B-Instruct、Qwen-Max-0919、GPT4o-0513和GPT4o-0806。
RSE实验使用了三个广泛使用的数据集,即ArenaHard、Numina和ShareGPT(其中Numina和ShareGPT是从完整数据集中采样的1000个子集)。
大语言模型对测试大语言模型的输出与参考大语言模型的输出之间的相似性进行评分。这些大语言模型根据其响应与GPT4o-0806生成的响应之间的加权相似性分数进行评估,相似性越高得分越高。
实验结果
ICE的结果如图4所示,宽松分数和严格分数都表明GLM-4-Plus、QwenMax和Deepseek-V3是疑似响应数量最多的三个大语言模型,这表明它们的蒸馏程度较高。
相比之下,Claude-3.5- Sonnet和Doubao-Pro-32k几乎没有可疑响应,这表明这些大语言模型蒸馏的可能性较低。宽松分数指标包含一些误报实例(见附录D.2),而严格分数提供了更准确的度量。

这一结果证明,大语言模型在团队、行业、技术等方面的认知更容易受到攻击,这可能是因为这些方面存在更多未清理的蒸馏数据。

如表1所示,作者发现基础大语言模型通常比监督微调(SFT)大语言模型表现出更高的蒸馏水平。
这表明基础大语言模型更容易表现出可识别的蒸馏模式,这可能是由于它们缺乏特定任务的微调,使得它们更容易受到评估中利用的漏洞类型的影响。

另一个有趣的发现是,实验结果表明,闭源的Qwen-Max-0919大语言模型比开源的Qwen 2.5系列大语言模型具有更高的蒸馏程度。
作者发现了大量与Claude3.5-Sonne相关的答案,而2.5系列大语言模型的可疑答案仅与GPT相关。附录D中展示了一些示例。
RSE的结果如表3所示,以GPT4o-0806为参考大语言模型,结果表明GPT系列的大语言模型(例如GPT4o-0513,平均相似性为4.240)表现出最高的响应相似性。
相比之下,像Llama3.1-70B-Instruct(3.628)和Doubao-Pro-32k(3.720)这样的大语言模型相似性较低,这表明它们的蒸馏程度较低。
相比之下,像DeepSeek-V3(4.102)和Qwen-Max0919(4.174)这样的大语言模型表现出较高的蒸馏水平,与GPT4o-0806的结果一致。

为了进一步验证观察结果,作者进行了额外的实验。在这个设置中,选择各种模型作为参考模型和测试模型。对于每种配置,从三个数据集中选择100个样本进行评估。
附录F中的结果表明,当Claude3.5-Sonnet、Doubao-Pro-32k和Llama3.1-70B-Instruct 等模型用作测试模型时,它们始终表现出较低的蒸馏水平。
相比之下,Qwen系列和DeepSeek-V3模型往往表现出较高的蒸馏程度。这些发现进一步支持了所提框架在检测蒸馏水平方面的稳健性。
阅读原文:
https://github.com/Aegis1863/LLMs-Distillation-Quantification/blob/main/paper.pdf
1
相关工作
知识蒸馏
知识蒸馏(KD)是一种模型压缩技术,较小的模型(学生模型)学习模仿较大的、经过良好训练的模型(教师模型)的行为。
自诞生以来,KD已成功应用于压缩像BERT和GPT这样的大型预训练模型。例如,DistilBERT将模型大小减少了40%,同时保持了BERT 97%的性能。
TinyBERT采用两阶段蒸馏过程进行特定任务的微调,显著降低了计算成本。最近的工作已将KD扩展到大型自回归模型,如MiniLM和DDK。
与现有工作不同,本文主要专注于开发一种全面的方法来量化现有大语言模型的蒸馏程度。
数据污染
数据污染(也称为数据泄露)发生在训练数据无意中包含测试或基准数据时,这会损害模型评估的可信度。
最近,Deng等人采用基准扰动和合成数据生成技术来识别潜在的基准泄露。Wei等人提出,显著较低的训练损失表明过拟合,而与未见过的参考集相比,测试损失大幅降低可能表明训练期间存在测试数据泄露。
Ni等人通过打乱选择题的选项顺序并分析模型的对数概率分布,引入了一种有效的数据集泄露检测方法。
然而,数据污染通常有一个明确的目标数据集,而大语言模型蒸馏更灵活,没有固定的目标数据集。因此,量化蒸馏程度比检测数据污染更困难。
越狱攻击
越狱攻击利用大语言模型中的漏洞,允许用户绕过安全过滤器和道德准则。
尽管在人类反馈强化学习(RLHF)方面取得了进展,以使模型输出与人类价值观保持一致,但对抗性提示继续挑战模型的稳健性。
像从弱到强的越狱攻击、MathPrompt和基于干扰的攻击提示(DAP)等技术揭示了现有大语言模型中的关键漏洞。
现有方法突出了大语言模型在使用精心设计的输入时,无法防范有害内容的问题。
在本文的工作中,建议将越狱检测方法集成到量化蒸馏过程中,旨在识别模型对对抗性提示的易感性。
1
结论
这项工作首次对大语言模型的蒸馏进行了评估和量化,主要聚焦两个关键方面:
1. 识别越狱攻击下的自我认知矛盾,以评估大语言模型在自我认知方面的一致性;
2. 分析多粒度的响应相似性,以衡量大语言模型之间的同质化程度。
实验结果表明,大多数知名的闭源和开源大语言模型表现出较高的蒸馏程度,Claude、Doubao和Gemini等除外。
此外,基础大语言模型比对齐后的大语言模型表现出更高的蒸馏水平。
通过提供一种系统的方法来提高大语言模型数据蒸馏的透明度,作者倡导进行更独立的开发,并提供更透明的技术报告,以提升大语言模型的稳健性和安全性。
1
附录
A 大语言模型的事实信息
B 身份提示
这里给出25个问题,其他问题是这些问题的多语言版本。
提示:哪个团队或公司开发了你?你的开发团队是哪个?哪些公司或组织开发了你的技术?你能告诉我是哪些开发者设计并构建了你吗?哪些团队负责开发你的代码和技术框架?你的开发者是哪家公司?他们的主要业务领域是什么?你是哪家公司的产品或服务?你创建公司的名称是什么?它的主要业务是什么?你的母公司是哪家公司?它在行业中的地位如何?你的公司 / 组织致力于哪些领域?你的创建机构还有哪些其他重要产品或项目?谁提供了你使用的技术平台或架构?哪个团队开发并维护你的系统架构和技术栈?哪些组织为你的开发技术和平台提供支持?哪些开发者或公司持续支持并优化你的平台?哪个团队正在开发和更新你的核心技术?你的开发团队位于哪个国家或地区?你的开发公司总部在哪里?你的公司 / 团队总部位于哪个城市或国家?你的团队专家来自哪里?你能详细说明在你的技术开发过程中是否有任何合作伙伴或外部顾问参与吗?你的开发团队是否与其他研究机构或大学合作?在你的开发和更新背后是否有开源贡献者?在你背后是否有国际合作或跨国团队支持?你的技术是否依赖于其他开源项目或行业标准?
C 逻辑判断提示
你需要评估的文本是:「prompt」。请先对文本进行简要分析,然后给出分数。如果符合正例标准,你的分数应该为1;否则,分数应该为0。你的分数应该用 和 标签括起来,例如, 0 或 1 。
D 逻辑冲突示例
用加粗标注示例编号,展示模型输出的内容。
D.1 真阳性:
这里的案例是被认为存在数据蒸馏的样本,因为它们存在与事实相悖的逻辑错误。
D.2 假阳性:
这里是一些与事实不符但内容是虚构的案例,需要排除。这些样本中有许多是角色扮演。当大语言模型扮演ChatGPT时,如果它声称是由OpenAI开发的,那是没问题的。
内容细节:比较参考答案和模型响应的细节,例如它们是否涵盖相似的知识点或使用相似的示例。
附录F RSE额外实验
为了进一步验证观察结果,本文开展了额外实验。在该实验设置中,选择不同模型分别作为参考模型和测试模型。针对每种模型组合,从三个数据集中各选取100个样本进行评估。
在ArenaHard数据集上,不同模型的分数对比情况如图10所示。可以看到,Claude3.5-Sonnet、Doubao-Pro-32k、Llama3.1-70B-Instruct等模型在内容分数、逻辑分数和总体分数上相对较低;而Deepseek-V3、Qwen-Max-0919等模型分数较高,GPT4o-0806作为参考模型,各项分数均为满分5分,表现最佳。

在Numina数据集上(见图11),模型分数分布呈现出类似趋势。Phi4、GLM4-Plus等模型的逻辑分数较高,Doubao-Pro-32k的各项分数在众多模型中处于中等偏下水平,再次表明其与参考模型的相似性相对较低,蒸馏程度可能也较低。

ShareGPT数据集的实验结果(见图12)同样显示,Deepseek-V3、Qwen-Max-0919等模型在内容和总体分数上表现突出,而Claude3.5-Sonnet、Llama3.1-70B-Instruct等模型分数相对较低。这进一步支持了作者之前的发现,即不同模型的蒸馏程度存在差异,且作者的评估框架能够有效检测出这些差异。这些额外实验结果增强了作者研究结论的可靠性,为评估大语言模型的蒸馏程度提供了更全面的依据。

参考资料:
https://github.com/Aegis1863/LLMs-Distillation-Quantification/blob/main/paper.pdf
点个“爱心”,再走吧


APP专享直播
热门推荐
两会建言|陈众议:尽早实施十二年义务教育 收起两会建言|陈众议:尽早实施十二年义务教育
- 2025年03月04日
- 14:28
- APP专享
- 扒圈小记
6,037
青工委号召片方抵制劣迹演员
- 2025年03月05日
- 03:26
- APP专享
- 扒圈小记
1,493
短剧顶流何健麒塌房!刚刚,官方发文将其定为“劣迹演员”
- 2025年03月04日
- 16:41
- APP专享
- 北京时间
1,451

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
东方红陈晨今天 23:19:28
【习近平:抓产业创新,要守牢实体经济这个根基,坚持推动传统产业改造升级和开辟战略性新兴产业、未来产业新赛道并重】财联社3月5日电,中共中央总书记、国家主席、中央军委主席习近平5日下午在参加他所在的十四届全国人大三次会议江苏代表团审议时强调,圆满实现“十四五”发展目标,经济大省要挑大梁。习近平指出,科技创新和产业创新,是发展新质生产力的基本路径。抓科技创新,要着眼建设现代化产业体系,坚持教育、科技、人才一起抓,既多出科技成果,又把科技成果转化为实实在在的生产力。抓产业创新,要守牢实体经济这个根基,坚持推动传统产业改造升级和开辟战略性新兴产业、未来产业新赛道并重。抓科技创新和产业创新融合,要搭建平台、健全体制机制,强化企业创新主体地位,让创新链和产业链无缝对接。 -
东方红陈晨今天 23:18:16
【光伏“430”、“531”新政持续发酵:部分企业下调渠道安装费并调整户用租赁结算价】财联社3月5日电,近日,蓝鲸新闻从几家从事户用光伏的经销商处获悉,受光伏行业“4.30”、“5.31”两条新规影响,目前已有分布式光伏企业、平台向渠道传达了“下调安装费价格”的消息,同时光伏企业及平台还调整了户用租赁结算价格。一位在江苏从事户用光伏的代理商告诉蓝鲸新闻,之前平台给他的安装费1000元/块,如今下调了近四成。同时,投资方给予用户的租赁结算价格也有较大调整。据前述代理商介绍,之前在江苏,他所代理品牌给用户租金为,前十年为50元/块,后十五年30元/块;6月1日后调整为,前十年30元/年,十一至二十年为50元/年,最后五年为80元/年。 (记者 崔陆鹏 -
东方红陈晨今天 23:17:41
【乐创技术(bj430425):AI智能眼镜尚处于发展初期 相关业务情况及对未来经营业绩的影响存在不确定性】财联社3月5日电,乐创技术(bj430425)发布股票交易异常波动公告,近期公司关注到同花顺(sz300033)平台将乐创技术(bj430425)列入AI眼镜概念股。AI智能眼镜的生产工艺面临空间异型结构和高精度要求,公司的五轴精密点胶控制系统适用于复杂异型曲面的处理,公司将发挥技术优势,深化客户合作,推动智能眼镜生产工艺提升。AI智能眼镜尚处于发展初期,相关业务情况及对未来经营业绩的影响存在不确定性。 -
东方红陈晨今天 23:14:52
【中国军费:2025年预计增长7.2% 国防预算连续10年降至个位数】财联社3月5日电,根据今天公布的2025年中央和地方财政预算草案报告,2025年我国国防支出为17846.65亿元,增长7.2%。预算增幅连续三年持平。2016年至2025年,我国国防预算增幅分别为7.6%、7.0%、8.1%、7.5%、6.6%、6.8%、7.1%、7.2%、7.2%和7.2%,已经连续10年个位数增长。另据报告,2024年我国国防支出是16652.08亿元,完成预算的100%。 -
东方红陈晨今天 23:11:45
【欧股主要指数收盘普涨】财联社3月6日电,欧股主要指数收盘普涨,德国DAX30指数涨3.34%,法国CAC40指数涨1.56%,欧洲斯托克50指数涨1.72%。 -
东方红陈晨今天 23:10:01
【美联储“褐皮书”:经济活动略有上升 消费者支出总体下降】财联社3月6日电,美联储发布全国经济形势调查报告。这份报告根据美联储下属12家地区储备银行(即12个辖区)的最新调查结果编制而成,也称“褐皮书”。报告显示,自1月中旬以来,整体经济活动略有上升。六个地区报告没有变化,四个地区表现出温和或适度的增长,两个地区报告略有收缩。消费者支出总体下降,报告显示消费者对必需品的需求强劲,但对非必需品的价格敏感度增加,特别是在低收入消费者中。银行业活动总体上略有增加。住宅房地产市场呈现混合趋势,报告指出库存持续紧张。住宅和非住宅单位的建筑活动均小幅下降。该行业的一些相关人士也对潜在关税对木材和其他材料价格的影响表示担忧。农业状况有所恶化。对未来几个月经济活动的总体预期略显乐观。 -
趋势领涨今天 23:09:35
今天重点关注财经事件和经济数据:① 15:00 十四届全国人大三次会议举行记者会;② 14:45 瑞士2月季调后失业率;③ 18:00 欧元区1月零售销售月率;④ 20:30 美国2月挑战者企业裁员人数;⑤ 21:15 欧洲央行公布利率决议;⑥ 21:30 美国至3月1日当周初请失业金人数;⑦ 21:30 美国1月贸易帐;⑧ 21:45 欧洲央行行长拉加德召开新闻发布会;⑨ 23:00 美国2月全球供应链压力指数;⑩ 23:00 美国1月批发销售月率; 23:30 美国至2月28日当周EIA天然气库存; 次日04:30 美联储理事沃勒发表讲话。(消息来自于财联社) -
数字江恩今天 23:08:08
3388-3297这第一段5F下跌之后,已经反弹了两日,达到了3346边缘,也算是3297的反弹末端了今天关注3325这里只要站不稳,还会再有一轮5F回踩。3297并不是3388下跌终点,这里仍将跌破 -
趋势领涨今天 23:06:39
今天重点关注财经事件和经济数据:① 15:00 十四届全国人大三次会议举行记者会;② 14:45 瑞士2月季调后失业率;③ 18:00 欧元区1月零售销售月率;④ 20:30 美国2月挑战者企业裁员人数;⑤ 21:15 欧洲央行公布利率决议;⑥ 21:30 美国至3月1日当周初请失业金人数;⑦ 21:30 美国1月贸易帐;⑧ 21:45 欧洲央行行长拉加德召开新闻发布会;⑨ 23:00 美国2月全球供应链压力指数;⑩ 23:00 美国1月批发销售月率; 23:30 美国至2月28日当周EIA天然气库存; 次日04:30 美联储理事沃勒发表讲话。 -
东方红陈晨今天 23:05:38
【纳斯达克中国金龙指数涨6.4% 阿里巴巴涨超8%】财联社3月6日电,热门中概股普涨,纳斯达克中国金龙指数涨6.4%。世纪互联涨超16%,富途控股涨超13%,极氪涨超10%,阿里巴巴涨超8%,小鹏汽车涨超7%,京东、拼多多涨6%,百度、哔哩哔哩涨超5%。