DeepSeek的“蒸馏模型”超越原创?美国要对“蒸馏技术”下手

DeepSeek的“蒸馏模型”超越原创?美国要对“蒸馏技术”下手
2025年01月30日 13:37 第一财经

专题:DeepSeek为何能震动全球AI圈

  数据蒸馏是一种业内常见的技术做法,是指通过一系列算法和策略,将原始的、复杂的数据进行去噪、降维、提炼等操作,从而得到更为精炼、有用的数据。

  中国人工智能初创公司DeepSeek在过去一周成为硅谷热议的对象,并触发了本周一美国科技股“崩盘”。

  1月29日,OpenAI最新称,它发现有证据表明中国人工智能初创公司DeepSeek使用其专有模型来训练自己的开源模型,并暗示这可能违反了OpenAI的服务条款。但OpenAI没有进一步列举哪些证据。OpenAI的服务条款规定,用户不能“复制”其任何服务或“使用其输出来开发与OpenAI竞争的模型”。

  一种“常见技术”引发争议

  与Meta的Llama开源模型可免费使用不同,OpenAI的模型系统是封闭的,但个人用户仍可付费接入其编程接口(API)获取数据。截至发稿,DeepSeek尚未予以回应。

  此前,美国政府称正在组织专家紧急评估DeepSeek的技术及影响。美国白宫AI和加密货币事务负责人大卫·萨克斯(David Sacks)表示,未来几个月,美国领先的人工智能公司将采取措施,试图防止其他公司对“蒸馏技术”的获取。

  DeepSeek模型取得的技术突破已经引起美国总统特朗普的关注。特朗普周一表示,DeepSeek这款中国AI应用程序应该成为美国公司的“激励因素”,他表示:“如果中国业界能够开发出更便宜的人工智能技术,美国公司也会效仿。你不必花费数十亿美元,而是花更少的钱,希望找到相同的解决方案。”

  数据蒸馏是一种业内常见的技术做法,是指通过一系列算法和策略,将原始的、复杂的数据进行去噪、降维、提炼等操作,从而得到更为精炼、有用的数据。数据蒸馏的目的是将复杂模型的知识提炼到简单模型。

  据DeepSeek-V3的技术文档,该模型使用数据蒸馏技术生成的高质量数据提升了训练效率。通过已有的高质量模型来合成少量高质量数据,作为新模型的训练数据,从而达到接近于在原始数据上训练的效果。

  “以前的大模型训练相当于使用题海战术,在大量的数据中训练。而蒸馏就相当于让在题海战术里磨练过的优秀大模型充当新模型的老师,筛选出有效题目,再让新的大模型训练。”一位计算机研究人员这样解释。

  不过此前有学者认为,蒸馏技术存在“隐性天花板”,它虽然可以提高模型训练效率,但借此开发的模型无法超越基础模型的能力,当考虑到需要将能力扩展到新领域或应对以前从未见过的挑战时,这种限制就愈发成为问题;而且这种技术在多模态数据方面效果不好。

  而DeepSeek的模型从某种程度上打破了这种业内普遍存在的观念,其大模型的水平已经能与原始的基础模型相提并论。这是引发美国担忧的根本原因之一。就在1月28日凌晨,DeepSeek发布了最新视觉模型Janus-Pro,在多模态理解和文生图指令遵从能力都收获了显著提升,并在多个基准上超越了DALL-E 3与Stable Diffusion。

  英国伦敦大学学院(UCL)名誉教授和计算机科学家彼得·本特利曾在接受采访时称:“蒸馏技术对一些不具备OpenAI或谷歌这样巨额研发预算的小型机构的研究进展将会产生重大影响。”

  “蒸馏模型”何以超越原创?

  一位美国科技巨头公司AI相关项目开发人员对第一财经记者表示:“我并不认为蒸馏类似Llama这样的开源模型有什么问题,尤其是像DeepSeek这样在蒸馏后采取开源的模型,其实是有存在的合理性的,这样能加速大模型的迭代,没有必要所有的公司都从头开始训练大模型,这会导致资源的浪费。”

  他还表示,全球很多AI初创公司也同样使用多种大模型的蒸馏融合技术,形成了所谓的“多专家模型”(MoE),这样的蒸馏模型是有可能在性能方面超越原始模型的,因为它有更强的泛化能力,得到的信息更加丰富,提升最终性能。

  “这就好比你有一个团队,里面有本科生、研究生、博士生、工业界初级工程师、资深工程师,当你遇到问题时,可以把不同难度的任务分派给不同的’专家’。这样会以最高效的方式给出最匹配的答案。”他解释道。

  上述人士分析称,关键的核心问题不在于DeepSeek蒸馏了其他大模型,而是为何同样是在蒸馏开源模型的基础上,DeepSeek能够脱颖而出,以如此低廉的成本价格就能实现如此高的性能,并不是所有的公司投入这些资源后都能够实现的。

  他认为,DeepSeek完美平衡了多专家模型、训练时长,预训练、后训练等工作,使得投入和产出达到一个最高效的值。“当你做得好到对别人有威胁了,总会有一些官司找上门。”他表示。

  但也有AI研究人员指出,过度依赖蒸馏技术的“捷径”,会导致研发人员为了快速取得成果而放弃对基础模型的探索。上海交通大学副教授刘鹏飞曾在一篇学术报告中提到:“蒸馏技术为在数学推理任务中取得显著性能提升提供了一条诱人的捷径。虽然这种方法带来了直接且可见的好处,但它掩盖了一系列深刻的挑战,无法提出根本性的解决方案。”

海量资讯、精准解读,尽在新浪财经APP

责任编辑:石秀珍 SF183

美国 AI
53条评论|502人参与网友评论
最热评论
蒸馏其实就是简化的过程,盐水能蒸馏出黄金吗?DeepSeek能写古诗,OPENAI能做到吗?DeepSeek的中英文翻译被认为超过了所有现世语言学家,OPENAI办到过吗?OPENAI最好去简化一下它的股票数据,水分太多了
擦肩未来忧希:你这话现在随便一个大模型都能做到。写古诗词,翻译别说英汉了,各种语言都能互翻,还能人机对话。GPT的翻译刚出来时就已经是顶尖水平了
1月30日22:04举报5回复
小诗人_Jayne江苏盐城
简单来说,Open AI关闭源代码就像在池塘里钓鱼,然后把鱼放进一个封闭的大桶里,而蒸馏技术就是在大桶里直接钓鱼。Open AI允许普通人从大桶里钓鱼,但禁止竞争对手这样做
1月30日21:41举报72回复
手残板路骑士浙江湖州
原来是抄的 我早该想到 支持马克斯
1月30日21:31举报48回复
最新评论
没有基础的数据训练和研究,哪来的知识去蒸馏?
1月31日03:19举报4回复
希望这回别再是姜萍事件那种情况
1月31日02:42举报2回复
当这个世界上的人都担心AI会抢自己饭碗的时候,结果竟然有一个AI可能让另一个AI失业了
1月31日02:14举报5回复

APP专享直播

开播时间 | 2-22 15:00
第八届中国企业改革发展峰会:尹艳林、刘俏、樊纲等演讲
开播时间 | 2-22 14:00
人工智能的未来:从科研到产业化
开播时间 | 2-22 09:00
CMF研讨会:读懂价格信号,稳住经济大盘
开播时间 | 2-21 20:12
2025蛇年投资大趋势——寻找科技浪潮机会 
开播时间 | 2-21 19:55
《智客星球》大辩论:200+企业押注DeepSeek,谁是AI新王?
开播时间 | 2-21 16:00
光大证券李泉:AI、国产芯片迎来风口,沪指再创反弹新高
开播时间 | 2-21 15:30
国投瑞银:“债”与你相遇 | 2月债市等待破局?
开播时间 | 2-21 15:30
招商基金 汪洋:债市波动加大,债基还能拿着吗?
开播时间 | 2-21 15:20
连麦光大期货:白糖、黑色系、甲醇
开播时间 | 2-21 15:00
最高检、证监会联合召开“依法从严打击证券违法犯罪 促进资本市场健康发展”新闻发布会
开播时间 | 2-22 15:00
第八届中国企业改革发展峰会:尹艳林、刘俏、樊纲等演讲
开播时间 | 2-22 14:00
人工智能的未来:从科研到产业化
开播时间 | 2-22 09:00
CMF研讨会:读懂价格信号,稳住经济大盘
开播时间 | 2-21 20:12
2025蛇年投资大趋势——寻找科技浪潮机会 
开播时间 | 2-21 19:55
《智客星球》大辩论:200+企业押注DeepSeek,谁是AI新王?
开播时间 | 2-21 16:00
光大证券李泉:AI、国产芯片迎来风口,沪指再创反弹新高
开播时间 | 2-21 15:30
国投瑞银:“债”与你相遇 | 2月债市等待破局?
开播时间 | 2-21 15:30
招商基金 汪洋:债市波动加大,债基还能拿着吗?
开播时间 | 2-21 15:20
连麦光大期货:白糖、黑色系、甲醇
开播时间 | 2-21 15:00
最高检、证监会联合召开“依法从严打击证券违法犯罪 促进资本市场健康发展”新闻发布会
上一页下一页
1/10

热门推荐

乘客遭司机多次涨价,拒付钱被持刀威胁?海南通报 收起
乘客遭司机多次涨价,拒付钱被持刀威胁?海南通报

乘客遭司机多次涨价,拒付钱被持刀威胁?海南通报

  • 2025年02月21日
  • 23:55
  • APP专享
  • 扒圈小记
  • 5,371
APP专享
《哪吒2》票房破130亿!有人包场16家影院请市民免费观看,能否冲击全球影史前三?

《哪吒2》票房破130亿!有人包场16家影院请市民免费观看,能否冲击全球影史前三?

  • 2025年02月21日
  • 15:23
  • APP专享
  • 扒圈小记
  • 3,542
APP专享
特朗普:对于结束俄乌冲突,泽连斯基根本“无牌可打”

特朗普:对于结束俄乌冲突,泽连斯基根本“无牌可打”

  • 2025年02月21日
  • 22:26
  • APP专享
  • 北京时间
  • 2,697
APP专享
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间
更多>
股票简称 最新价 涨跌幅
以下为热门股票
三峡能源 4.27 +0.95%
京东方A 4.54 +0.89%
TCL科技 4.87 +0.41%
中远海控 14.35 0.00%
格力电器 41.36 -1.17%

7X24小时

  • 01-17 宏海科技 920108 5.57
  • 01-16 亚联机械 001395 19.08
  • 01-16 海博思创 688411 19.38
  • 01-14 富岭股份 001356 5.3
  • 01-13 超研股份 301602 6.7
  • 新浪首页 语音播报 相关新闻 返回顶部