来源:投资家
作者:明敏 克雷西 发自 凹非寺
顶级“礼遇”。
一觉醒来,OpenAI和Claude母公司都对DeepSeek出手了。
据《金融时报》消息,OpenAI表示已经发现证据,证明DeepSeek利用他们的模型进行训练,这涉嫌侵犯知识产权。
具体来说,他们发现了DeepSeek“蒸馏”OpenAI模型的迹象。即使用更大模型的输出来提高较小模型的性能,从而以较低成本在特定任务上取得类似结果。
微软也开始调查DeepSeek是否使用OpenAI的API。

消息一出,最先迎来的是一波嘲讽。
纽约大学教授马库斯率先开喷:
OpenAI:我们需要免费用所有艺术家和作家的作品训练模型,这样我们就可以省下钱去起诉DeepSeek公然偷我们东西啦!

知名技术媒体404 Media创始人及主编Jason也直接在文章里贴脸开大,暗讽OpenAI只许州官放火。
先容我笑一会儿哈哈哈哈哈哈。真是令人难以置信的讽刺啊,OpenAI一直以“未经授权的方式”获取大量数据,也违反了一些组织的条款规定,结果现在他们却在指责自己的做法。

而另一边,Claude母公司Anthropic创始人Dario Amodei洋洋洒洒发了一篇长文大谈DeepSeek。
他表示,说DeepSeek构成威胁太夸张了,“也就是我们7-10个月前的水准”,Claude 3.5 Sonnet在许多内部和外部评估中依旧遥遥领先。
不过为了保持领先,我建议我们是不是得设置更多掣肘?

好家伙,为了围剿DeepSeek,竞对OpenAI和Anthropic罕见都罕见联手了。
相比之下,微软的做法就耐人寻味了许多。
就在指控DeepSeek涉嫌侵权之后几个小时后,微软的AI平台上接入了DeepSeek模型。

网友:俗话说,否认是接受的第一步。

AI领域常见技术,但违反OpenAI条款
各方消息汇总来看,微软和OpenAI对DeepSeek的质疑还处于调查中。
根据微软工作人员的说法,DeepSeek可能在去年秋天调用了OpenAI的API,这可能导致数据泄露。
按照OpenAI的服务条款规定,任何人都可以注册使用OpenAI的API,但是不能使用输出数据训练对OpenAI造成竞争威胁的模型。

OpenAI告诉《金融时报》,他们发现了一些模型蒸馏的证据,他们怀疑这是DeepSeek的所作所为。
目前,OpenAI拒绝进一步置评,也不愿提供证据细节。
那么不妨先来看看,引发争议的模型蒸馏是什么。
它是一种模型压缩技术,通过将一个复杂的、计算开销大的大模型(称为教师模型)的知识“蒸馏”到一个更小、更高效的模型(称为学生模型)。这个过程的核心目标是让学生模型在轻量化的同时,尽量保留教师模型的性能。
在诺奖得主、深度学习之父Hinton的论文《Distilling the Knowledge in a Neural Network》中指出:
蒸馏对于将知识从集成或从大型高度正则化模型转移到较小的蒸馏模型非常有效。

比如Together AI前段时间的工作,就是把Llama 3蒸馏到Mamba,实现推理速度最高提升1.6倍,性能还更强。

IBM对知识蒸馏的文章中也提到,大多数情况下最领先的LLM对计算、成本提出太高要求……知识蒸馏已经成为一种重要手段,能将大模型的先进能力移植到更小的(通常是)开源模型中。因此,它已经成为生成式AI普惠化的一个重要工具。

在行业内,一些开源模型的服务条款允许蒸馏。比如Llama,DeepSeek此前也在论文中表示使用了Llama。
而且关键是,DeepSeek R1并非只是简单蒸馏模型,OpenAI首席科学家Mark Chen表示:
DeepSeek独立发现了OpenAI在实现o1过程中所采用的一些核心理念。

同时他也认可了DeepSeek在成本控制上的工作,并提到蒸馏技术的趋势,表示OpenAI也在积极探索模型压缩和优化技术,降低成本。

所以总结一下,模型蒸馏技术在学术界、工业界都非常普遍且被认可,但是违反OpenAI的服务条款。
这河狸吗?不知道。
但问题是,OpenAI自己本身在合规性上也大有问题。
(众所周知)OpenAI训练模型把互联网上的数据扒了个干净,这其中除了免费公开的知识内容外,还包含大量有版权的文章作品。
2023年12月,《纽约时报》以侵犯知识产权为由,将微软OpenAI一起告上法庭。目前这个官司还没有最终判定结果,OpenAI这一年时间里就自己的行为向法院进行多次解释。

包括但不限于:
1、使用公开可获得的互联网资料训练AI模型是合理的,这在AI领域内有诸多先例,我们认为这对创作者是公平的,对于创新是必要的。
2、长期以来,版权著作被非商业性使用(比如训练大模型)是受到合理保护的。
3、大语言模型的关键是Scaling,这意味着任何单独被盗的内容都不足以支撑训练出一个大语言模型,这正是OpenAI模型为何领先。
也就是说,OpenAI本身都在违规使用《纽约时报》的数据训练闭源、商业化的大模型。现在他们要以违规为由,调查打造系列开源模型的DeepSeek。
再退一步,OpenAI如今的成就也是建立在谷歌的基础上(Transformer架构由谷歌提出),谷歌的成就是站立在更早期的学术研究基础上。
404 Media表示,这其实是人工智能领域发展的基本逻辑。

“DeepSeek模型只在成本上领先”
就在OpenAI挑起矛盾的同时,Anthropic也下场了。
创始人Dario Amodei在个人博客中表达了对DeepSeek的看法。
他表示并没有把DeepSeek看做是竞争对手,认为DS最新模型的水平和他们7-10个月前相当,只是成本大幅降低。
(Claude 3.5)Sonnet的训练是在9-12个月前进行的,而DeepSeek的模型于11月/12月进行了训练,而Sonnet在许多内部和外部Evals中仍然显着领先。
因此,我认为正确的说法是“DeepSeek生成了一种模型,用较低的成本(但没有宣传的那么低)实现了接近7至10个月以前的Claude的表现”。
同时他还认为,DeepSeek整个公司的成本投入(非单个模型训练成本)和Anthropic的AI实验室差不多。
奥特曼几乎保持了同样的口径。
他承认DeepSeek R1让人印象深刻(尤其是成本),但OpenAI“很明显会带来更好的模型”。

这也是他的常规操作了,之前V3发布时,他就阴阳怪气说:相对而言,复制确定有用的东西是很容易的。

那么DeepSeek R1的价值究竟几何?
分析师郭明錤最新博客给出参考:
DeepSeek R1的出现,让两个趋势更加值得关注——虽然没有R1这两个趋势也依然存在,但R1加速了它们的发生。
一是在Scaling Law放缓的情况下,AI算力仍可透过优化训练方式持续成长,并有利挖掘新应用。
过去1-2年,投资者对AI服务器供应链的投资逻辑,主要基于AI服务器的出货量在Scaling Law依然有效的情况下可持续增长。
但Scaling law的边际效益开始逐渐递减,市场开始关注以DeepSeek为代表的通过Scaling law以外的方式显著提升模型效益的路径。
第二个趋势是API/Token价格的显著下滑,有利于加速AI应用的多元化。
郭明錤认为,目前从生成式AI趋势中获利的方式,主要还是“卖铲子”和降低成本,而不是创造新业务或提升既有业务的附加值。
而DeepSeek-R1的定价策略,会带动生成式AI的整体使用成本下降,这有助于增加AI算力需求,并且可以降低投资人对AI投资能否获利的疑虑。
不过,使用量的提升程度能否抵消价格降低带来的影响,仍然有待观察。
同时,郭明錤表示,只有大量部署者才会遇到Scaling law边际效益的放缓,因此当边际效益再度加速时,英伟达将依然是赢家。
参考链接:
[1]https://www.404media.co/openai-furious-deepseek-might-have-stolen-all-the-data-openai-stole-from-us/
[2]https://www.ft.com/content/a0dfedd1-5255-4fa9-8ccc-1fe01de87ea6?accessToken=zwAGLNJX-fBAkdOg3-3RUlVPqdOMzB_gHeh-pg.MEYCIQCGjo04z0mtOsKbDspQLq2BMXyw8SbQnlYePOuqiqr6QgIhAInK67eBkYuZS-77ljnP-y--EJdN1wwRQ8GIR8sKMFgE&sharetype=gift&token=1eebbaa7-a4e6-4251-b665-c2f2562b38e4
[3]https://x.com/GaryMarcus/status/1884601187271581941
[4]https://mingchikuo.craft.me/g8mybRumSTYD3J


APP专享直播
热门推荐
理想汽车高管疑似暗讽华为:起个山海经名字就算技术突破,是不是自己研发的每个人都有一杆秤 收起理想汽车高管疑似暗讽华为:起个山海经名字就算技术突破,是不是自己研发的每个人都有一杆秤
- 2025年02月25日
- 03:46
- APP专享
- 扒圈小记
8,666
重大宣布!俄罗斯开出停战条件
- 2025年02月25日
- 01:44
- APP专享
- 扒圈小记
2,945
特朗普政府正施压主要盟友,寻求加大对华芯片产业限制,外交部回应
- 2025年02月25日
- 07:27
- APP专享
- 北京时间
2,248

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 12:24:48
亚太药业(sz002370)公告称,公司注射用更昔洛韦通过仿制药质量和疗效一致性评价。该药品适用于治疗危及生命或视觉的免疫缺陷患者的巨细胞病毒感染,以及预防器官移植病人的巨细胞病毒感染。通过一致性评价将进一步丰富公司的产品管线,提升市场竞争力,并为后续其他产品开展仿制药一致性评价工作积累经验。 -
趋势领涨今天 10:20:00
【3连板大位科技(sh600589):公司是一家主要从事IDC业务的互联网综合服务提供商 为客户提供机柜租赁等服务】大位科技(sh600589)发布风险提示公告称,公司是一家主要从事IDC业务的互联网综合服务提供商,为客户提供机柜租赁服务、网络传输及增值服务以及相关运维服务。经自查,公司目前经营情况正常,主营业务未发生重大变化,外部市场环境、行业政策亦未发生重大变化。 -
数字江恩今天 09:31:29
只是明天来说,图上3384的回踩并没有5分钟级别的底背离,正常情况下就图上蓝色轮峰线就压制了,哪怕反弹略微扩展也是3376重压,继续向下震荡。至少明天还处于宽幅震荡的向下震荡之中。 -
数字江恩今天 09:31:25
直接看5分钟图,本人昨天告诉短线选择在即,今天就直接下跳空了。这个选择说明了目前大盘依旧处于宽幅震荡阶段,而不是开始了新的主升浪结构,后面的任务就集中在寻找宽幅震荡的低点了。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:31:09
板块来看,工业母机、飞行汽车、光刻机等行业都稍微反弹,但是就活跃个股家数来看,依旧是机器人(sz300024)、人工智能、新能源类领先。 -
数字江恩今天 09:30:56
A股两市今日成交7275 + 11693 = 18968 亿人民币,虽然相对昨日略微缩量,但依然维持在高水平运行。大盘今天大幅向下跳空,然后运行了一个倒V型,上午抵抗、下午回落新低的结构,收跌27个点。个股方面,70%的个股收绿下跌,但大幅下跌个股家数只有昨天的不到一半。 -
数字江恩今天 09:30:51
轮峰线压制震荡 -
趋势领涨今天 09:25:36
【7天5板威尔泰(sz002058):公司股票可能被实施退市风险警示】威尔泰(sz002058)公告称,预计公司2024年度利润总额、净利润、扣除非经常性损益后的净利润三者孰低为负值,且扣除后的营业收入低于3亿元。若2024年度经审计的财务数据触及《深圳证券交易所股票上市规则》第9.3.1条的规定,公司股票交易将在2024年年度报告披露后被实施退市风险警示。 -
北京红竹今天 07:59:28
3、1.9万亿成交额一直保持1.5万亿以上,有卖也有买,成交额很讲课。上涨1537家,下跌3735家,涨停65家,跌停7家。涨跌数据属于调整的一天,这两天我给大家的策略也是周一二注意洗盘,把仓位控制一下。这里给个标准吧,即便出现调整开始信号,也没必要空仓。半仓以下比较舒服,品种首先滞涨品种,高位品种一律出掉,这两天没有降低仓位的,也可以逐步降低一下,没必要等客观跌破防守线。等日线一笔下跌出现在帮仓位提高到7成以上。 -
北京红竹今天 07:59:24
2、主线也有标准了DS和人形机器人(sz300024)同时都有标准了。早盘低开人形机器人(sz300024)也构造了五分钟级别三买,也就是说今天早上的低点就是人形机器人(sz300024)波段反弹的防守线。看明天或者后天了,跌破反弹结束,迎接洗盘,不跌破还能继续上。同样DS,大方向依然没问题,也不谈大风险,只是跟大家说一下节奏的问题。图片这是DS三十分钟级别走势图,横线这里不跌破反弹还可以继续,跌破反弹结束。交易上,目前高位品种要规避,那些滞涨的品种还无所谓,继续持有问题不大。如果板块指数出现调整,首先洗盘的就是这些高位品种,滞涨品种还不一定。