近日,在国内某问答平台上,一则关于 DeepSeek 的提问登上问题热门排行榜。这一问题的描述是:“如何评价 DeepSeek 自称开源?但似乎并未开源(Open Source),仅为 Open Model?”

那么,DeepSeek 是否真的只是“自称开源”?其开源程度到底如何?它的开源能否起到“一鲸落万物生”的作用?对于这两个问题,DeepTech 本次采访的五位 AI 专家无一例外均给出了正面回答。

谈 DeepSeek 开源:“没吃上猪肉,但至少近距离看了猪跑”
对于 DeepSeek 的开源,香港城市大学宋林琦教授十分形象地说:“我们这次虽然没能吃上猪肉,但是至少近距离的看了下猪跑。”其表示,此前他和团队一直关注 AI 领域的商业模式,其中最赚钱的往往是“卖卡”和“卖课”,即 GPU 硬件销售和 AI 课程销售。
而专注于 AI 技术研发和 AI 应用的企业则普遍面临盈利难题。DeepSeek 的贡献在于有效降低了大规模训练对于 GPU 资源的依赖,缓解了 AI 产业链中的关键瓶颈。
这一变革有望推动 AI 价值链的重塑,使 GPU 端长期积累的超额利润向 AI 技术和应用端转移,进而形成一个健康的商业闭环,助力 AI 产业的可持续发展。
此前曾在 Meta 担任 Staff 研究科学家、现任北京大学助理教授李萌也表示,从 DeepSeek 开源技术细节来说,对于他这样一名 AI 研究者来说,这里面已经有非常多的细节值得学习了。
他说:“我相信 DeepSeek 在工程中一定还有很多技术细节,例如数据如何清洗、训练过程的细节等。这些都需要很多额外的实验和探索。”
李萌表示,大模型的训练包括模型、训练框架、训练数据和其他训练细节。目前,DeepSeek 已经把模型架构和参数开源,而训练框架尤其是训练数据的开源在业界少有先例。
但是,DeepSeek 通过技术报告的形式,将 GPRO 等训练算法、目标函数等技术细节公布出来,对于大家理解整个训练过程很有帮助。同时,由于 DeepSeek 的模型能够被外界直接访问,这让外界 AI 开发者可以基于它去做模型复现,而这就已经足够难得。
事实上,大模型的复现并非易事。以 OpenAI 的 o1 模型为例,由于它没有公开任何技术细节,导致很多学界团队和业界团队都很难复现 o1 模型。但是,DeepSeek 的开源极大降低了外界 AI 开发者复现模型的难度,目前至少已有两支高校团队成功复现了 DeepSeek 的模型。
此外,李萌表示 DeepSeek-R1 的开源也让外界 AI 开发者可以更好地了解思维链(COT,Chain of Thought)技术在先进成熟模型上的应用,更让外界 AI 开发者不用再像以前那样只能在网上扒一些内容,因此可以说 DeepSeek 的开源迈出了大模型领域的重大一步。
浙江大学张克俊教授进一步指出, DeepSeek 开源地支持了思维链推理的模型, 增强了复杂推理能力,能够助力 AI 研究者针对特定主题的深度探索;同时,该模型也在不断提升多领域适用性,不仅支持高质量内容生成,经过技术扩展后有望成为多任务处理的基础架构。

(来源:https://huggingface.co/deepseek-ai/DeepSeek-R1/blob/main/modeling_deepseek.py)

DeepSeek 开源:降低 AI 社区的资源门槛
“DeepSeek 的开源确实让外界 AI 开发者的研究成本降了不少。就像有人开玩笑所说的 DeepSeek 的模型是‘大模型界的拼多多’,因此特别适合高校团队。”香港大学黄超教授表示。
比如,在开发智能体和检索增强生成技术时,外界 AI 开发者可以直接使用 DeepSeek 开源的预训练模型和框架,这比使用 GPT 系列模型具有更大的成本优势。这不仅让更多资源有限的外界 AI 开发者也能参与到大模型研究中,更能让他们把更多精力放在创新和优化上。
之前,很多 AI 技术掌握在业界大厂手里。AI 学界由于 GPU 资源等限制,没有办法去尝试一些新想法。
这曾让宋林琦和团队在提出新的课题想法时,根本不知道什么样的技术 work、什么样的技术不 work。而现在,通过 DeepSeek 的开源技术再叠加 DeepSeek 开源的低成本训练技术,比如混合专家、大模型小型化技术的蒸馏、量化压缩、对齐机制、多任务注意力混合架构、去随机负载平衡等,能让宋林琦这样的外界 AI 开发者进行更快速的试错。
同时,DeepSeek 模型的开源也会让 AI 相关应用受益。其所使用的高效训练方法以及由此打造的更小型化的模型,不仅意味着更低的算力需求,也直接降低了 Token 成本,这让大模型的推理和生成变得更加经济高效。对于需要长期调用大模型进行复杂计算的应用场景而言,这具有极大的价值。
比如,在 AI for Science 领域,大模型已被广泛用于蛋白质结构预测、材料科学模拟、分子动力学计算等方向,而计算成本的降低也意味着更多科研团队均能负担得起高精度的 AI 计算,这让其可以使用更高效的小型化大模型完成类似任务,在提高研究效率的同时还能扩大 AI 的应用范围,同时还能加速科学发现的进程。
再比如,在 AI for Math 领域,大模型已被用于自动解题、数学证明生成、优化数学推理能力等任务,在数学教育和数学科研中的作用愈发凸显。
而 DeepSeek 在降低 AI 训练和降低推理成本上的突破,也能降低上述研究的资源门槛。

(来源:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/LICENSE)

DeepSeek 开源:让 AI 开发者看到更多可能
香港大学黄超教授表示,目前其团队已经开始用上 DeepSeek。其表示,DeepSeek 的工具和模型确实很给力。比如,在开发一些复杂任务时,DeepSeek 模型的效果还算不错,也让外界 AI 开发者看到了基于更多大模型基础能力开展探索和应用落地的可能。 特别值得一提的是,DeepSeek-R1 模型使用强化学习来增强模型推理能力的设计,这和黄超团队的研究方向特别契合。之前,他和团队也曾尝试使用低成本的强化学习方法,以让模型在 Agent 任务中表现得更好,比如让 AI 在复杂环境中做出更聪明的决策等。 而 DeepSeek- R1 所采用的奖励函数设计方案以及如何在不增加太多计算开销的情况下提升模型的推理能力等方法,都给其带来了较多启发。接下来,他和团队打算继续基于 DeepSeek 做一些更有意思的探索。
比如通过结合使用 DeepSeek 的强化学习方法看看能否让 Agent 在多轮对话中表现得更“聪明”,再比如研究如何在一些需要长期规划的复杂任务中让 Agent 表现得更好等。“总之,DeepSeek 不仅帮我们节省了成本,还让我们看到了更多可能性,感觉接下来的研究会越来越有趣。”黄超表示。
DeepSeek 模型在众多任务中极佳的性能-效率平衡,让人们看到了多专家模型、知识蒸馏、课程学习等技术的优势。因此,宋林琦团队打算结合自身经验,探索 DeepSeek 模型在 AI 模型训练以及推断效率领域的技术探索。
基于公开报道以及实际使用感受,他认为 DeepSeek 目前主要通过关键词过滤等方式对输出内容安全进行控制。但是,如何更好地保障内容的安全生产对于上下游的应用依旧十分重要。因此,他和团队将针对模型的价值观对齐开展研究,以便提升模型的自我监管能力,争取能在更大程度上降低偏见内容和有害内容的输出。
上海交通大学长聘教轨副教授王铮表示:“DeepSeek 这类‘好用又便宜’的大模型非常值得研究和应用。我的研究主要聚焦于数据挖掘和大数据技术领域。在 ChatGPT 刚发布的时候,我们曾经估算过在大数据场景下其使用成本会是天文数字。 为此,我们实验室发起了 rLLM 项目,开展大数据与大语言模型高效协同的探索。未来,我们计划进一步研究如何结合各大模型的领域优势与推理成本,以实现大模型智能数据分析的最佳性价比。”

与此同时,本文的五位受访者都是高校老师,因此他们一方面都希望自己的研究能够影响到业界,另一方面也希望自己培养出来的学生能够回馈到产业。
李萌表示,对于大模型的业界开发者来说,如果只做工程等于是必死无疑。因为,大模型不仅需要工程能力,还需要学术研究能力。而对于没有太多 GPU 的学界来说,基于 DeepSeek 同样能有很多研究方向值得探索。
通过和产业界的合作,学术界能够帮助业界解决新的问题,同时也有助于培养学生,未来能更好地走到产业中去。
《金融时报》的一篇评论文章也肯定了 DeepSeek 的开源,该文章写道:“让我们把这视为历史上的一个时刻。1440 年,约翰内斯·古腾堡(Johannes Gutenberg)将印刷机带到了欧洲,这一发明打破了之前由精英掌握的知识垄断。DeepSeek 的成就延续了这一使信息更易获取的传统。其低成本推理模型证明 AI 可以属于每个人,而不仅仅是那些囤积代码、芯片和资本的人。”

参考资料:
https://www.ft.com/content/3549cc33-e04d-41da-8c58-525d5bb2ba4c
https://www.zhihu.com/question/10748172232?utm_psn=1869450245278162944
运营/排版:何晨龙
01/
02/
03/
04/
05/



APP专享直播
热门推荐
收起
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
宋谈股经今天 08:16:51
【VIP教室】组合个股,今天修复上涨,蓄势待发,速戳抢购查阅,了解选股逻辑〉〉【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
波段擒龙今天 08:08:24
记者获悉,为深入贯彻落实国家关于发展人工智能的战略部署,推动人工智能与云计算等前沿技术的深度融合,3月13日,由杭州市经信局、杭州市数据资源局指导,浙江算力科技主办的“云智聚能,共筑AI产业新未来——人工智能与可控云计算产业生态大会”将在杭州举行。根据议程,大会将正式发布杭州市算力资源调度服务平台,举行算力生态共同体签约仪式,举办浙江算力与海光信息(sh688041)战略合作签约仪式等。同时,浙江算力、阿里云、华为、超聚变、海光信息(sh688041)、天数智芯、无问芯穹等将进行主题演讲。 (证券时报) -
波段擒龙今天 08:08:01
热门中概股美股盘前齐升,小鹏汽车涨逾9%,蔚来涨逾7%,哔哩哔哩涨逾6%,理想汽车涨逾5%,阿里巴巴涨超4%。 -
宋谈股经今天 07:53:14
今日共54股涨停,连板股总数14只,12股封板未遂,封板率为82%(不含ST股、退市股)。焦点股方面,高位的华丰股份(sh605100)、大位科技(sh600589)均实现连板晋级,信隆健康(sz002105)缩量涨停晋级6连板,正和生态(sh605069)、云内动力(sz000903)等人气股纷纷走出反包行情。 -
趋势领涨今天 07:49:20
有消息称,DeepSeek下一代AI模型DeepSeek-R2或提前于下周一(3月17日)正式发布。截至目前,DeepSeek官方尚未正式公布R2的具体日期及技术细节等。早前市场预期DeepSeek-R2模型于5月发布。就上述信息求证官方,截至发稿官方暂无回应。 -
宋谈股经今天 07:41:30
3月11日收评:沪指低开反弹涨0.41%,两市成交不足1.5万亿1、市场全天低开反弹,三大指数尾盘集体翻红。国资云概念股走强,湖北广电(sz000665)、数据港(sh603881)、美利云(sz000815)涨停。军工板块集体拉升,炼石航空(sz000697)、内蒙一机(sh600967)、火炬电子(sh603678)等涨停。猪肉股午后走高,天域生物(sh603717)、神农集团(sh605296)涨停。下跌方面,机器人(sz300024)概念股分化,夏厦精密(sz001306)等跌超5%。个股涨多跌少,沪深京三市约2800股飘红,今日成交1.52万亿。截止收盘沪指涨0.41%,深成指涨0.33%,创业板指涨0.19%。2、板块概念方面,军工、次新股、国资云、猪肉等板块涨幅居前,光刻机、AI医疗、软件开发、CRO等板块跌幅居前。3、两市共2754只个股上涨,65只个股涨停,2149只个股下跌,5只个股跌停,12只股票炸板,炸板率19%。 -
趋势起航今天 07:10:27
财富密码已解锁!昨日推荐股票连板飙升,涨幅惊人;今日再度出击,力荐的两只股票同样一路狂飙,强势涨停!这可不是运气,而是专业团队深度研究与精准预判的成果。此刻,趋势 VIP 重磅福利震撼登场!首开即享半价优惠,半年费用直降至 415 元 / 月。如此超值的价格,在投资服务领域堪称史无前例,这是你千载难逢的财富机遇。然而,幸运只青睐少数人。本次特惠活动仅开放前 50 个名额,先到先得,一旦满员,优惠瞬间消失。财富浪潮转瞬即逝,你还在犹豫什么?立即抢占趋势 VIP 席位,搭乘涨停快车,订阅地址:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
徐善武今天 07:06:56
有点意思 开盘最低点 收盘最高点 -
巨丰投资张翠霞今天 07:05:09
4小时运行结束,总结全天市场运行,1)相较美股大跌,A股低开高走,报收光头阳线,阳包阴反包上涨中继K线,MACD指标闭合,短期方向抉择,方向明确后迎来单边行情;2)量能,沪深两市今日成交额15198亿元,较上个交易日15440亿元减少242亿元;3)行业板块方面,以加权涨幅来看56家行业28家红盘,商贸代理、日用化工、酿酒等板块涨幅居前;工程机械、汽车类、互联网等板块跌幅居前;4)市场延续结构型行情,题材热点快速轮动。详细解盘,可关注《翠霞首席课》的“热点直击”和“操盘指南”~~~ -
趋势起航今天 07:05:06
市场全天低开高走,三大指数均收光头阳线,沪深两市全天成交额1.48万亿,较上个交易日缩量238亿。盘面上,市场热点较为杂乱,个股涨多跌少,全市场超2800只个股上涨。从板块来看,国资云概念股集体大涨,湖北广电(sz000665)等涨停。军工股震荡走强,内蒙一机(sh600967)等涨停。猪肉股展开反弹,神农集团(sh605296)涨停。板块方面,军工、小金属、猪肉、国资云等板块涨幅居前,光刻机、AI医疗、软件开发、CRO等板块跌幅居前。截至收盘,沪指涨0.41%,深成指涨0.33%,创业板指涨0.19%。