11月25日,谷歌前CEO埃里克·施密特在一次采访中表示:中国AI领域的发展速度远超预期,已经将与美国的差距从原本预计的2-3年缩短到了不到1年。
特别引起他注意的,是「两个来自中国的开源项目,一个是非常强大的问题求解器,另一个是一个大语言模型」。
前者被认为是由中国AI公司 DeepSeek 发布的 R1-Lite,一个能与 OpenAI o1-preview 模型竞争、专注于提高逻辑推理、数学推理和实时问题解决能力的推理模型。
作为一家成立仅一年多的AI公司,DeepSeek 通过持续的技术创新,正在业界展示中国在AI领域的研发实力。
1、成立背景和核心理念
DeepSeek(杭州深度求索人工智能基础技术研究有限公司,本文简称「DeepSeek」)由幻方量化在2023年4月创立。
幻方量化是国内量化私募领域的巨头之一,管理规模曾一度飙升至千亿,现在管理规模依然在600亿元左右。
DeepSeek是国内少数专注研究和技术的AI大模型公司,也是唯一一家未全面考虑商业化,甚至没有进行融资的公司。
梁文锋是幻方量化的实际控制人,他在DeepSeek最终受益的股份比例超80%(根据天眼查数据)。
而DeepSeek的创立,源于梁文峰在幻方量化时期即对AI的热衷。
2015年,幻方量化创立,依靠数学与人工智能进行量化投资,并在2016年首次将深度学习模型应用于实盘交易,使用GPU进行计算,并持续投入AI算法研究。
2019年,幻方量化自研的深度学习训练平台「萤火一号」总投资近2亿元,搭载了1100块GPU;两年后,「萤火二号」的投入增加到10亿元,搭载了约1万张英伟达A100显卡。
在建设萤火集群的过程中,Deepseek的前身出现。
背靠幻方,DeepSeek第一期研发投入即为幻方自主出资,同时有「萤火超算」万卡级别的算力支持。
单从资金及硬件配置上,DeepSeek在初期远比国内大部分AI初创企业优渥,也使得DeepSeek是国内除了互联网大厂之外少有的能够拥有超过1万张英伟达A100显卡的人工智能公司。
随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。
DeepSeek要以创新贡献者的身份,加入到游戏里去。—— 梁文峰
长期来看,DeepSeek专注于做真正人类级别的人工智能,此前也发布包括专家预言大模型、代码大模型、视觉语言模型在内的多个模型。
DeepSeek希望形成一种生态,业界直接使用DeepSeek的技术和产出,DeepSeek只负责基础模型和前沿的创新,然后其它公司在DeepSeek的基础上构建toB、toC的业务。
2024年5月6日, DeepSeek发布第二代MoE模型DeepSeek-V2,并在架构层面做了创新。
DeepSeek没有选择「1→10」而逆向选择了「0→1」,其提出了一种崭新的MLA(一种新的多头潜在注意力机制)架构。
也正是这种独特架构,其把显存占用降到了过去最常用的MHA架构的5%-13%。
同时,它独创的DeepSeekMoESparse结构,也把计算量降到极致,所有这些最终促成了成本的下降,宣布了行业震惊的定价方案——API定价为每百万tokens输入1元、输出2元,价格显著低于当前市场上的其他同类产品。
5月15日,DeepSeek完成备案正式开放服务,之后国内AI大模型公司纷纷加入大幅降价行列。
2、团队构成与专业背景
与其他AI企业执着地去海外挖人不同,DeepSeek热衷于自身培养。
DeepSeek的团队成员包括来自顶尖高校的应届毕业生、博四、博五实习生以及毕业几年的年轻人,他们对研究充满热情和好奇心。
梁文峰表示:「前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。」
梁文锋——创始人
梁文锋,深度求索创始人、幻方量化创始人。
他本硕就读于浙江大学,攻读人工智能,念书时就笃定「AI定会改变世界」。
毕业后,梁文锋没有走程序员的既定路线,而是下场做量化投资,成立幻方量化。幻方量化成立仅6年管理规模即曾达到千亿,被称为「量化四大天王」之一。
3、模型介绍
立足于开源,DeepSeek认为先有一个强大的技术生态更重要。
在颠覆性的技术面前,闭源形成的护城河是短暂的。DeepSeek的护城河来自在研发过程中团队的成长及经验的积累。
目前DeepSeek的模型全部开源,包括通用大模型DeepSeek LLM、MoE模型DeepSeek MoE、DeepSeek V3、代码模型DeepSeek Coder、DeepSeek Coder V2、数学模型DeepSeek Math、多模态大模型DeepSeek VL、推理模型DeepSeek R1-Lite。
(1)MoE模型DeepSeek-V3
2024年1月,DeepSeek发布并开源国内首个MoE大模型 DeepSeekMoE。
2024年12月26日,DeepSeek的全新系列模型 DeepSeek-V3 首个版本上线并同步开源。
DeepSeek-V3 为自研 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练。
DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
DeepSeek-V3 在知识类任务上的水平相比前代 DeepSeek-V2.5 显著提升,接近当前表现最好的模型 Claude-3.5-Sonnet-1022;
长文本测评方面,在DROP、FRAMES 和 LongBench v2 上,DeepSeek-V3 平均表现超越其他模型;
DeepSeek-V3 在算法类代码场景,领先于市面上已有的全部非 o1 类模型,并在工程类代码场景逼近 Claude-3.5-Sonnet-1022;
在美国数学竞赛和全国高中数学联赛上,DeepSeek-V3 大幅超过了所有开源闭源模型;
中文能力上,DeepSeek-V3 与 Qwen2.5-72B 在教育类测评 C-Eval 和代词消歧等评测集上表现相近,但在事实知识 C-SimpleQA 上更为领先。
价格
更新上线的同时,DeepSeek 调整了 API 服务价格——模型 API 服务定价调整为每百万输入 tokens 0.5 元(缓存命中)/ 2 元(缓存未命中),每百万输出 tokens 8 元。
官方还为全新模型设置长达 45 天的优惠价格体验期:
即日起至 2025 年 2 月 8 日,DeepSeek-V3 的 API 服务价格仍然是每百万输入 tokens 0.1 元(缓存命中)/ 1 元(缓存未命中),每百万输出 tokens 2 元,已经注册的老用户和在此期间内注册的新用户均可享受以上优惠价格。
(2)通用大模型DeepSeek LLM
2023年11月,DeepSeek 发布并开源通用大语言模型DeepSeek LLM,是DeepSeek继DeepSeek Coder后发布的第二款模型。
同时开源 7B 和 67B 的两种规模模型,均含基础模型(base)和指令微调模型(chat)。
相比当时开源的同级别模型 LLaMA2 70B,DeepSeek LLM 67B 在近20个中英文的公开评测榜单上表现更佳。尤其突出的是推理、数学、编程等能力(如:HumanEval、MATH、CEval、CMMLU)。
(3)代码领域模型DeepSeek CoderV2
2023年11月,DeepSeek发布并开源他们首款模型,代码模型 DeepSeek-Coder。
2024年6月,DeepSeek发布并开源代码模型DeepSeek-Coder-V2。DeepSeek-Coder-V2包含236B与16B两种参数规模,对编程语言的支持从86种扩展到338种。
DeepSeek-Coder-V2 沿用 DeepSeek-V2 的模型结构,总参数 236B,激活 21B,发布时在代码、数学的多个榜单上位居全球第二,介于最强闭源模型 GPT-4o 和 GPT-4-Turbo 之间。(根据DeepSeek发布同期披露评测数据)
DeepSeek-Coder-V2 还具有良好的通用性能,发布时在中英通用能力上位列国内第一梯队。(根据DeepSeek发布同期披露评测数据)
(4)多模态大模型DeepSeek VL
2024年3月,DeepSeek发布并开源多模态大模型DeepSeek VL。同时开源 7B与1.3B的两种规模模型。
DeepSeek-VL 7B超越同规模(7B 参数)的 EMU2-Chat/Yi-VL 等模型,甚至超过更大规模(17B 参数)的 CogVLM
DeepSeek-VL在不丢失语言能力的情况下融入多模态能力,能够对绝大多数现实场景下的问题给出细致而有条理的回复。
能够接受大尺寸分辨率图片作为输入,高达1024x1024,识别图片中的细小物体。同时具备通用多模式理解能力,能够处理逻辑图、网页、公式识别、科学文献、自然图像,以及在复杂场景中体现智能。
(5)推理模型 DeepSeek-R1-Lite
2024 年 11 月 20 日,DeepSeek的全新推理模型DeepSeek-R1-Lite正式发布,旨在与 OpenAI 的 o1-preview 模型竞争,专注于提高逻辑推理、数学推理和实时问题解决能力。
模型使用「链式思维」推理方法,它在解决问题时会展示详细的思考步骤,让用户可以看到模型是如何从问题出发一步步得出答案的。
性能方面,DeepSeek-R1-Lite 在一些关键基准测试中,如 AIME(美国数学邀请赛)和 MATH(高中数学竞赛级别的问题集),展示了与 OpenAI 的 o1-preview 相当甚至超过的性能。
此外,类似于 o1-preview 的做法,模型采用了推理时计算(test-time compute)方法,允许模型在生成答案时有更多的处理时间来「思考」,但 DeepSeek-R1-Lite 在推理过程中更加透明。
目前,DeepSeek-R1-Lite 通过 DeepSeek Chat 的网页提供,用户可以在其网站上免费体验,但每日限额为 50 条消息。
4、小结
国内不少公司习惯于跟随海外科技公司,参考技术做应用变现。即使是互联网大厂在创新方面也较为谨慎,更加重视应用层面。
DeepSeek逆向而行,选择了一条更具挑战的道路。它不满足于仅仅成为跟随者,而是从架构创新入手,提出了突破性的MLA架构,在全球AI大模型领域留下了独特的中国印记。
正如DeepSeek创始人梁文峰所说:「中国也要逐步成为贡献者,而不是一直搭便车。」这家低调的公司用行动和结果证明,中国企业完全有能力在全球AI技术创新的最前沿发出自己的声音。
VIP课程推荐
APP专享直播
热门推荐
收起24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)