GPT-4下岗了，上海高校和企业用DeepSeek开发大模型和智能体|gpu_新浪财经

转自：上观新闻

深度求索公司研发的DeepSeek大模型最近“出圈”，其实，国内学术界和产业界使用这个系列的大模型已有一段时间。解放日报·上观新闻记者今天采访时了解到，上海交通大学计算机科学与工程系教授赵海去年已弃用GPT-4，改用DeepSeek-V3生成合成数据，开发垂类大模型。

达观数据公司去年5月就引入DeepSeek-V2大模型，开发办公智能体（Agent），取得了很好效果。“DeepSeek的性价比极高，而且全面开源，对产业应用很友好。”达观数据董事长、首席执行官陈运文博士说。

大幅提高办公智能体的专业能力

近年来，赵海团队利用GPT-4等基座大模型，为政府和企业开发了十多个垂类大模型。在开发过程中，基座大模型的主要作用是生成合成数据。这类数据通过人工方式生成，而不是从真实世界中获取，用于训练大模型。“我用过一些国产基座大模型，它们的效果和GPT-4比起来，还是有一定差距。”赵海教授告诉记者，“但使用DeepSeek-V3后，我发现它的性能与GPT-4处于同一量级，而价格只有GPT-4的十分之一，所以现在不用GPT-4了。”

与赵海团队相比，达观数据使用DeepSeek更早。陈运文介绍，DeepSeek-V2是一个精简高效的开源模型，只需要相对低配的GPU和显卡内存，就能让办公智能体获得很好的推理效果。DeepSeek-V3发布后，这家上海人工智能企业立即成为它的用户。

“这个大模型有6710亿参数，激活参数为370亿，在14.8万亿token（词元）上进行了预训练，生成速度比上一个版本V2.5模型提升3倍，达到每秒吞吐量60token。”陈运文介绍，“V3对GPU资源的使用效率极高，因为很多单位没有庞大的GPU集群，DeepSeek这种低资源、高效果的特性有利于今后大规模推广应用。”

DeepSeek-V3为何对GPU资源的使用效率极高？陈运文解释，它运用了多种技术创新，如采用MLA（多头潜在注意力）架构，成功压缩了键值缓存；使用对偶流水线机制，通过设计流水线调度，让GPU算力和通信算力在训练中并行隐藏，成功减少了计算瓶颈，实现几乎不间断的运算；还使用PTX这一接近汇编语言的低级指令集，对GPU进行细致控制，如调整寄存器分配和线程运行方式，从而更精细地管理GPU资源。

本月发布的推理大模型DeepSeek-R1在复杂的数学和逻辑任务上表现优秀，达观数据使用后，大幅度提升了办公智能体在审阅处理复杂的工程报告、金融文书、财务报表、招投标书等专业文档上的能力。

DeepSeek风靡美国后，投资者抛售人工智能主题相关股票，纳斯达克综合指数1月27日显著下跌。新华社发

R系列模型将推动科学智能发展

“DeepSeek-V3和DeepSeek-R1的问世，是大模型领域的标志性事件。”赵海认为，大模型近年来的发展历程可分为三个阶段：第一阶段的标志性事件是ChatGPT问世，其表现令人惊艳，但因为不开源，大多数开发者并不清楚这个大模型是如何开发出来的；在第二阶段，很多团队重现了ChatGPT开发过程，涌现出Llama、Qwen等一批开源大模型，这类模型的性能越来越强，但与OpenAI发布的大模型相比，存在一定差距；DeepSeek-V3和DeepSeek-R1则开启了第三阶段，它们的性能可分别比肩GPT-4和OpenAI o1，意味着开源大模型终于追赶上了闭源大模型。

这位长期研究自然语言处理的学者说，自从OpenAI在2020年发布不开源的GPT-3以来，这家标榜“从事开放性人工智能研究”的机构就背离了初心。如今，随着深度求索公司的异军突起，大模型研发可谓“回归初心”，让开源再度成为业内的主流形态。通过深度求索发布的技术报告，全球开发者都了中国研发团队的创新智慧。可以预见，DeepSeek将引发大模型创新和产业生态的变革。

未来，DeepSeek的R系列推理大模型最值得关注。赵海解释：“过去，ChatGPT等大模型像文科生，不擅长理科和逻辑推理。而对人类智慧来说，最底层的智慧是逻辑，逻辑之上是数学，再上面是物理、化学等科学。”去年9月，OpenAI发布的o1推理大模型改变了“文科生”形象，它擅长逻辑推理和数学，为今后将大模型用于科学研究、处理复杂任务奠定了基础。

目前，DeepSeek-R1的性能与OpenAI o1不分上下，为中国的科学智能（AI for Science）发展提供了利器。在赵海看来，人工智能这门学科的终点是“人工大脑”问世，这种通用人工智能（AGI）设备可用于研究数学、自然科学、社会科学等各个专业领域的复杂问题。未来20年内，科学家有望开发出“人工大脑”，从而颠覆现有的科研范式，使人类获取新知识和解决方案的效率大幅提升。

深度求索创始人梁文锋近日接受专访时表示，DeepSeek的终极目标是实现通用人工智能，而非仅仅追求商业化应用，“生成式AI只是通往AGI的必经之路，AGI有望在我们有生之年实现”。