中国造人工智能DeepSeek有多强?

中国造人工智能DeepSeek有多强?
2025年02月12日 02:21 华西都市报

  短短 30 天,中国初创企业深度求索(DeepSeek)发布两款性能比肩GPT-4o的大模型。据数据显示,DeepSeek活跃用户数2月1日突破3000万,成为史上最快达成这一里程碑的应用。

  价格“感人”是让DeepSeek快速出圈的第一个标签。DeepSeek-R1的API服务定价为每百万输入tokens(指文本被分割成的基本单位)1元或4元,每百万输出tokens 16元。

  相较谷歌Gemini,DeepSeek-R1更便宜、上下文更长、推理性能更佳。低成本比肩OpenAI的o1模型,令硅谷的“烧钱模式”一时间遭到猛烈质疑。

  DeepSeek-V3模型的训练成本为557.6万美元。相比之下,同样是开源模型的Meta旗下Llama-3.1模型训练成本超过6000万美元,而OpenAI的GPT-4o模型的训练成本为1亿美元。

  DeepSeek问世之前,全球人工智能巨头不约而同走上一条参数越“炼”越大的路线。另辟蹊径的DeepSeek并不盲目追求参数之大,而是选择了一条更高效的训练方法提升性能。

  “DeepSeek通过有限资源的极致高效利用,实现了以少胜多。”面壁智能首席科学家刘知远说。算力封锁下的破局,得益于DeepSeek技术架构、数据策略、工程实践三方面的关键突破。

  传统大模型的架构好比高速公路,当车辆(数据)多时会导致堵车(计算慢、能耗高)。而DeepSeek架构则把一条串行的高速路,变成了辐射状的快递分拣中心,因此既能提高速度又能节约能耗。

  传统的数据策略好比去农场随便采捡,常有价值不高的烂菜叶(低质量数据)。而DeepSeek创新的数据蒸馏技术,有针对性地筛选掉质量不高的烂菜叶,相比随机采样训练效率提升3.2倍。

  传统大模型的训练方式好比手工造车,一次只能装配一台,效率低下。而DeepSeek的3D并行相当于通过流水线并行把造车流程拆分为10个步骤,同时组装10辆车(数据分块处理)。

◎文/新华社客户端 漫画/杨仕成

海量资讯、精准解读,尽在新浪财经APP
人工智能

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 01-17 宏海科技 920108 5.57
  • 01-16 亚联机械 001395 19.08
  • 01-16 海博思创 688411 19.38
  • 01-14 富岭股份 001356 5.3
  • 01-13 超研股份 301602 6.7
  • 新浪首页 语音播报 相关新闻 返回顶部