“DeepSeek甚至绕过了CUDA”,论文细节再引热议,工程师灵魂提问:英伟达护城河还在吗?

“DeepSeek甚至绕过了CUDA”,论文细节再引热议,工程师灵魂提问:英伟达护城河还在吗?
2025年01月29日 13:37 市场资讯

  来源:华尔街见闻

  DeepSeek做了PTX级别的优化不意味着完全脱离了CUDA生态,但确实代表他们有优化其他GPU的能力。来自Mirae Asset Securities Research的分析称,V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”。

  英伟达刚刚从DeepSeek-R1引发的4万亿元暴跌中缓过劲来,又面临新的压力?

  硬件媒体Tom‘s Hardware带来开年最新热议:

  DeepSeek甚至绕过了CUDA,使用更底层的编程语言做优化。

  这一次是DeepSeek-V3论文中的更多细节,被人挖掘出来。

  来自Mirae Asset Securities Research(韩国未来资产证券)的分析称,V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”。

  在使用英伟达的H800 GPU训练DeepSeek-V3时,他们针对自己的需求把132个流式多处理器(SMs)中的20个修改成负责服务器间的通信,而不是计算任务。

  变相绕过了硬件对通信速度的限制。

△DeepSeek-V3TechnicalReport△DeepSeek-V3TechnicalReport

  这种操作是用英伟达的PTX(Parallel Thread Execution)语言实现的,而不是CUDA。

  PTX在接近汇编语言的层级运行,允许进行细粒度的优化,如寄存器分配和Thread/Warp级别的调整。

  这种编程非常复杂且难以维护,所以行业通用的做法是使用CUDA这样的高级编程语言。

  换句话说,他们把优化做到了极致。

  有网友表示,如果有一群人嫌CUDA太慢而使用PTX,那一定是前量化交易员。

  一位亚马逊工程师提出灵魂质问:CUDA是否还是护城河?这种顶尖实验室可以有效利用任何GPU。

  甚至有网友开始畅想,如果“新源神”DeepSeek开源了一个CUDA替代方案……

  那么事情是否真会如此?

  DeepSeek真的绕过了CUDA?

  首先要明确的是,PTX仍然是英伟达GPU架构中的技术,它是CUDA编程模型中的中间表示,用于连接CUDA高级语言代码和GPU底层硬件指令。

  PTX类似汇编语言,代码大概长这样:

△来自tinkerd.net△来自tinkerd.net

  在实际编译流程中,CUDA代码首先被编译为PTX代码,PTX代码再被编译为目标GPU架构的机器码(SASS,Streaming ASSembler)。

  CUDA起到了提供高级编程接口和工具链的作用,可以简化开发者的工作。而PTX作为中间层,充当高级语言和底层硬件之间的桥梁。

  另外,这种两步编译流程也使得CUDA程序具有跨架构的兼容性和可移植性。

  反过来说,像DeepSeek这种直接编写PTX代码的做法,首先不仅非常复杂,也很难移植到不同型号的GPU。

  有从业者表示,针对H100优化的代码迁移到其他型号上可能效果打折扣,也可能根本不工作了。

  所以说,DeepSeek做了PTX级别的优化不意味着完全脱离了CUDA生态,但确实代表他们有优化其他GPU的能力。

  事实上,我们也能看到DeekSeek已经与AMD、华为等团队紧密合作,第一时间提供了对其他硬件生态的支持。

  One More Thing

  还有人提出,如此一来,让AI擅长编写汇编语言是AI自我改进的一个方向。

  我们不知道DeepSeek内部是否使用AI辅助编写了PTX代码——

  但是确实刚刚见证DeepSeek-R1编写的代码显著提升大模型推理框架的运行速度。

  Llama.cpp项目中的一个新PR请求,使用SIMD指令(允许一条指令同时处理多个数据)显著提升WebAssembly在特定点积函数上的运行速度,提交者表示:

这个PR中的99%的代码都是由DeekSeek-R1编写的。我唯一做的就是开发测试和编写提示(经过一些尝试和错误)。

是的,这个PR旨在证明大模型现在能够编写良好的底层代码,甚至能够优化自己的代码。

  llama.cpp项目的创始人检查了这段代码后表示“比预期的更爆炸”。

  本文来源:量子位 ,原文标题:《“DeepSeek甚至绕过了CUDA”,论文细节再引热议,工程师灵魂提问:英伟达护城河还在吗?》

  风险提示及免责条款

  市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

海量资讯、精准解读,尽在新浪财经APP

责任编辑:张恒星

CUDA gpu 硬件 英伟达 工程师
15条评论|33人参与网友评论
最热评论
幽默Nemo浙江湖州
居然用英文,这明显是抄袭啊,严重侵害了知识产权和文化尊严
1月31日11:55举报回复
用户7733740440:你懂人工智能吗?你连D S人家的论文都看不懂,还在这瞎逼逼,就是一条西方的舔狗!
1月31日08:38举报1回复
道道的旅行新浪网友
英伟达爱怎么查就怎么查,咱们该怎么干还怎么干
1月30日23:24举报1回复
美股可能得有个短期调整的风险
1月30日22:42举报1回复
最新评论
道道的旅行新浪网友
英伟达爱怎么查就怎么查,咱们该怎么干还怎么干
1月30日23:24举报1回复
这篇文章说明deepseek背后用的是英伟达的技术栈
1月30日23:23举报回复
幽默Nemo浙江湖州
居然用英文,这明显是抄袭啊,严重侵害了知识产权和文化尊严
1月31日11:55举报回复
用户7733740440:你懂人工智能吗?你连D S人家的论文都看不懂,还在这瞎逼逼,就是一条西方的舔狗!
1月31日08:38举报1回复

APP专享直播

开播时间 | 3-10 20:00
创金合信基金 肖伊莎:创金看市丨重要会议后,如何寻找投资线索?
开播时间 | 3-10 20:00
「金融街话两会」对话五道口金融学院张健华、工行苏州分行赵霆:金融强国蓝图的“导航”
开播时间 | 3-10 19:30
富国基金:AI浪潮涌动,科技板块怎么投?
开播时间 | 3-10 19:00
长江大讲堂:科技创新驱动民营经济高质量发展
开播时间 | 3-10 16:00
光大证券李泉:市场风格逐渐切换,涨价题材成热点
开播时间 | 3-10 16:00
中信期货:中国对加拿大部分农产品加征关税的影响
开播时间 | 3-10 15:30
景顺长城:98°C的科技行情,下一步该去向何处?
开播时间 | 3-10 15:30
银华基金:指点迷津 第162期 “人工智能+”高频登场,哪些ETF适合布局?
开播时间 | 3-10 15:00
华夏基金 Deeptalk月月谈:决胜AI元年,2025科技投资新范式
开播时间 | 3-10 15:00
国投瑞银:追上科技热点 | 科创“显眼包”,不得不看!
开播时间 | 3-10 20:00
创金合信基金 肖伊莎:创金看市丨重要会议后,如何寻找投资线索?
开播时间 | 3-10 20:00
「金融街话两会」对话五道口金融学院张健华、工行苏州分行赵霆:金融强国蓝图的“导航”
开播时间 | 3-10 19:30
富国基金:AI浪潮涌动,科技板块怎么投?
开播时间 | 3-10 19:00
长江大讲堂:科技创新驱动民营经济高质量发展
开播时间 | 3-10 16:00
光大证券李泉:市场风格逐渐切换,涨价题材成热点
开播时间 | 3-10 16:00
中信期货:中国对加拿大部分农产品加征关税的影响
开播时间 | 3-10 15:30
景顺长城:98°C的科技行情,下一步该去向何处?
开播时间 | 3-10 15:30
银华基金:指点迷津 第162期 “人工智能+”高频登场,哪些ETF适合布局?
开播时间 | 3-10 15:00
华夏基金 Deeptalk月月谈:决胜AI元年,2025科技投资新范式
开播时间 | 3-10 15:00
国投瑞银:追上科技热点 | 科创“显眼包”,不得不看!
上一页下一页
1/10

热门推荐

2000年以前建成的老旧小区,全部纳入城市更新改造范围 收起
2000年以前建成的老旧小区,全部纳入城市更新改造范围

2000年以前建成的老旧小区,全部纳入城市更新改造范围

  • 2025年03月09日
  • 08:08
  • APP专享
  • 扒圈小记
  • 2,843
APP专享
大消息!特朗普、马斯克,突发!

大消息!特朗普、马斯克,突发!

  • 2025年03月09日
  • 23:57
  • APP专享
  • 扒圈小记
  • 2,113
APP专享
不得询问女性求职者婚育情况,多地工会发布法律监督提示函

不得询问女性求职者婚育情况,多地工会发布法律监督提示函

  • 2025年03月10日
  • 03:39
  • APP专享
  • 北京时间
  • 2,095
APP专享
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间
更多>
股票简称 最新价 涨跌幅
以下为热门股票
三峡能源 4.18 0.00%
京东方A 4.40 -0.45%
TCL科技 4.71 -1.26%
中远海控 13.78 +0.29%
格力电器 42.25 +0.93%
广告

7X24小时

  • 01-17 宏海科技 920108 5.57
  • 01-16 海博思创 688411 19.38
  • 01-16 亚联机械 001395 19.08
  • 01-14 富岭股份 001356 5.3
  • 01-13 超研股份 301602 6.7
  • 广告
    新浪首页 语音播报 相关新闻 返回顶部
    关闭
    关闭
    关闭