来源:华尔街见闻
DeepSeek做了PTX级别的优化不意味着完全脱离了CUDA生态,但确实代表他们有优化其他GPU的能力。来自Mirae Asset Securities Research的分析称,V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”。
英伟达刚刚从DeepSeek-R1引发的4万亿元暴跌中缓过劲来,又面临新的压力?

硬件媒体Tom‘s Hardware带来开年最新热议:
DeepSeek甚至绕过了CUDA,使用更底层的编程语言做优化。

这一次是DeepSeek-V3论文中的更多细节,被人挖掘出来。
来自Mirae Asset Securities Research(韩国未来资产证券)的分析称,V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”。
在使用英伟达的H800 GPU训练DeepSeek-V3时,他们针对自己的需求把132个流式多处理器(SMs)中的20个修改成负责服务器间的通信,而不是计算任务。
变相绕过了硬件对通信速度的限制。

这种操作是用英伟达的PTX(Parallel Thread Execution)语言实现的,而不是CUDA。
PTX在接近汇编语言的层级运行,允许进行细粒度的优化,如寄存器分配和Thread/Warp级别的调整。
这种编程非常复杂且难以维护,所以行业通用的做法是使用CUDA这样的高级编程语言。
换句话说,他们把优化做到了极致。
有网友表示,如果有一群人嫌CUDA太慢而使用PTX,那一定是前量化交易员。

一位亚马逊工程师提出灵魂质问:CUDA是否还是护城河?这种顶尖实验室可以有效利用任何GPU。

甚至有网友开始畅想,如果“新源神”DeepSeek开源了一个CUDA替代方案……

那么事情是否真会如此?
DeepSeek真的绕过了CUDA?
首先要明确的是,PTX仍然是英伟达GPU架构中的技术,它是CUDA编程模型中的中间表示,用于连接CUDA高级语言代码和GPU底层硬件指令。
PTX类似汇编语言,代码大概长这样:

在实际编译流程中,CUDA代码首先被编译为PTX代码,PTX代码再被编译为目标GPU架构的机器码(SASS,Streaming ASSembler)。
CUDA起到了提供高级编程接口和工具链的作用,可以简化开发者的工作。而PTX作为中间层,充当高级语言和底层硬件之间的桥梁。
另外,这种两步编译流程也使得CUDA程序具有跨架构的兼容性和可移植性。
反过来说,像DeepSeek这种直接编写PTX代码的做法,首先不仅非常复杂,也很难移植到不同型号的GPU。
有从业者表示,针对H100优化的代码迁移到其他型号上可能效果打折扣,也可能根本不工作了。

所以说,DeepSeek做了PTX级别的优化不意味着完全脱离了CUDA生态,但确实代表他们有优化其他GPU的能力。
事实上,我们也能看到DeekSeek已经与AMD、华为等团队紧密合作,第一时间提供了对其他硬件生态的支持。

One More Thing
还有人提出,如此一来,让AI擅长编写汇编语言是AI自我改进的一个方向。

我们不知道DeepSeek内部是否使用AI辅助编写了PTX代码——
但是确实刚刚见证DeepSeek-R1编写的代码显著提升大模型推理框架的运行速度。
Llama.cpp项目中的一个新PR请求,使用SIMD指令(允许一条指令同时处理多个数据)显著提升WebAssembly在特定点积函数上的运行速度,提交者表示:
这个PR中的99%的代码都是由DeekSeek-R1编写的。我唯一做的就是开发测试和编写提示(经过一些尝试和错误)。
是的,这个PR旨在证明大模型现在能够编写良好的底层代码,甚至能够优化自己的代码。

llama.cpp项目的创始人检查了这段代码后表示“比预期的更爆炸”。

本文来源:量子位 ,原文标题:《“DeepSeek甚至绕过了CUDA”,论文细节再引热议,工程师灵魂提问:英伟达护城河还在吗?》
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
责任编辑:张恒星








APP专享直播
热门推荐
2000年以前建成的老旧小区,全部纳入城市更新改造范围 收起2000年以前建成的老旧小区,全部纳入城市更新改造范围
- 2025年03月09日
- 08:08
- APP专享
- 扒圈小记
2,843
大消息!特朗普、马斯克,突发!
- 2025年03月09日
- 23:57
- APP专享
- 扒圈小记
2,113
不得询问女性求职者婚育情况,多地工会发布法律监督提示函
- 2025年03月10日
- 03:39
- APP专享
- 北京时间
2,095

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 12:00:14
两会期间,全国人大代表、深交所理事长沙雁日前接受记者采访时表示,深交所将以深化创业板改革为牵引,优化发行上市、并购重组和市场定价机制,落实科技型优质创新企业“绿色通道”机制,用好创业板第二套、第三套标准,促进市场资源向新产业(sz300832)新业态新技术领域集聚;发挥好全周期、接力式市场服务体系作用,股、债协同发力,扎实做好金融“五篇大文章”,全方位服务新质生产力。 -
趋势领涨今天 11:04:46
=加入潜伏擒牛VIP,享四大顶级服务=【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每周一份高端内部绝密文章:包含近期布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!(VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!)现月课7.5折,1288元!季课6.9折,3558元,续费季度更划算!新朋友可先月课体验!点网址,直接买,订购地址:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
趋势领涨今天 10:11:24
【石英股份(sh603688)澄清:购买甘肃新石英矿的传言不属实】石英股份(sh603688)(603688.SH)发布澄清公告,公司关注到网络平台关于购买甘肃新石英矿的传言,现予以澄清说明。2025年3月6日,公司与甘肃省天水市麦积区签订投资意向协议,非传言所说的购买石英矿。该协议的内容为投资建设石英材料产业园项目,总投资不超过6亿元,主要生产高纯石英制品等产品。 -
趋势领涨今天 09:42:18
【南向资金大幅今日净买入296.26亿港元 盈富基金获净买入104亿港元】南向资金大幅净买入296.26亿港元,单日净买入额创历史新高。盈富基金、恒生中国企业、阿里巴巴-W分别获净买入104亿港元、55.34亿港元、29.18亿港元;中芯国际(sh688981)净卖出额居首,金额为4.64亿港元。 -
数字江恩今天 09:30:16
明日来说,看3378点位是否突破。若这里突破,那么今日最低点3347可以是3390回踩最低点。否则,明日都还要继续回踩,回补上周四日线缺口,并且确认3330支撑后,才会再次掉头向上攻击3400整数位。这里的操作,以3330跌破作为休止,只要不触及这个条件,就只有姿势的问题,都会去到3400以上。 -
数字江恩今天 09:30:10
看5分钟图,今天虽然午后开始反弹,但是否达到3390应有的回踩级别还有待观望。这里3390的回踩,只要在3330以上获得支撑,都是正常回踩,说明3297的反弹还会继续向上冲高3400整数位。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:29:55
板块上,今日新能源、新能源车、医药医疗、农林牧渔和军工涨幅靠前,前期的科技和机器人(sz300024)分化严重。部分消费类起来,科技类分化,显示市场风险偏好降低,等待重要事件完成后的走向。 -
数字江恩今天 09:29:49
A股两市今日成交5950 + 9106 = 15056 亿人民币,明显缩量。大盘今日上午回踩、下午反弹,收跌6个跌,略微回补了一点上周四的缺口,但未能完全回补。个股方面,超过60%的个股收红。 -
数字江恩今天 09:29:44
底线思维看待震荡 -
宋谈股经今天 08:33:35
今日共80股涨停,连板股总数10只,17股封板未遂,封板率为82%(不含ST股、退市股)。焦点股方面,虽然华丰股份(sh605100)、大位科技(sh600589)都走出反包行情,但高位股整体依旧偏弱,云鼎科技(sz000409)、海南华铁(sh603300)等人气股跌停,浙江黎明(sh603048)盘中一度上演天地板。