![](http://n.sinaimg.cn/spider20250129/143/w660h283/20250129/de32-c64d6e6e8d2ebe6cc7c77d26d2e33829.jpg)
新智元报道
编辑:桃子 好困
【新智元导读】DeepSeek模型开发竟绕过了CUDA?最新爆料称,DeepSeek团队走了一条不寻常的路——针对英伟达GPU低级汇编语言PTX进行优化实现最大性能。业界人士纷纷表示,CUDA护城河不存在了?
原本DeepSeek低成本训出的R1,就已经让整个硅谷和华尔街为之虎躯一震。
而现在又曝出,打造这款超级AI,竟连CUDA也不需要了?
根据外媒的报道,他们在短短两个月时间,在2,048个H800 GPU集群上,训出6710亿参数的MoE语言模型,比顶尖AI效率高出10倍。
这项突破不是用CUDA实现的,而是通过大量细粒度优化以及使用英伟达的类汇编级别的PTX(并行线程执行)编程。
![](http://n.sinaimg.cn/spider20250129/77/w660h217/20250129/8dbb-68da33671c5f65b0a2c6a8da0b2dd8fe.jpg)
![](http://n.sinaimg.cn/spider20250129/431/w660h571/20250129/0433-20894dccb1dd739e87107ee15c2d8676.jpg)
这则消息一出,再次掀翻AI圈,网友对其策略纷纷表示震惊:
「在这个世界上,如果有哪群人会疯狂到说出『CUDA太慢了!干脆直接写PTX吧!』这种话,绝对就是那些前量化交易员了。」
![](http://n.sinaimg.cn/spider20250129/302/w660h442/20250129/9c88-8acd5f46488c0a06b577738b59343b11.jpg)
![](http://n.sinaimg.cn/spider20250129/253/w660h393/20250129/4def-6b4d448ef5b65b30482053f9142625f4.jpg)
![](http://n.sinaimg.cn/spider20250129/196/w660h336/20250129/24ec-3f8043f5943c62ccaa5c34e3d521aa04.jpg)
![](http://n.sinaimg.cn/spider20250129/144/w660h284/20250129/2d4c-adcda44ff98278e20524697ccf21afb3.jpg)
左右滑动查看
还有人表示,如果DeepSeek开源了CUDA替代品,这将意味着什么?
![](http://n.sinaimg.cn/spider20250129/772/w660h112/20250129/cfee-a79fdc26e4c5696f22dd208e2638d857.jpg)
天才极客微调PTX,让GPU性能极致发挥
英伟达PTX(并行线程执行)是专门为其GPU设计的中间指令集架构,位于高级GPU编程语言(如CUDA C/C++或其他语言前端)和低级机器代码(流处理汇编或SASS)之间。
PTX是一种接近底层的指令集架构,将GPU呈现为数据并行计算设备,因此能够实现寄存器分配、线程/线程束级别调整等细粒度优化,这些是CUDA C/C++等语言无法实现的。
当PTX转换为SASS后,就会针对特定代的英伟达GPU进行优化。
![](http://n.sinaimg.cn/spider20250129/283/w660h423/20250129/4f11-7a58c1d417ec3c42745ada21e9b553f8.jpg)
在训练V3模型时,DeepSeek对英伟达H800 GPU进行了重新配置:
为了最大化性能,DeepSeek还通过额外的细粒度线程/线程束级别调整,实现了先进的流水线算法。
这些优化远超常规CUDA开发水平,但维护难度极高。然而,这种级别的优化恰恰充分展现DeepSeek团队的卓越技术实力。
![](http://n.sinaimg.cn/spider20250129/86/w660h226/20250129/9939-3b9e501432d9c379f19b5ce44daa9d88.jpg)
V3论文中具体提到了关于PTX的细节
这是因为,在全球GPU短缺和美国限制的双重压力下,DeepSeek等公司不得不寻求创新解决方案。
所幸的是,他们在这方面取得了重大突破。
有开发者认为,「底层GPU编程才是正确的方向。优化得越多,就越能降低成本,或在不增加额外支出的情况下,提高可用于其他方面进步的性能预算」。
![](http://n.sinaimg.cn/spider20250129/182/w660h322/20250129/6aa3-204e62aaf3a96c358bca520d06ff0f2c.jpg)
这一突破对市场造成了显著冲击,部分投资者认为新模型对高性能硬件的需求将会降低,可能会影响英伟达等公司的销售业绩。
然而,包括英特尔前掌门人Pat Gelsinger等在内的行业资深人士认为,AI应用能够充分利用一切可用的计算能力。
对于DeepSeek的这一突破,Gelsinger将其视为在大众市场中,为各类低成本设备植入AI能力的新途径。
![](http://n.sinaimg.cn/spider20250129/348/w660h488/20250129/52d5-fdd61992a0c94c3e5d40aff5bacd20e1.jpg)
CUDA护城河,也不存在了?
那么,DeepSeek的出现是否意味着前沿LLM的开发,不再需要大规模GPU集群?
谷歌、OpenAI、Meta和xAI在计算资源上的巨额投资是否最终将付诸东流?AI开发者们的普遍共识并非如此。
不过可以确定的是,在数据处理和算法优化方面仍有巨大潜力可以挖掘,未来必将涌现出更多创新的优化方法。
随着DeepSeek的V3模型开源,其技术报告中详细披露了相关细节。
该报告记录了DeepSeek进行的深度底层优化。简而言之,其优化程度可以概括为「他们从底层重新构建了整个系统」。
如上所述,在使用H800 GPU训练V3时,DeepSeek对GPU核心计算单元(流处理器多核,简称SM)进行了定制化改造以满足特定需求。
![](http://n.sinaimg.cn/spider20250129/232/w660h372/20250129/82d3-8df9a64ea398983a57569e9e93d51f02.jpg)
在全部132个SM中,他们专门划分出20个用于处理服务器间通信任务,而非计算任务。
这种定制化工作是在PTX(并行线程执行)层面进行的,这是英伟达GPU的低级指令集。
PTX运行在接近汇编语言的层面,能够实现寄存器分配和线程/线程束级别调整等细粒度优化。然而,这种精细的控制既复杂又难以维护。
这也是为什么开发者通常会选择使用CUDA这类高级编程语言,因为它们能为大多数并行编程任务提供充分的性能优化,无需进行底层优化。
但是,当需要将GPU资源效能发挥到极致并实现特殊优化需求时,开发者就不得不求助于PTX。
虽然但是,技术壁垒依然还在
对此 ,网友Ian Cutress表示:「Deepseek对于PTX的使用,并不会消除CUDA的技术壁垒。」
![](http://n.sinaimg.cn/spider20250129/94/w660h234/20250129/569b-be754bb4362204990af1f638f792fb2e.jpg)
CUDA是一种高级语言。它使代码库的开发和与英伟达GPU的接口变得更简单,同时还支持快速迭代开发。
CUDA可以通过微调底层代码(即PTX)来优化性能,而且基础库都已经完备。目前绝大多数生产级的软件都是基于CUDA构建的。
PTX更类似于可以直接理解的GPU汇编语言。它工作在底层,允许进行微观层面的优化。
如果选择使用PTX编程,就意味着上文提到的那些已经建好的CUDA库,都不能用了。这是一项极其繁琐的任务,需要对硬件和运行问题有深厚的专业知识。
但如果开发者充分了解自己在做什么,确实可以在运行时获得更好的性能和优化效果。
![](http://n.sinaimg.cn/spider20250129/317/w660h457/20250129/cdd1-78ff2ecff5ddd97ef092b827a7d103ee.jpg)
目前,英伟达生态的主流,仍然是使用CUDA。
那些希望从计算负载中提升额外10-20%性能或功耗效率的开发者,比如在云端部署模型并销售token服务的企业,确实都已经将优化从CUDA层面深入到了PTX层面。他们愿意投入时间是因为,从长远来看这种投入是值得的。
需要注意的是,PTX通常是针对特定硬件型号优化的,除非专门编写适配逻辑,否则很难在不同硬件间移植。
除此之外,手动调优计算内核也需要极大的毅力、勇气,还得有保持冷静的特殊能力,因为程序可能每运行5000个周期就会出现一次内存访问错误。
当然,对于确实需要使用PTX的场景,以及那些收到足够报酬来处理这些问题的开发者,我们表示充分的理解和尊重。
至于其他开发者,继续使用CUDA或其他基于CUDA的高级变体(或MLIR)才是明智的选择。
参考资料:
https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseeks-ai-breakthrough-bypasses-industry-standard-cuda-uses-assembly-like-ptx-programming-instead
https://x.com/Jukanlosreve/status/1883304958432624881
https://x.com/IanCutress/status/1884374138787357068
![](http://n.sinaimg.cn/spider20250129/763/w660h903/20250129/30d6-4231b3803ade60e80c20bdf915dce17a.jpg)
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
![](https://tvax3.sinaimg.cn/crop.21.0.1080.1080.50/008HmGKwly8hwp78er480j30v60u0go6.jpg)
![](https://tvax3.sinaimg.cn/crop.21.0.1080.1080.50/008HmGKwly8hwp78er480j30v60u0go6.jpg)
APP专享直播
热门推荐
动画团队谈《哪吒2》合作:受尊重、结款快,他们是行业标杆 收起动画团队谈《哪吒2》合作:受尊重、结款快,他们是行业标杆
- 2025年02月15日
- 05:42
- APP专享
- 扒圈小记
3,663
哪吒2票房超110亿 进入全球影史票房TOP12
- 2025年02月15日
- 05:30
- APP专享
- 扒圈小记
2,235
超157亿元!饺子登顶中国导演票房榜,仅靠《哪吒之魔童降世》《哪吒之魔童闹海》两部作品
- 2025年02月15日
- 02:31
- APP专享
- 北京时间
1,583
![新浪财经公众号 新浪财经公众号](http://n.sinaimg.cn/finance/72219a70/20180103/_thumb_23666.png)
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势起航今天 04:27:02
【2月15日全社会跨区域人员流动量完成20061.8万人次】据交通运输部,2025年2月15日(春运第33天,农历正月十八),全社会跨区域人员流动量20061.8万人次,环比增长0.5%,比2024年同期增长11.6%。 -
趋势领涨今天 04:04:48
【公募主动量化基金业绩攀升 成长配置权重提升贡献超额,收益】开年以来,A股市场活跃度明显改善,利好公募量化基金超额,收益的获取。数据显示,金信量化精选、华商计算机行业量化、浦银安盛港股通量化优选等多只基金年内回报超过10%,博时智选量化多因子、博时ESG量化选股、招商量化精选、申万菱信智能生活量化选股等多只基金净值创成立以来新高。值得注意的是,此前公募主动量化基金超额,收益多来源于小微盘,而近几个季度以来公募主动量化基金逐步提升成长配置权重,而这也成为公募主动量化基金业绩持续攀升的重要因素之一。 -
趋势起航今天 03:56:04
二、杭州六小龙杭州六小龙分别是游戏科学、深度求索、宇树科技、云深处科技、强脑科技和群核科技。它们均为“互联网之都”杭州近年来崛起的处于新技术领域前沿、在业内具有影响力的“科技新贵”。周末吹得非常火爆,主要原因:1、杭州“六小龙”之一群核科技向港交所提交上市申请;2、江苏省通过机关报做了南京为何出不来“杭州六小龙”的反思;3、瑞银的一篇研报刷屏,DeepSeek催化中国资产重估周末,很多人拿美国七姐妹跟中国巨头相比,结论是中国科技还有很大的发展空间。美国七姐妹是苹果、谷歌、亚马逊、微软、Meta、特斯拉、英伟达;中国七大巨头是小米、联想、比亚迪(sz002594)、中芯国际(sh688981)、阿里巴巴、腾讯、美团。瑞银报告说DeepSeek催化中国资产重估;高盛报告说,DeepSeek突破性的低成本人工智能模型已成为全球投资者重新评估中国资产的“催化剂”。不管外资是不是吹,但DeepSeek必将催化中国资产全面重估,科技股继续是市场主线。 -
趋势起航今天 03:55:19
2015年发生股.灾时,中证金融公司和中央汇金作为国家队救市,买了很多股票,后来中证金融公司一部分股票减持,另一部分股票都转给了中央汇金。现在财政部和中证金融公司又将很多股票转移给了中央汇金,中央汇金的大股东是中投公司,中投公司有四张牌照,中央汇金现在又收到了中证金、信达、长城等三张牌照,相当于中央汇金现在手握七张牌照,后期进行证券整合、处理不良资产是手到擒拿,所以,证券整合、资产重组应该要拉开序幕,下周就看市场炒不炒作了!中金公司(sh601995)现在有钱,有股票,基本能够控制整个市场,所以,将他们称之为平准基金,应该不为过!但经过这次整合以后,后期应该不会推出平准基金了,中央汇金大概率就是所谓的平准基金。 -
趋势起航今天 03:55:11
一、平准基金周末影响最大,也是大家最期待的就是平准基金,主要是上面又出现了大动作。1、东兴证券(sh601198)、信达证券(sh601059)、统一股份(sh600506)、银宝山新(sz002786)实际控制人将变更为中央汇金投资有限责任公司。重点是这四家公司以前的大股东都是财政部,现在变成了中央汇金。2、长城资产:公司股东拟将所持公司73.53%股权划转至中央汇金;3、中国信达:财政部拟无偿划转221.37亿股内资股至中央汇金;4、中证金融公司:公司股东拟将所持公司66.7%股权划转至中央汇金。中国的四大国有金融资产管理公司,分别是中国信达、长城资产、东方资产和中国华融,全部成立于1999年。当初成立的目的主要是处理四大行乱账和不良资产。这四家公司大股东开始都是财政部,后来中国华融因为自身问题,大股东改成了中信集团。中证金融公司成立于2011年10月,主要业务是为融资融券业务提供资金和证券的转融通,为开展转融通业务筹集资金和证券。大股东是沪深交易所、四大期货交易所和中证登公司,也就是证监会的亲儿子,这里,你们就应该懂了,为什么当初转融通做空不能停了吗? -
趋势起航今天 03:55:05
两大事件 股民沸腾 平准基金要来了吗这个周末消息面不平静,主要是央行公布了经济数据、杭州六小龙有一个要上市和平准基金要问世,这三件大事,不管拿出哪一件都会让股民沸腾,但影响最大的还是六小龙和平准基金,周末都吹爆了!所以,我们现在再来聊一聊这两大事件。 -
趋势领涨今天 02:18:16
【公募主动量化基金业绩攀升 成长配置权重提升贡献超额收益】开年以来,A股市场活跃度明显改善,利好公募量化基金超额收益的获取。数据显示,金信量化精选、华商计算机行业量化、浦银安盛港股通量化优选等多只基金年内回报超过10%,博时智选量化多因子、博时ESG量化选股、招商量化精选、申万菱信智能生活量化选股等多只基金净值创成立以来新高。值得注意的是,此前公募主动量化基金超额收益多来源于小微盘,而近几个季度以来公募主动量化基金逐步提升成长配置权重,而这也成为公募主动量化基金业绩持续攀升的重要因素之一。 -
趋势领涨今天 00:54:51
【“惠“聚元宵】乐享头彩!即日起《潜伏擒牛》VIP课程全场六折,半年VIP课程低至881元/月;更有月课1088元/月,季课6折3088元/三个月。活动过后价格会提升,切勿错过!加入至尊擒牛VIP:享四大顶级服务 【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每日一份高端内部绝密文章:包含明日布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!赶紧戳,直接购买:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
趋势领涨今天 00:53:46
二、杭州六小龙杭州六小龙分别是游戏科学、深度求索、宇树科技、云深处科技、强脑科技和群核科技。它们均为“互联网之都”杭州近年来崛起的处于新技术领域前沿、在业内具有影响力的“科技新贵”。周末吹得非常火爆,主要原因:1、杭州“六小龙”之一群核科技向港交所提交上市申请;2、江苏省通过机关报做了南京为何出不来“杭州六小龙”的反思;3、瑞银的一篇研报刷屏,DeepSeek催化中国资产重估周末,很多人拿美国七姐妹跟中国巨头相比,结论是中国科技还有很大的发展空间。美国七姐妹是苹果、谷歌、亚马逊、微软、Meta、特斯拉、英伟达;中国七大巨头是小米、联想、比亚迪(sz002594)、中芯国际(sh688981)、阿里巴巴、腾讯、美团。瑞银报告说DeepSeek催化中国资产重估;高盛报告说,DeepSeek突破性的低成本人工智能模型已成为全球投资者重新评估中国资产的“催化剂”。不管外资是不是吹,但DeepSeek必将催化中国资产全面重估,科技股继续是市场主线。 -
趋势领涨今天 00:53:41
这个周末消息面不平静,主要是央行公布了经济数据、杭州六小龙有一个要上市和平准基金要问世,这三件大事,不管拿出哪一件都会让股民沸腾,但影响最大的还是六小龙和平准基金,周末都吹爆了!所以,我们现在再来聊一聊这两大事件。一、平准基金周末影响最大,也是大家最期待的就是平准基金,主要是上面又出现了大动作。1、东兴证券(sh601198)、信达证券(sh601059)、统一股份(sh600506)、银宝山新(sz002786)实际控制人将变更为中央汇金投资有限责任公司。重点是这四家公司以前的大股东都是财政部,现在变成了中央汇金。2、长城资产:公司股东拟将所持公司73.53%股权划转至中央汇金;3、中国信达:财政部拟无偿划转221.37亿股内资股至中央汇金;4、中证金融公司:公司股东拟将所持公司66.7%股权划转至中央汇金。中国的四大国有金融资产管理公司,分别是中国信达、长城资产、东方资产和中国华融,全部成立于1999年。当初成立的目的主要是处理四大行乱账和不良资产。这四家公司大股东开始都是财政部,后来中国华融因为自身问题,大股东改成了中信集团。中证金融公司成立于2011年10月,主要业务是为融资融券业务提供资金和证券的转融通,为开展转融通业务筹集资金和证券。大股东是沪深交易所、四大期货交易所和中证登公司,也就是证监会的亲儿子,这里,你们就应该懂了,为什么当初转融通做空不能停了吗?2015年发生股.灾时,中证金融公司和中央汇金作为国家队救市,买了很多股票,后来中证金融公司一部分股票减持,另一部分股票都转给了中央汇金。现在财政部和中证金融公司又将很多股票转移给了中央汇金,中央汇金的大股东是中投公司,中投公司有四张牌照,中央汇金现在又收到了中证金、信达、长城等三张牌照,相当于中央汇金现在手握七张牌照,后期进行证券整合、处理不良资产是手到擒拿,所以,证券整合、资产重组应该要拉开序幕,下周就看市场炒不炒作了!中金公司(sh601995)现在有钱,有股票,基本能够控制整个市场,所以,将他们称之为平准基金,应该不为过!但经过这次整合以后,后期应该不会推出平准基金了,中央汇金大概率就是所谓的平准基金。