AI如何重塑存储业态？_新浪财经

　　作者：郑栩彤

　　存储“卡住”GPU（图形处理单元）的脖子，这并不夸张。

　　过去一年间，大模型带来的算力需求爆发，使英伟达GPU愈加依赖HBM（高带宽存储器）的高带宽。这颗由多个DRAM（动态随机存储器）堆叠而成的芯片，旨在解决传统冯·诺依曼架构中处理器与内存之间的数据传输问题，在大算力场景几乎无可替代。

　　这也意味着，AI需求也在带动存储芯片行情回暖。经历疫情扰动下长达两年的下行周期，DRAM被HBM率先带动复苏，DRAM“三巨头”SK海力士、三星、美光进入新一轮HBM竞赛。

　　第一财经记者了解到，AI对存储芯片市场的影响不止于此。DRAM解决的主要是计算时数据传输的问题，巨量数据保存则需依靠NAND Flash（一种非易失性存储介质）制成的SSD（固态硬盘）、嵌入式存储等。两种存储介质共同占据90%以上存储芯片市场，NAND Flash近期也闻风而动。

　　“数据集巨量增长，呈指数级态势，GPT-4上万亿参数，大模型使用的很多还是爬虫数据库，这种语料库三四个星期更新一次。”近日闪存市场峰会上，SSD厂商Solidigm亚太区销售副总裁倪锦峰提及数据存储对AI的重要性时表示。一些原厂前期锁住产能的情况下，大为创芯销售总监徐志文向第一财经记者表示，他对AI伺服器和AI相关的内存条、企业级SSD需求较为看好，现在整个市场有些产品已经供不应求。

　　记者从多名存储业内人士处了解到，NAND Flash适配AI需求的方式，包括增大容量和降低功耗。业内普遍认为AI还会继续提拉DRAM和NAND Flash的需求，但AI还在走向普惠的过程，业内对AI的提拉速度和力度有不同看法。

　　此外，针对AI大模型训练推理的需求，云厂商近期也在云存储产品层面着力。

　　AI催化？

　　在最新发布的Blackwell芯片上，英伟达便采用HBM方案，其HBM3e芯片由SK海力士提供。HBM是多颗DRAM 3D堆叠并与GPU一起封装的存储芯片，主要用于缓解处理器和主存间的通信瓶颈，应对大算力场景下的“内存墙”问题。虽然业内早已有厂商探索HBM，但直到AI需求爆发，HBM才成为备受瞩目的技术。

　　近期美光透露，今年其HBM产能销售一空，明年绝大多数产能已被预订，SK海力士也透露，2024年其HBM生产配额已经售罄。

　　据市场调查机构Yole数据，HBM今年以来平均售价是普通DRAM的5倍。此前有GPU业内人士向媒体介绍HBM成本“差不多1GB要20美元”。若以1GB HBM 20美元计算，参考美国金融机构Raymond James去年预估的英伟达H100成本3320美元，H100的80GB HBM大约需要1600美元，占该AI芯片成本近半。

　　AI对HBM的需求，正在改变存储芯片产业结构。据市场调研机构集邦咨询统计，去年HBM占DRAM产业营收的8.4%，今年将达20.1%。

　　为抢占这一增量市场，三大DRAM厂商SK海力士、三星、美光开启了技术竞赛。据集邦咨询分析，三家目前仅SK海力士有HBM3e产品量产，预计三星HBM3e今年第二季度正式出货，三星正逐步挤进英伟达供应链，预计今年SK海力士和三星的HBM市占率均为47%~49%，美光则是3%~5%。价格方面，AI需求带动下，今年第一季度DRAM合约价季增约20%。

　　“HBM占据极大利润空间，也是原厂必争之地，据各原厂规划，今年将正式进入HBM3e量产。” 深圳市闪存市场资讯有限公司总经理邰炜表示，AI服务器中搭载高容量HBM，对DDR5容量需求也达普通服务器的2~4倍。今年DRAM预计达2370亿GB单量，同比增长15%，未来5年AI服务器预计驱动DRAM需求大增。

　　近日第一财经记者与多名存储芯片行业人士交流了解到，即便不是HBM，业界预判其他DRAM产品也有望受益于AI对其容量要求提升。徐志文向记者表示，PC内置生成式AI要求运算速度快，使AI PC对内存和固态硬盘的容量要求提升，后续AI PC内存条容量将在6GB甚至32GB以上，高容量颗粒后续将成为主流。邰炜则预计，生成式AI带动下今年手机平均容量将超200G，DRAM则超7G，16G DRAM将是AI手机最低标配。

　　此外，多名业界人士认为AI也将影响NAND Flash需求，原因是AI训练和推理需要大量数据，这些数据需存在NAND Flash制成的SSD或嵌入式存储里。相比DRAM与AI算力相关，NAND Flash更与AI所需数据的存力相关。

　　“AI相关服务器中，NAND和DRAM共同被使用，因GPU高速运算对应的数据高速传输主要是DRAM在支撑，DRAM更瞩目。但从整体市场看，AI对IT行业形成推动，相关的不同应用需求会进一步增加，也会带动NAND需求。” NAND Flash厂商铠侠相关负责人告诉记者，企业级市场及数据中心服务器需求预计2024年下半年市场有回暖迹象。从终端销售量看，数码产品或数字电子消费品没有特别大的成长，但单机搭载存储容量有明显增长，对铠侠这样的NAND厂商而言是成长机会。

　　邰炜也预计，今年NAND Flash总产量将超8000亿GB单量，同比提升20%。

　　复苏将至？

　　虽然AI今年有望助力DRAM和NAND Flash总产量提升，但经历了前一轮疫情扰动下的半导体下行周期，如今存储芯片价格从谷底回升的力度是否强劲，业内看法不一，一些从业者认为AI催化下存储芯片行情复苏将是渐进的。

　　集邦咨询近日表示，虽然DRAM供应商库存已降低，但尚未回到健康水位，DRAM第二季度合约价涨幅将收敛至3%~8%。前期减产控价背景下，第一季度NAND Flash原厂除铠侠和西部数据，其他供应商大致维持低投产策略，NAND Flash合约价季增涨幅将从第一季度的23%~28%收敛至第二季度的13%~18%。

　　“生成式AI需求一定会增长，但现今问题是不仅生成式AI在预训练的AI模型运算算力成本很高，落地应用的AI模型运算成本也不低，很多公司、组织机构、教学单位想要导入生成式AI助理，但苦于无合适的解决方案。除非有足够平民化的GenAI运算方案出现才会快速提拉需求。”群联电子执行长潘健告诉记者。

　　综合NAND整体市场需求，潘健认为NAND Flash价格若一直上涨将会出现泡沫，预计价格不会持续涨到明年。

　　对于存储芯片行情回升的动能，一名做DRAM和NAND Flash产品的厂商技术负责人则向第一财经记者表示，如果没有如今AI带来的新应用和内存容量增高趋势，今年存储行情估计起不来。

　　也有SSD厂商负责人告诉记者，AI服务器的建设对GPU投入非常大，但SSD相较整个服务器整体价值而言并不高，他认为AI为SSD带来的机遇相对还不够清晰。

　　存储如何适应AI？

　　算力和存力紧密相关，特别是在数据、算力、算法驱动的大模型训练过程中。这一轮AI算力需求提升也在改变存储产品形态：除了DRAM厂商开启HBM竞赛外，NAND Flash或SSD厂商也开始在容量和功耗上适应AI训练和推理的需求。

　　“现在GPU很贵，要怎么通过数据存储层面（做优化）来提高GPU利用率，变得越来越重要。有时候花了钱也得不到更好的GPU，所以不希望因数据等待存储响应，导致GPU出现问题。”倪锦峰表示，服务器中的存储占到功耗的35%左右，需要采用高密度存储或其他方案降低存储功耗。据他介绍，近段时间，北美客户在关注32TB、64TB乃至128TB SSD需求时，已表现出了功耗等方面的担忧。

　　“我们要不断扩展存储吞吐量和容量，以跟上不断增加的数据数量，此外，需要有效扩展容量和吞吐量，最大限度去提升GPU的利用率，减少计算成本开支。SSD可以帮助AI集群在训练中保持GPU高速运转。” 倪锦峰表示。

　　铠侠相关负责人告诉记者，AI应用最大功耗还是来自GPU、CPU和HBM三大件，它们也是产生热量的地方，作为SSD，长期而言铠侠在推进大容量的同时也会发力低功耗、省电。针对各应用中AI的功能，比如AI加速、推理对NAND的具体应用，铠侠也已投入研发，此前曾推出针对图像分类系统的AI加速技术。

　　“做存储第一要务是数据安全。此外，AI对能源的消耗太厉害了，存储产品满足性能需求前提下，功耗能省一点是一点，不仅是省电，也是省散热的预算。少一点热量，GPU就能多一些功率去做计算，更快计算出结果。同时，还要把密度做上去，密度越高产品就可以越小，用户就越有空间去部署GPU，我们还会配合客户做性能优化，比如数据直接从SSD到达GPU，而不经过CPU内存。” 关于AI时代要如何做好存储，企业级SSD厂商忆恒创源CEO张泰乐告诉记者。

　　SK海力士执行副总裁、NAND-Solution开发部负责人安炫则表示，SK海力士在发力的CXL接口技术将会回应海量的AI数据需求等，相关方案能通过计算型存储减少数据往来于GPU间的移动，其计算型内存解决方案CXL2.0在特定工作负载环境下能节省20%工作能耗。

　　记者了解到，作为非易失性存储，NAND Flash制成的SSD等存储产品，还承担了及时保存大模型运算内容的任务，这要求SSD存入大量数据的速度足够快。

　　硬件之外，软件层面的存储基础架构也在适应AI时代的要求。不少大模型训练和数据存储在云服务器上进行，云存储厂商的对象存储、文件存储等技术正在针对AI训练进行调整，同样解决大模型训练效率和宕机保存问题。

　　记者从腾讯云获悉，数据存储约占大模型训练整体工程量的20%~30%。在大模型数据清洗阶段，模型数据量可达PB乃至EB级，对存储提出多协议支持、高性能、大带宽需求。大模型训练阶段则涉及训练成果保存，需要降低存储耗时。

　　“模型训练阶段短则数周，长则数月，任何一个GPU阶段掉线都会导致训练前功尽弃，需要容错措施，即每2~4小时暂停GPU训练、保存每个GPU Checkpoint（检查点）。” 腾讯云存储总经理马文霜告诉记者，Checkpoint时间要非常短，否则GPU训练效率会被拉低，存储因此需要有高写入带宽。为此，腾讯云将并行文件存储CFS Turbo读写速度从100GB提升至1TB，减少Checkpoint写入耗时，并在数据清洗阶段通过升级数据加速器GooseFS减少单次清洗任务耗时。

　　腾讯云存储总经理陈峥告诉记者，从文生文、文生图到文生视频，数据爆发式增长，这个过程对存储解决方案的要求越来越高，云存储团队对各业务场景已在预研未来2~3年的存储底座。马文霜认为，AI应用爆发式增长，但还没到繁荣的阶段，当下存储需要解决高性能、高性价比、高速的问题，后续应用于数据审核、数据治理的智能存储也将是一个重要方向。

　　（实习生郝梓竹对此文亦有贡献）