AI时代,存储为何如此重要?

AI时代,存储为何如此重要?
2024年11月15日 10:40 中关村在线

作为当今时代最具变革性的技术之一,AI正在以前所未有的速度改变我们的生活,各行各业都在加大算力基础设施的投资,以支持最新的AI应用开发,并最终转化为自身的商业价值。

虽然算力在AI时代的重要性毋庸置疑,但数据存储作为AI的基础,也在AI的全生命周期内发挥着重要作用,特别是随着生成式AI的爆火,包括图像、视频、音频在内的非结构化数据也会呈现出指数级增长的趋势,对存储的需求自然也会随之上涨。根据IDC的调研结果,预计到2028年,全球将产出394ZB的数据,其中AIGC领域的数据产出尤为突出,届时,AI图像和视频生成将增长167倍。

在数据量不断增长的大背景下,人工智能数据周期中对存储的需求都会有所差别,例如在原始数据存档环节,对大容量存储的需求会更加明显,从目前乃至未来的存储趋势来看,大容量企业级HDD硬盘仍然会是海量数据存储的首选,以满足TCO成本和规模化扩展等方面的需求。

以希捷在今年年初推出的Mozaic3+(魔彩盒3+)平台为例,该平台使用与PMR硬盘基本相同的材料组件,大幅增加容量,使数据中心能够显著降低存储采购和运营成本。目前,基于该平台的硬盘单碟容量已经达到了3TB以上,未来几年内单碟将达到4TB+和5TB+,整体容量也会来到50TB。

纵观机械硬盘的发展史,在单盘容量达到20TB之后,扩容就变得更难,由于机械硬盘的本质都是基于磁记录技术,单纯依赖翻新磁头或者磁碟的方式并非长久之计,从技术角度上看,未来如果想达到更大的容量,就需要比较多的能量辅助和相应的技术创新,这也是Mozaic3+推出的初衷。

事实上,大容量的机械硬盘的确更受市场欢迎,从希捷此前发布的2024年第四季度财报中不难看出,超大容量硬盘的出货量已经达到了希捷整体硬盘出货量的90%以上,平均容量也达到了9.3TB。

众所周知,完整的AI训练包括数据收集、数据预处理、数据标注、数据分割、模型设计、模型搭建、模型训练、模型评估、模型调优,最终部署等环节,虽然CPU/GPU是整个系统的算力核心,但在模型训练阶段,SSD则用于提供样本数据,保存中间中间结果、日志、临时文件等,数据量的增长带来的直观影响就是对数据的高效提取和处理,因此,成本更低,容量更大,性能也显著强于HDD的QLC SSD也备受市场青睐。

值得一提的是,当前通用服务器采用的HDD产品主流容量在20~24TB,而QLC企业级SSD除了较HDD省电外,在同等存储空间下QLC所需空间更少,因此能够大幅降低TCO成本。 AI训练已然成为重度电力消耗应用,因此节能将成为存储产品的优先考量,故大容量QLC企业级SSD产品更是大宗AI客户寻求的解决方案。

就在近日,Solidigm还推出了122TB的Solidigm D5-P5336数据中心SSD。与业已上市的61.44TB版本相比,全新D5-P5336提供两倍存储空间,率先为客户提供五年无限随机写入耐用性,是AI和数据密集型工作负载理想的存储解决方案。

不难看出,在数据生成量不断增长的趋势下,数据存储技术对于人工智能数据周期(AI Data Cycle)中不同阶段基础设施和工作负载的容量、性能、能耗效益以及成本效益都至关重要。AI系统在处理和分析现有数据的同时也会产生新数据,其中很多数据会因其功能性或娱乐性被保存。新型AI用例和更先进的模型令现有数据资源库和额外数据源对模型上下文和训练的价值更甚。数据的不断生成促成了更多的数据存储,而更多的数据存储又进一步推动数据生成,一个良性循环的人工智能数据周期就此诞生,也让HDD和SSD有了更多的发挥空间。

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片