“超大容量光盘”在上海横空出世,海量数据存储难题迎刃而解?

“超大容量光盘”在上海横空出世,海量数据存储难题迎刃而解?
2024年02月23日 16:51 21世纪经济报道

21世纪经济报道记者张梓桐 上海报道

国内数据存储领域取得重大突破性进展。

近日,中国科学院上海光学精密机械研究所(以下简称“上海光机所”)与上海理工大学等科研单位合作,在国际上首次完成双光束超分辨三维光存储的原理和实验验证。相关研究结果也在《nature》上进行了发布。

从产业视角来看,该研究究竟解决了哪些应用侧的问题?

论文通讯作者之一、上海光机所空天激光技术与系统部阮昊在接受媒体采访时表示,他们解决的就是当前人工智能火热下的海量数据存储难题。从具体指标来看,这一技术实现了点尺寸为54nm、道间距为70nm的超分辨数据存储,完成了100层的多层记录,单盘等效容量达Pb量级。“1Pb相当于1000Tb,也就是说,这种超分辨光盘的存储容量可达到普通蓝光光盘的1万倍,甚至超过‘竞争对手’硬盘的100倍。”阮昊表示。

事实上,低成本解决海量存储问题恰好是人工智能时代行业所面临的难题。

毕马威中国数字化赋能主管合伙人张庆杰在接受21世纪经济报道记者采访时表示,在计算资源方面,大模型的训练需要大量的计算资源,包括CPU、GPU、TPU等。虽然中国算力具备一定的基础,但在计算资源方面还存在一定的短板,各行各业在底层计算资源上存在缺乏,这会限制大模型的训练和优化。

除此之外,大模型的训练需要大量的高质量数据,但是目前在数据质量方面还存在一定的问题,包括数据噪声、数据缺失、数据不平衡等问题。这会影响大模型的训练效果和准确性。

数据存储难题

当前,中国已经成为数据量最大、数据类型最丰富的国家之一。

国家数据局日前发布的信息显示,我国数据产量已占全球数据总量的10.5%。更有研究机构预测,到2025年,中国数据总量或占全球近30%。

2021年5月,国家发改委等四部门联合发布了《全国一体化大数据中心协同创新体系算力枢纽实施方案》,首次提出全国算力网络枢纽节点布局;2022年2月,国家发改委等三部门同意了京津冀、长三角、粤港澳大湾区等8地启动国家算力枢纽节点建设,并规划了10个国家数据中心集群,标志着“东数西算”工程正式启动。

上海日前刚刚印发了 《上海市推进算力资源统一调度指导意见》,其中提出,到2023年底,依托本市人工智能公共算力服务平台,接入并调度4个以上算力基础设施,可调度智能算力达到1,000 PFLOPS(FP16)以上。

到2025年,市人工智能公共算力服务平台能级跃升,完善算力交易机制,实现跨地域算力智能调度,通过高效算力调度,推动算力供需均衡,带动产业发展作用显著增强。本市数据中心算力超过18,000 PFLOPS(FP32);新建数据中心绿色算力占比超过10%(不含市电结构中的绿电);集聚区新建大型数据中心综合PUE降至1.25以内,绿色低碳等级达到4A级以上。

这是国际上首次实现Pb量级的超大容量光存储,得到了《自然》(Nature)杂志审稿人的高度评价,“这是一种具有突破性创新的Pb级光存储技术”“与现有其他技术相比,该技术在性能方面提供了最高的光存储面密度”“研究成果可能会带来数据中心档案数据存储的突破,解决大容量和节能的存储技术难题”。

尤其值得一提的是,他们的成果主要存储的就是使用频率较少的冷数据。“在所有数据中,80%以上都是冷数据,这些数据使用频率很少,但是需要永久保存,比如大科学装置做出来的实验数据。这类实验做一次非常不容易,这些访问速率没那么快但是又很重要的数据都要安全性地保存,我们的成果主要用在这类数据上面,因此特别适合数据中心的使用。”阮昊在接受第一财经采访时表示,像处理热数据的固态硬盘、手机存储卡、存储条都很贵,处理百分之十几的温数据可以用磁存储、磁硬盘,另外80%冷数据就可以用光盘。

数据中心应用

在具体应用场景方面,超分辨光盘最大的主要应用领域在于数据中心。“随着数据量的爆炸式增长,数据中心对存储容量的需求日益增大。与此同时,数据中心的能耗问题也成为了一个巨大的挑战,超分辨光盘的高容量和低能耗特性将成为数据中心存储的理想选择。”阮昊说。

在2021年Science发布的全世界最前沿的125个科学问题中,突破衍射极限限制在物理领域高居首位。该超分辨光盘的成功研制在信息写入和读出都突破了这一物理学难题,有助于我国在存储领域突破关键核心技术,将在大数据数字经济中发挥重大作用,以满足信息产业领域的重大需求。

不过,作为一项基础的科学突破,超分辨光盘距离产业化应用尚有距离。据其表示,未来,研究团队将致力于加快原始创新和关键技术攻关,推动超大容量光存储的集成化和产业化进程,并拓展其在光显微成像、光显示、光信息处理等领域的交叉应用,产出更多更优秀的创新成果。

在产业促进之外,有业内人士也对记者表示,该研究从数据安全方面也有着一定的积极作用。“海量数据是人工智能发展的基石,在采集、使用和分析这些数据的过程中,存在数据泄露、篡改和真实性难验证等安全隐患。随着AIGC技术的发展,数据安全问题的解决则更加趋难。”

该人士表示,用户在与大模型交互的过程中输入的提示词可能被用于迭代训练,并通过交互被提供给其他使用者。随着AIGC向多模态发展,其文件格式更加丰富,未来数据泄露问题将难以通过传统的数据防泄漏(Data leakage prevention)方法解决。而超大光存储将在数据治理方面提供一定助益。

(作者:张梓桐 )

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片