新工具可搜索全球10%已知基因序列

新工具可搜索全球10%已知基因序列
2024年06月18日 06:00 中国科学报

本报讯 一种功能类似于谷歌引擎的工具已经证明了它的前景——可以廉价且很容易地搜索全球所有的生物序列数据。开发该工具的瑞士团队表示,在一项原理验证研究中,他们成功索引了世界上已知10%的DNA、RNA和蛋白质序列,并且采用同样的方法也可以完成剩余的部分。

日前,该进展在预印本平台bioRxiv上公布。这款名为MetaGraph的计算工具,可以将公开的序列数据组织并压缩为可搜索的格式,就像互联网搜索引擎对网页及其内容所做的那样。由此产生的索引可供下载,也可通过一个门户网站获得,即用户可以扫描包含数万亿个碱基对和数十亿个氨基酸的序列。

没有参与该工作的美国马里兰大学计算生物学家Rob Patro说,这项研究“是一项巨大成就,是完成对所有公开的测序数据进行索引这一重大挑战的一个里程碑”。从鉴定新病毒到揭示与疾病相关的RNA序列,这样的资源可以助力无数领域的研究。虽然MetaGraph并不是唯一一个旨在实现这一目标的项目,但该团队已经创建了迄今最大的索引,并且使用成本相对较低。

Patro指出,目前,DNA、RNA和蛋白质序列数据的存储库呈指数级增长。序列读取档案(SRA)是一个由美国国立卫生研究院国家生物技术信息中心(NCBI)及其合作者运营的基因数据库,包含了来自人类和其他动物、植物和细菌等生物体的超过5万万亿个碱基对(50拍碱基)。

目前的生物信息学工具无法同时扫描这么多数据,尤其是那些尚未组装成基因组的序列,研究人员必须先缩小序列集合的范围,然后才能搜索。一些研究小组希望通过将较大数据库中的序列压缩成更有组织的数据结构或索引来解决这个问题,以便在可下载文件或在线门户网站中轻松搜索。

2020年,瑞士苏黎世联邦理工学院生物信息学家André Kahles和计算机科学家Gunnar Ratsch及其同事展示了MetaGraph的早期版本。该团队使用名为德布鲁因图的数学结构表示了序列之间的重叠,从SRA中索引了100多万条记录,总计约3拍碱基。

现在,该团队利用MetaGraph的改进版本索引了SRA和其他数据库的5拍碱基,包括来自微生物、真菌、植物、人类和人类肠道微生物组的序列。新发布的工具可以将几十兆兆碱基的数据压缩到大约10千兆字节——小到足以在一台个人电脑上运行。构建初始索引是很困难且昂贵的,建立整个SRA需要花费数十万美元,但现在用户可以更廉价地查询数据集。

英国诺丁汉特伦特大学生物信息学家和微生物学家Lesley Hoyles说,这项工作“非常令人兴奋”。随着数据存储库的规模不断扩大,“任何可以减少计算存储和能源成本的东西……对全世界的研究人员来说都是一个巨大优势”。Hoyles说,这种方法可以减少低收入和中等收入国家的科学家进行基因组研究的障碍。“在便宜的笔记本电脑上就可以轻松完成工作。”

无独有偶,其他研究小组也取得了进展。去年,法国巴斯德研究所从欧洲研究委员会获得了200万欧元,启动了IndexThePlanet项目,对SRA中的所有数据进行编目。NCBI的研究人员正在开发索引工具Pebblescout。“目前这是一个非常活跃的领域。”英国巴斯大学计算生物学家Zamin Iqbal说。他曾参与“所有细菌”项目,后者旨在收集细菌序列数据,使其更易搜索。

Patro认为,由于受索引规模的限制,MetaGraph在一些特别大的任务上可能比其他工具慢,比如同时从一个样本中查找数百万个序列。他补充说,目前还不清楚如何最好地用新的序列数据更新索引。还有一个挑战是为项目提供资金,并承担随之而来的所有计算成本。事实上,该工具最终能否被广泛采用,将部分取决于“如何解决社会和行政方面的问题,即如何使用如此大量的资源”。

Kahles和Ratsch对此表示赞同,他们希望这项工作能激励其他研究团体,以及NCBI等更大组织的参与,并帮助索引剩余90%的序列数据,供研究人员使用。(李木子)

相关论文信息:

https://doi.org/10.1101/2020.10.01.322164

RNA
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片