许四虎:医学基因组学解读的数据化力量

许四虎:医学基因组学解读的数据化力量
2020年11月16日 22:24 新浪财经综合

安装新浪财经客户端第一时间接收最全面的市场资讯→【下载地址

  11月11日至15日,第二十二届中国国际高新技术成果交易会将在深圳举行。本届高交会以“科技改变生活、创新驱动发展”为主题,总展览面积超过14万平方米,有3000多家海内外展商、近万个项目参展,各项活动将超过140场。深圳华大基因股份有限公司副总裁许四虎出席并演讲。

  以下为演讲实录:

  许四虎:各位领导、各位专家、各位来宾。我要演讲的题目是医学基因组学解读的数据化力量。

  因为华大基因虽然说基因检测,但是最后都要变成数据来说话。所以我们在数据应用这块领域是我们的强项。

  先说一下背景和意义。基因组学是生命科学和生物医学的底层技术,它也是生命信息的载体和基础。我们从这张图上可以看出来,在基因技术的解读方面,因为这种铜梁的增加和成本的降低,快速形成了海量的数据,我们现在华大基因数据量太大了,一年光存储数据的支出起码要几千万左右,我也很头痛,我这么大的数据存储有没有一个便宜简单的存储,使成本能够降下来,因为这占到中国很大的成本。所以对整个数据知识的获取、高效的解读,更重要是安全的存储对我们来说是个很大的挑战。

  一个人在生命过程中会产生很多的数据,基因组学数据差不多达到10个BT,一个人的数据差不多我们说应该是在10个BT20个BT以上的数据。中国有十几亿人口的数据要存起来是非常大的数据量。在全球生物数据量已经达到EB级别,我们首先在承担计算存储和解读的任务,所以这个存储量对我们来说是非常大的事情。

  基因组业务快速增长主要表现在三个方面,一个是生育健康,肿瘤防控和传感染。在这次疫情上我们发挥了很巨大的作用,造成了非常大的社会影响。这里面是我们现有这种数据检测量所能达到的数据量的级别,常规监测10万人产生500TB,这还是比较单一一点,如果检测量更深数据量会更大。

  基因数据有个什么特点,我们说一个是体量大,每个检测的东西,就说一个细胞核检测的数据量就很大。第二个分析起来比较复杂,第三个汇总比较难,数据整个汇聚特别难,因为每个都有差异每个都有变化。这方面需要我们建立一个很大的科学、很好的计算科学,特别很好的一个平台来处理这些很大的数据。所以我们说作为基础科学来讲,生物医学、基因组学开展这种研究是一个很重要的领域。第二个就是对数据的归纳也是我们说对生命认识的一个过程,新的数据会对生命带来不同的认识。第三在实践应用中通过基因检测的分析可以在出生缺陷、肿瘤防控还有感染源疾病的防控起到重要的作用。

  基因数据也可以作为一个新基建来考量,因为今天我们这个主题有新基建这个主题,我想也可以往这边靠一下。基本含义在哪?你看我们的数据,我们数据处理以后需要建立一个很大的基因组学大数据的研究中心,这个中心里面我们还有一个数据中台,中台需要搭建一个很大的架构,这个架构里面包括数据的基础中心,还有数据的处理中心、还有数据的管理中心、还有数据的引用中心。四个中心的任务是不一样的。基础中心主要包括数据源的配置、监控、字段的管理还有源数据的管理。洗数据包括数据规则的配置、数据的批处理。把数据要管起来,我们还要数据管理中心、全线设置,还有基本文件的归档。用数据就是项目管理、任务管理等等。围绕这些东西我们还要保障数据安全,这对我们是很重要的任务。数据安全我们要设置可能物理安全,还有包括应用安全、网络安全、系统安全等等。网络安全还有一个保护,数据不能泄露,所以要把它保护起来。所以在数据的透明、全线的使用,可信度的验证都需要我们在这方面做。当然还有保障制度、规范制度,这里面涉及到很多的跟IT、跟5G等等有关的这样一些内容。

  这是我们的案例,我们有个数据叫PETA数据库,这里面主要是肿瘤的数据库,我们说依靠对肿瘤的进行诊断和分析的数据库。这里面这个数据库说要建立大数据的标准,还有对外服务的窗口,我们还需要建立一个大数据的肿瘤生态。这也是一个很重要的领域。

  这个数据我们说它有很多东西,内容,包括有临床病例,还有我们说公开研究的内容,还有组学数据,甚至还有随访数据,还有基因数据等等。这些数据需要进行标准化的处理。

  为了保障这个安全,保证我们这个数据能够外面进也进不来,拿不走,所以我们要对它进行安全保障的控制。

  这些数据在自己安全以后还有供社会性使用它,这是我们有效要处理的,怎么保证公开研究能够到可以使用的数据,还有隐私数据的处理,通用模版的设立等等,都是我们在这块要数据解决中要考虑的内容。

  第二个就是我们的潮阳平台数据库,这是我们很重要的数据库,这个数据库是对基因全外显子的数据。这里面我们有很多内容,可以说在处理的这种规格上、模式上跟前面有相似的地方,也有它的特点。我就不再跟大家讲了,因为各位可能不是这个领域的,讲了不一定清楚,但是确实有这些东西在里面。

  还有一个叫凤凰数据库。这个数据库我可以说得再细一点,我们要建立基因和疾病的关系,这个数据库我们就收集了有4000多种疾病,涉及了有4000多个基因来进行互相的匹配。还有像这种治病的变异库也有,还有CNV人频库收集到48万,还有SNV人频库收集到14万,还有真实患者的样品库。这些东西都是华大在进行研究的重要的东西。

  未来我们的发展目标在哪里?这是我们在新冠过程中我们所研制的试剂盒它的阳性率、准确性、敏感性,在全球的试剂盒是表现比较好的,所以虽然质疑我们的试剂盒,但是跟他们解释以后他觉得我们是可信的。我们背后有一个很好的数据计算系统,算法能够使得我们对3万多个新冠病毒那样一个处理过程中找出最有利的几十个核苷酸的序列来检测。因为这个病毒变异性很大,我们保证它稳定的系统,体现这个病毒的特征,为诊断提出更好的依据,特别在时间紧、任务重达到这个目标,这对企业的要求是非常高的。但是在华大基因在这样一个新冠流行过程中确实表现了公司的力量,为国家争了光。这次全国的表彰,有两个受到国家的表扬,集体收到广东省的表扬,这是很难得的,在一个企业里面。

  未来我们数据怎么去处理它,首先对数据中台,在4个方面,汇数据、洗数据、管数据和用数据处理它,涉及到一系列的流程,主要目的我们业务要数据化、数据要资产化,数据要服务化,这是我们的目标。要构建成基因领域数据分析和科研平台,并且我们在“生育健康”等等这几个方面数据的更优化的处理。详细就不说了。

  这是我们整个几个数据库,因为现在华大基因所承担的业务包括几个方面,生育健康、肿瘤、病原微生物,每个方面都有一个总体目标,比如在生育健康方面,我们想利用数据库,能够做到更好的诊断和处理,我们分析的片段会越来越短,精度越来越高。第二个对肿瘤,我们就想能够打造肿瘤数据库以后,在临床检测和数据的可视化的快速关联达到一个非常好的目标,对病原微生物我们每个人生活都离不开病原,这次新冠流行以后每个人都戴着口罩,最后造成流行性感冒也少了,各种传染病也少了,什么原因?可能在座的各位估计都很难理解这个。实际上每个人就是一个病毒的加工器,我们身上的病毒转了一圈以后,到了另外一个人身上再转一圈,这个病毒千锤百炼,变得对人体环境的抵抗力非常强,所以致病率很强,我们戴口罩之后,它没有生活能力,它没办法在人群中进行传播,这是我们戴口罩以后进行防止感染很重要的基础。我们人阻止病毒,让病毒失去锻炼和磨练的机会。人也一样,把某个人放在多个岗位锻炼以后那个人出来以后什么活都可以干。就把那个小孩每天关在温箱里面它在社会上没法生存。

  所以我们的病原社会把所有跟我们人类有关的病原都要搞清楚它的结果、它的形态,如果我们监测到是过去我们在库里面没有的东西,我们知道这是一个新的病原,我们能够确定它来,能够为我们整个人类的健康,特别对传染病的防控作出更好的贡献。

  我的分享到此结束。谢谢你们。

  新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。

海量资讯、精准解读,尽在新浪财经APP

责任编辑:李昂

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

7X24小时

  • 11-19 协和电子 605258 --
  • 11-19 健之佳 605266 72.89
  • 11-18 瑞丰新材 300910 --
  • 11-17 声迅股份 003004 20.26
  • 11-16 东亚药业 605177 31.13
  • 股市直播

    • 图文直播间
    • 视频直播间