许四虎:基因数据助力精准医学

许四虎:基因数据助力精准医学
2021年12月30日 13:48 市场资讯

股市瞬息万变,投资难以决策?来#A股参谋部#超话聊一聊,[点击进入]

  12月27-29日,第二十三届中国国际高新技术成果交易会中国高新技术论坛在深圳举行,主题为“推动高质量发展,构建新发展格局”,深圳医师学会泌尿外科分会会长、华大基因首席医官许四虎出席并发表演讲。

  许四虎在演讲中表示,精准医学是近年来最热门的话题,为什么这么热门?在于通过精准医学的手段使人们的治疗准确性更高,治疗的副作用更小,治疗的效果更好,这是精准医学的目标。简单的举个例子,过去人们得肺炎的时候可能用广谱抗菌素,糊里糊涂把肺炎治好了,到底是哪种细菌引起的不知道。今天的手段可以通过基因组学的方法了解得到肺炎这个病原菌是什么样的病原菌,它是哪个类型可以确定下来。根据确定的特点我们对它进行治疗。

  就像这一次新冠的发生,就是这样检测到的。这就是精准医学的核心要义,知道它是什么样的东西。这是感染疾病,同样其他的疾病也是这样,要想把精准医学做好,最重要的前提就是要做好大数据的分析。尤其是在基因组学跟精准医学的关系上,大数据就更加重要了。

  许四虎指出,基因数据助力精准医学。基因组学大数据要做的话,怎么才能做好?一是汇数据,二是洗数据,三是管数据,四是用数据。汇数据就是要设立一个数据的管理中心,包含数据源的配置、数据源监控、字段血缘管理、元数据管理等等。洗数据就是在数据中心里面,对数据的合规、配置、数据的批量处理进行完整的处理过程。管数据方面,在数据中心里面对数据管理的权限、人员角色管理、基因数据文件、数据看板、统计分析等等做一系列的处理。用数据,包括项目文件的管理、文件管理、数据管理、任务管理等等。

  “既然涉及到基因数据,现在大数据管理是很重要的内容,涉及到隐私、安全、规范,我们从三个大的方面做这方面的管控。一是安全隐私包括安全技术、隐私保护。二是保障制度。三是标准规范的建设。”他说。

  谈到基因组学大数据发展目标,许四虎对它做了一些勾勒:

  一是对于大数据平台的建设,还是要基于汇数据、洗数据、管数据、用数据做好它,将来要使业务数据化、数据资产化、数据要服务化。构建成基因领域的数据分析和科研平台,并且是现在出生缺陷、肿瘤、传感染疾病等数据的全覆盖。

  二是各个数据库也有独立的建设目标,分别是在妇幼卫生的终极目标就是要通过标准化的数据库建设,解决统一的问题,还有结构化的数据以及提高基因数据可解读的效率,促进行业的标准化发展。

  病原微生物方面,要实现3D病原数据库,总体目标就是综合生命大数据、评价个体与环境自身遗传特性的关系,从数据的代表性、算法的高效性、多重数据融合性方面完善病原3D数据库存的建设和支撑。

  以下为发言实录:

  各位嘉宾大家下午好,非常高兴来到中国高新技术论坛,我跟大家交流的内容是精准医学与基因组学大数据。

  我们知道精准医学是近年来最热门的话题,为什么这么热门?在于通过精准医学的手段使我们的治疗准确性更高,治疗的副作用更小,治疗的效果更好。我想这是精准医学的目标。简单的举个例子,过去我们得到肺炎的时候可能用广谱抗菌素,糊里糊涂把肺炎治好了,到底是哪种细菌引起的不知道。今天的手段可以通过基因组学的方法了解得到肺炎这个病原菌是什么样的病原菌,它是哪个类型我们可以确定下来。根据确定的特点我们对它进行治疗。

  就像这一次新冠的发生,就是这样检测到的。这就是精准医学的核心要义,知道它是什么样的东西。这是感染疾病,同样其他的疾病也是这样,要想把精准医学做好,最重要的前提就是要做好大数据的分析。尤其是在基因组学跟精准医学的关系上,大数据就更加重要了。所以我今天围绕这个主题跟大家展开阐述。

  第一,说一下背景和意义。

  生命健康会产生一个很大量的数据大概10个TB的数据,一个人一生的基因数据。包括基因组学的数据、转录组、表观组、宏基因组等等很多,如果把生命拉开来看,从出生到终老的周期来看,这个数据量更大,这是非常庞大的数据。如何对这个数据进行更有效的分析?这是一个非常难做必须要做的事情。

  从基因的领域来说,基因要进行测序,要进行一些分析,会产生大量的数据。我们仅仅从今天的生命健康、肿瘤防控、感染疾病的领域来说,产生的数据量还比较少,我列了今天在这个领域里面产生的数据量,这个数据量是比较少的。比如说华大基因产生的生育的数据今天也就是2个PB,产生的肿瘤数据也就是1.2PB,我们感染的数据更少一点,未来的数据量很大。就这样的数据奠定了我们今天从事基因精准诊断的基础,这是非常重要的领域。

  基因大数据有什么特点?未来数据量都是以PB级的等级来说的,基因数据量有一个特点就是体量大、分析复杂、需要的工具也要求比较高,还有就是汇集比较难。要把它形成一个统一可分析的数据才能够往下做下去。那么就需要大科学的方法完成这个事,需要一个很好的平台完成它。在这个平台上才能汇总大数据。

  这里面涉及到基础研究的内容,成为生物医学、基因组学开展研究的很重要内容,还涉及到健康领域如何归纳基因大数据才能推动我们对生命的准确理解。从临床应用来说,在出生缺陷、肿瘤防控、感染方面做到更为精准。我们说“精准总在路上”。

  第二,基因数据助力精准医学。

  基因组学大数据要做的话,怎么才能做好?我们总结几条:一是汇数据,二是洗数据,三是管数据,四是用数据。汇数据就是要设立一个数据的管理中心,包含数据源的配置、数据源监控、字段血缘管理、元数据管理等等。洗数据就是在数据中心里面,对数据的合规、配置、数据的批量处理进行完整的处理过程。管数据方面,在数据中心里面对数据管理的权限、人员角色管理、基因数据文件、数据看板、统计分析等等做一系列的处理。用数据,包括项目文件的管理、文件管理、数据管理、任务管理等等。

  既然涉及到基因数据,现在大数据管理是很重要的内容,涉及到隐私、安全、规范,我们从三个大的方面做这方面的管控。一是安全隐私包括安全技术、隐私保护。二是保障制度。三是标准规范的建设。

  这些管理依据是什么?依据就是国家的信息安全的三大基本法,《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》,三大法是基本的管理数据的基本要素。现在即将发布的是网络数据的安全管理条例,还正在征求意见中,我们正在密切跟踪条例的进展过程。

  基因数据助力精准医学,我们在保障里面包括要做一些技术加密,怎么使数据更安全,不外泄;还要做一些平台保障,有一些很好的防护措施。还有权限的分级,哪些数据可以看到,哪些数据是不应该看到的,包括数据的隐私、数据的公开,哪些可以公开,这些都是需要处理的。严格记录,总的目标就是使数据能够别人进不来,并且进来看不懂,拿不走,走不脱,我们要实现数据的管控。

  举个例子,肿瘤防控领域里面,我们在做海量数据和多组学大数据处理的时候,我们做了一些基本工作:一是要大量收集数据,包括基因数据、变异数据、免疫数据、临床数据、群正特征,构建多组学肿瘤大数据的平台。我们用于公开研究、实验室研究、组学的数据研究等等。

  我们构建的数据库是BGI—PETA数据库,这是肿瘤很大的数据库,主要泛肿瘤跨组学百科全书,这是华大基因肿瘤大数据的服务体系,我们的使命就是从大数据的标准和对外服务做好它,愿景就是要建立一个肿瘤大数据的生态,我们希望能够为全球的肿瘤诊断来做一些服务。

  肿瘤防控领域也有一些管控的东西,管控特点包括有公开研究、私有研究、通用模板、个性化模板的处理。这是基本的产品,这个产品我们叫华梵安,有688基因实体瘤个体化诊疗二代测序,7个自然日快速交付,360+把向药物全面覆盖,我们采取非常严格的措施,能够适应于中国患者,靶点有效覆盖,应用于六大临床需求,包括靶向用药、免疫治疗、化疗药物、遗传风险、评估以后发检测,这是六大的临床需求。这种产品的分癌种包括肺癌、胃癌、结直肠癌、前列腺癌、乳腺癌等等领域。

  还有在出生缺陷领域怎么做的,我们有一个朝阳平台,这个系统基于国际广泛认可的ACMG变异指南完成自动化变异位点致病性判定并生成报告。出生缺陷包括数据库有凤凰数据库,这个数据库包括有基因与疾病库、致病变异库、CNV人频库、SNV人频库,真实患者样品库。这是出生缺陷的网页查询版本,大家可以了解我们这样的内容。

  传感染疾病领域基因助力精准医学,我们也有一个平台,这个平台10万份大数据的支撑,这个库里面差不多建立了12000多种病原菌,这一次新冠能够极早研发试剂盒也是基于这样的数据库很好的科研基础。做好这些工作需要有良好的关键基础设施,就是完备的IT基础能力,包括算法、算力的完善,我们有一个很好的系统平台,有数据分析平台、云计算系统,还有能够支持医学检测业务科技服务的系统。我们还有一个数据中心,这个数据中心有五个高性能的计算机集群,用于存储和分析数据,分布在天津、武汉、重庆等等,我们还有灾备中心。

  第三,我们基因组学大数据发展目标在哪里?我们对它做了一些勾勒,我们想以这些目标作为我们的发展方向。

  一是对于大数据平台的建设,我们还是要基于汇数据、洗数据、管数据、用数据做好它,将来要使业务数据化、数据资产化、数据要服务化。构建成基因领域的数据分析和科研平台,并且是现在出生缺陷、肿瘤、传感染疾病等数据的全覆盖。

  二是各个数据库也有独立的建设目标,分别是在妇幼卫生的终极目标就是要通过标准化的数据库建设,解决统一的问题,还有结构化的数据以及提高基因数据可解读的效率,促进行业的标准化发展。我们能够提供更好的挖掘的价值。肿瘤方面的数据库存,我们要通过收集海量的癌症数据,打造肿瘤数据的百科全书,实现数据在线来进行分析。还要完成可视化的快速关联分析,我们要培训很多的临床医生来共同跟我们完成这方面的事情,今天我们发现数据的解读过程中临床医生不知道解读的是什么意思,我们要带着他们一起玩才能更好的应用。

  病原微生物方面,我们要实现3D病原数据库,总体目标就是综合生命大数据、评价个体与环境自身遗传特性的关系,从数据的代表性、算法的高效性、多重数据融合性方面完善病原3D数据库存的建设和支撑。今天利用这个把我们总体的目标来介绍给大家。

  我的介绍内容完毕,谢谢各位。

  新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。

海量资讯、精准解读,尽在新浪财经APP

责任编辑:邓健

人气榜
跟牛人买牛股 入群讨论
今日热度
问股榜
立即问股
今日诊股
产品入口: 新浪财经APP-股票-免费问股
产品入口: 新浪财经APP-股票-免费问股
产品入口: 新浪财经APP-股票-免费问股

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

7X24小时

  • 01-04 翱捷科技 688220 --
  • 01-04 星辉环材 300834 --
  • 12-31 天岳先进 688234 82.79
  • 12-31 创耀科技 688259 66.6
  • 12-30 唯科科技 301196 64.08
  • 产品入口: 新浪财经APP-股票-免费问股
    新浪首页 语音播报 相关新闻 返回顶部