汪建:腾飞中的中国人类基因组学研究

2018年11月01日15:41      

  以人类基因组计划完成为标志,生命科学进入了大数据驱动的全新发展时期。以大人群覆盖、大平台支撑、大数据驱动为特征的人类基因组学研究已然成为生命科学的主流。

  文/华大集团联合创始人、董事长汪建

  以人类基因组计划完成为标志,生命科学进入了大数据驱动的全新发展时期。以大人群覆盖、大平台支撑、大数据驱动为特征的人类基因组学研究已然成为生命科学的主流。

  大人群基因检测大数据极大地提升了中国在人类基因组学领域的地位

  近期,通过对14余万例无创产前基因检测数据进行系统性遗传学分析,华大构建了迄今最大规模的中国人群基因频率数据库(CMDB),并已在国家基因库同步上线(https://db.cngb.org/cmdb/)(图1)。作为对中国14亿人口的万分之一抽样,这14万人的基因组数据从基因层面展现了大规模人口迁徙、饮食、气候变化、文化交流等对中华民族历史变迁的影响;从血浆病毒组、免疫应答和脂肪代谢效率等角度揭示了我国与欧洲人以及我国南北方人群之间的遗传差异;同时,第一次发现了与身高、BMI、双胞胎等复杂性状相关的基因位点[1]。这些研究成果证明了生命科学已经从单个样本的检测和诊断,正式进入了组学大数据时代。未来,对基因大数据的研究和分析,将进一步促进群体遗传学、复杂疾病、药物研发等领域的发展,更好地指导个人的健康管理。

  深圳国家基因库建立了完整、严格的数据安全和隐私保护体系,本研究涉及样本和数据全部保留在国家基因库。这意味着国际期刊对我国遗传资源保护法规政策的充分尊重与认同,也代表着中国已经完全有能力与实力管理保护我国重要的遗传资源,对我国的基因数据自主权具有非常重要的战略意义。

图1:Cell文章截图图1:Cell文章截图

  宫颈癌发病率在女性特有恶性肿瘤中高居第二,是世界上唯一病因明确,可防可控的恶性肿瘤,99.7%的宫颈癌和HPV(人乳头瘤病毒)感染有关。在女性一生中,定期筛查,即可将宫颈癌患病几率下降80%以上。利用高通量基因测序技术,华大已为我国超过300万妇女提供了HPV检测服务。这300万人的大数据表明,区别于美国感染率最高的16、18、31型,我国主要HPV感染型别为52、16、58、68、18型(图2)。其中,中国常见的HPV感染型别68、51、39型不能被目前已批准上市的疫苗所覆盖。这些数据将对研发适合于我国人群的HPV疫苗具有一定的参考价值。

图2:中国人群HPV检测阳性型别分布图2:中国人群HPV检测阳性型别分布

  (数据来源:华大基因

  科研范式的发展与演化

  历史各时期的科学研究方法跟随技术的进步和社会环境的变化,不断变化发展。2007年1月11日,已故图灵奖得主吉姆·格雷(Jim Gray)在他最后一次演讲“科学方法的革命”中,提出将科学研究分为四类范式:实验归纳、模型推演、仿真模拟和数据密集型(即大数据)科学发现

  人类最早的科学研究主要以记录和描述自然现象为主,以伽利略为代表的文艺复兴时期的先驱们通过实验科学开启了现代科学之门;到了19世纪末,以法拉第、麦克斯韦等为代表的科学家们将以理论研究为基础、通过演算进行归纳总结的科研模式发展到了极致;然而,随着理论的难度和经济投入的不断提升,科学研究逐渐力不从心;还好,冯·诺依曼等人挺身而出,电子计算机成功问世,令大规模运算成为可能。随着电子计算机的高速发展,利用计算机对科学实验进行仿真模拟的模式迅速普及,成为当今最常用的科研方法;当下,随着数据的爆炸性增长,基因组学、脑科学和天体物理学等越来越多的学科以数据为中心。正如开普勒从第谷对天体运动的系统观察记录中发现了行星运动定律那样,数据转化为知识的能力逐渐增强,数据的占有权和控制权已逐渐成为国家间和企业间新的争夺焦点。

  工具决定科研范式转变

  虽然关于大数据驱动的系统性研究能否取代还原论式的“假说-演绎”科研范式一直充满争议,但毋庸置疑,人类需要借助新工具来观察世界,认知世界。电子显微镜让人类得以观察微观世界(10-9米);强子对撞机让人类得以探索新的粒子(10-15米);借助引力波探测器,人类观测到了中子星的合并,得以探索宇宙和物质的起源。因此,科研模式的选择很大程度上取决于工具和信息的获取成本

  DNA双螺旋的发现是颠覆性工具在生命科学领域应用带来重大科学突破的典范。借助X光衍射工具,沃森(James D. Watson)和克里克(Francis Crick)等人于1953年精确描述了DNA的双螺旋分子结构,从此开启了人类探索基因信息的时代。借助基因解码/测序技术,2000年,美、英、日、德、法、中等6国科学家共同完成了人类基因组图谱,标志着精准医学时代的来临。此后,基因测序工具的不断迭代使得基因数据获取通量呈指数级提高,成本则呈指数级下降。2000年完成的第一张人类基因组图谱耗资30亿美元,到了2018年完成一个人类全基因组测序只需要600美元,是18年前的五百万分之一(图3)。

图3:工具的进步与全基因组测序成本的下降图3:工具的进步与全基因组测序成本的下降

  红线:测序成本下降,黄线:数据量上升

  大多数科研人员早已习惯了在研究中总是被导师、评委、甚至是自己追问“科学问题是什么”、“科学假设是什么”此类的问题,再按照“提出假设-设计实验-收集数据-理论归纳”的范式探索生命奥秘。

  在分子生物学领域,针对胆固醇这个明星小分子的研究毋庸置疑是这种还原论式的“假说-演绎”科研的巅峰代表。纵观诺贝尔奖历史,共有13次各类奖项颁给了胆固醇相关的医学生理学研究[2,3]。近一个世纪以来,胆固醇研究领域产出了许多重大的科学发现。然而,随着研究的深入,直到今天,科学界关于胆固醇的生物功能仍然众说纷纭,胆固醇到底是好是坏,人们莫衷一是,从表1所示的近年来胆固醇相关科学发现可见一斑。与此类似的还有如对花生四烯酸和DNA甲基化等的基于还原论的假说导向科研。未来,只有将这种“盲人摸象”式的还原论科研范式与大数据驱动的新型范式相结合,才能获得对真实世界的真实认知。生命科学研究呼唤新的范式,快速发展的高通量低成本数据采集工具必将打破这个平衡,使天平向大数据驱动的科研范式倾斜[4]。事实上,美国政府已相继提出了肿瘤登月计划、Pan Cancer Atlas、百万人基因组计划等一系列精准医学大科学计划和工程,英国政府也宣布将在未来五年内开展五百万人基因组计划,深刻地反映出基因组大数据工具的突破与单位成本的快速降低给生命科学带来的重大变革。

表1:近年来胆固醇相关科学发现一览表1:近年来胆固醇相关科学发现一览

  大数据方法为还原论与整体论的辩证统一提供了技术实现途径

  1984年,盖尔曼(Murray Gell-Mann)等3位诺贝尔奖得主成立以研究复杂性科学为主的圣塔菲研究所(Santa Fe Institute),提出了“超越还原论”的口号,掀起了一场复杂性科学运动。而所谓还原论,简单来说,就是认为复杂的系统、事务、现象可以通过将其化解为各部分之组合的方法。

  当前,科学系统的根基依然是主宰科学研究几个世纪的“还原论”式的“假说-演绎”。科研人员习惯于先提出世界是如何运作的假设,然后通过收集和分析数据来验证这种假想。尽管我们对单个人、单个基因以及单个原子等的了解越来越多,但对整个社会、整个生命系统和物质系统的理解并没有显著增加,有时甚至与系统的真谛渐行渐远[5]。而吉姆·格雷提出的基于从真实世界中获得的大量已知数据,计算得出未知的可信理论的数据驱动科学知识自动发现的研究模式,具有系统性和整体性,总会给人以惊喜,还原客观真实世界。

  当下,计算机的高速发展大大增强了人类研究和处理复杂问题的能力。谷歌在广告业务上收入不菲,往往被视为大数据应用的经典案例。2008年,全球领先的科技媒体美国Wired(连线)杂志主编克里斯·安德森(Chris Anderson)在《理论的终结》一文结尾中(“The end of Theory”)[6]问:“现在是时候问这个问题了:科学能从谷歌那儿学到什么?”

  大人群基因检测大数据驱动中国人类基因组学研究

  华大自参与完成人类基因组计划以来,不断挑战极限,现已成为全球最大的基因组学研发机构。借助完全自主可控的国产测序仪,华大致力于将前沿的多组学科研成果应用于医学健康、农业育种、资源保存等领域,推动基因科技成果转化,逐步实现基因科技造福人类

  无创产前基因检测是人类基因组计划以来一项里程碑式的医学检测应用项目。2010年,无创产前基因检测临床服务开始在全球推广应用,中国无创产前基因检测行业发展迅速,无论技术还是机构实力都在全球跃居领先地位。截至2018年4月,全球检测样本超过1000万例,我国共检测约700万例,仅华大基因一家检测样本即超过350万例。华大以全球最低的价格,使这项检测惠及最多的人群,帮助2万多个家庭免于染色体异常疾病的困扰。以深圳为例,根据深圳市妇幼保健院监测的数据,随着全面二孩政策的放开,高龄产妇的增加,深圳唐氏综合征总发生率明显上升,由2011年的4.70/万上升为2017年的11.64/万,但随着无创产前基因检测技术的普及,深圳唐氏综合征的活产比从2011年的50.21%大幅下降至2017年的7.22%(图4)。

图4:深圳无创产前检测数据图4:深圳无创产前检测数据

  (数据来源:深圳市卫计委、华大基因)

  从“小科学”到“大科学”

  20世纪以来,科学的面貌发生了翻天覆地的变化,科学研究的复杂性、开放性、交叉性显著增强,人类从由科学家个人或小组设定问题、独自执行、探索式解决的“小科学”时代逐渐步入了科研难度大、需要复杂的仪器设备和投入大量科研经费的大规模研究的“大科学”时代。大科学时代,以曼哈顿计划、阿波罗登月计划、人类基因组计划等为代表的大科学计划和工程以我们难以预料的速度和难以想象的方式影响着世界格局的变幻和人类社会的进步。

  “大科学”的出现意味着大众所熟悉的科研方式已经发生了变化,甚至科学本身的属性也已经变了。以华大为代表的产业机构以解决社会实际问题为导向,与各个学校、各个国家,甚至各个领域的企业和科学家集体攻关“大科学”项目,强调打造标志性科研成果,制定行业标准。润物细无声,从第一个人类基因组到第一个中国人基因组,从千人计划到百万中国人群体基因组研究,这些工作为后续应用研究提供的基础数据,帮助我国人类基因组学研究逐渐树立起强大的国际影响力的领域话语权,对人类遗传学发展的影响将激荡久远。

  历史无绝代,社会无终态,科学无止境,真理无绝伦。正如两院院士宋健(笔名宋牮)先生2015年在《还原论和系统论》一文中写道:分解还原,整体抽象,各有所长。曷益悲花怜月,贬褒桃李[7]。在揭示生老病死奥秘的征途上,传统的分子生物学方法和大平台支撑、大数据驱动的基因组学方法都不可或缺。承认与否,中国的人类基因组学遗传研究已然强势起飞。在这百年一遇的历史机遇面前,中国的生命科学能从华大的发展中学到什么?能否放手一搏,奋力争先?

  参考文献

  [1] 华大发布最大规模中国人基因组学大数据研究成果,

  https://mp.weixin.qq.com/s/xmiOFfax77W9pJ5kUmtSwg

  [2] Trends in Cholesterol Research,By M. A. Kramer

  [3] The great cholesterol myth: unfortunate consequences of Brown and Goldstein‘s mistake,M.Eastwood, An International Journal of Medicine, Volume 105, Issue 2, 1 February 2012, Pages 214, 

  https://doi.org/10.1093/qjmed/hcr227

  [4]Hypothesis-limited research,Goodman L., Genome Res.1999 Aug;9(8):673-4.

  [5] 大数据研究的科学价值,李国杰,中国计算机学会通讯2012年·9月·第8卷·第9期

  [6] Chris Anderson, The end of theory, https://www.wired.com/2008/06/pb-theory/

  [7]还原论和系统论,宋牮,前沿科学(季刊)2015·4·第9卷·总第36期

  (本文作者介绍:华大集团联合创始人、董事长)

责任编辑:陈靖

  欢迎关注官方微信“意见领袖”,阅读更多精彩文章。点击微信界面右上角的+号,选择“添加朋友”,输入意见领袖的微信号“kopleader”即可,也可以扫描下方二维码添加关注。意见领袖将为您提供财经专业领域的专业分析。

意见领袖官方微信
分享到:
保存  |  打印  |  关闭
原中国光大集团名誉董事长王光英逝世 享年100岁 FF三位创始人仅剩贾跃亭 据称财务人事实际均已破产 恒大“断粮”FF只能撑到12月底 贾跃亭再无创始人 天眼年薪十万难招人:人头费过低 撑不起国之重器 财政部就印花税法(征求意见稿)公开征求意见 不涨价承诺到期:我爱我家、相寓租金猛提 涨幅超20% 李亚鹏欠4000万进法院失信名单?经纪人称子虚乌有 FF再陷停薪风波量产蒙尘 内部员工称大部分人将休假 连全聚德烤鸭都卖不动了 从烤鸭之王跌落神坛用几步? 中石油渤海钻探总经理周宗强自杀去世(图)