华大发布最大规模中国人基因组学大数据成果 向基因大数据研究成功升级

  全景网10月11日讯 2018年10月10日,华大在深圳国家基因库正式对外发布一项迄今为止最大规模的中国人基因组学大数据研究成果。

  这是由中国科学家主导,历时两年,对14余万中国人的无创产前基因检测数据进行深入研究后,首次揭秘中国人群基因遗传特征的重大科研成果,也是由华大主导的“百万人群基因大数据研究”项目的首秀。

  发布会现场图片

  华大生命科学研究院院长、文章第一通讯作者徐讯博士表示,本次研究成果有两个重要意义,首先,这标志着生命科学产业已经从单个样本的检测和诊断,正式进入了基因大数据时代;其次,也验证了基于大人群的精准医学研究已成为新的科研模式,对基因组学大数据研究具有开创性价值。

  我国迈出 “百万人群基因大数据研究”重要一步

  基因是生命的密码,国家级人群基因组学研究以及对遗传资源的保护与应用是精准医学的基础,直接影响到一个国家在生物医药领域的核心竞争力。因此,美、英等多个国家发起了国家级人群基因组学研究计划并公开数据供全球科学家研究使用,为全人类的医疗健康事业做出了巨大贡献,我国也已在精准医学规划中启动部分项目。2018年10月3日,英国政府宣布将在未来五年内开展五百万人基因组计划,并表示从2019年起,全基因组测序将被作为标准之一辅助重病患儿、患有难治愈或罕见疾病成年患者的治疗。这标志着精准医学研究进入了大数据时代。

  大型研究项目完成需要较长周期,项目设计、样本采集及基因测序需要花费大量的时间与资金,合理利用已有的数据将大大加速这一进程。

  鉴于此,在严格遵从《人类遗传资源管理暂行办法》和生命伦理原则的规范下,以及充分重视知情同意和隐私保护的前提下,华大研究团队选取了14余万无创产前基因检测数据展开了群体水平的研究,开发了一系列适用于此类数据的分析方法,揭示了包括31个省,汉族与36个少数民族在内的中国人群精细的遗传结构,实现了多种表型的全基因组关联研究,揭示了中国人群中病毒序列分布特征,构建了包含约900万个多态性位点的炎黄中国人群基因频率数据库 (CMDB),最终将成果发表于最新一期的国际顶级学术期刊《细胞》中。

  图1. Cell 文章截图

  徐讯表示,此次研究成果不仅填补了大规模中国人基因组学研究领域的众多空白,并表明无创产前基因组测序数据或者类似的全基因组超低深度测序数据可以有效地用于群体遗传学、疾病与表型等领域的高水平研究,并将在遗传病诊断、肿瘤研究、药物研发等领域得到广泛的应用。

  据了解,华大在2016年正式发起“百万人群基因大数据研究”项目,此次研究项目正是其第一期的成果。华大希望通过对百万中国人群基因组测序数据的综合研究,促进遗传学研究与精准医学的发展,更好地实现基因科技造福人类的愿景与使命。

  值得一提的是,这是高水平国际学术期刊第一次认同在其上发表基因组学文章所使用的数据仅需保存于深圳国家基因库,而无需向境外数据库进行备份,这意味着国际学术期刊对我国遗传资源的充分尊重与认同,也代表着中国已经完全有能力与实力管理与保护我国重要的遗传资源。

  自2016年正式运营以来,深圳国家基因库已成为我国生物遗传资源存储的重要基础支撑,为我国的遗传资源提供了至关重要的保护,让中国可以将重要的数据存储于国内,而无需上传至国外的数据库进行保存;同时,在确保安全性和规范化的前提下,支持对数据开展严谨的科学研究,这对于我国的基因数据自主权以及行业发展都具有非常重要的战略意义。

  首次揭秘中国人群基因遗传特征 

  华大的研究小组主要从中国人群体遗传学、复杂性状的全基因组关联分析、中国人病毒感染图谱等三个方面揭秘中国人群体中的生物大发现。

  虽然我国人口众多,历史悠久,但长久以来,由于实验研究抽样不充分,导致我们对自身的遗传特征认识不多。通过大数据分析,研究小组确定了6个在地区纬度方向上受到强烈自然选择的基因,它们在基因频率上呈现明显的南北差异,充分展现了饮食、气候、病原体等环境因素对中国人群的演化所起到的选择作用,这是科学家第一次能够在中国人群体中进行如此精细化的研究和对比。

  图2. 6个在中国受到显著自然选择的基因位点

  同时,研究小组通过分析人群遗传距离的变化和基因流方向,揭示了汉族与少数民族群体的遗传结构特点及中国各省与欧洲、南亚、东亚人群的基因交流程度(或者说是通婚程度),发现当今中国人的遗传特点同时受到丝绸之路及近代人口大规模迁徙等因素的多重影响。

  图3. 各省全体中国人(左)和各省汉族人(右)所含有的欧洲人成分分布

  此外,研究小组首次基于这类超低深度测序数据对中国人群中的4种重要表型进行了全基因组关联研究(GWAS)。

  图4. 四个重要表型(身高、BMI、怀孕年龄、双胎怀孕)的GWAS研究

  通过数据分析,研究小组一次性发现并且验证了48个与身高以及13个与身体质量指数(以下统称BMI)显著相关的基因位点,包括这些位点在内的常见突变位点分别解释了48%的身高遗传率以及10%的BMI遗传率。随着研究的进一步深入,科学家和算法工程师有可能可以利用这些信息构建一套适合于中国人的身高预测模型,通过基因数据推断出个人的身高情况。

  另外,研究小组对怀孕年龄和双胎怀孕两个表型进行了深入研究,发现了两个与怀孕年龄显著相关的基因位点,暗示着这两个位点的突变与生育力密切关联; 与此同时,还在NRG1基因中发现了一个和双胞胎妊娠显著相关的突变位点,也就说携带有NRG1基因特定突变的孕妇,有更高的几率怀上双胞胎。

  华大研究小组还全面揭示了全国31个省级行政单位的人群病毒携带率以及病毒在个体血浆中丰度的分布。其中,研究发现,中国人血浆的病毒组与欧洲人存在比较大的差异,比如,在欧洲人群中携带率排名前两位分别是与皮肤急疹相关的疱疹病毒7型及与鼻咽癌相关的疱疹病毒4型,而在我国人群中排在首位的则是乙肝病毒,其感染发生率大约为2.5%。

  图5. 血浆病毒谱分析

  无创产前基因检测数据对中国人群体遗传学研究有巨大价值

  据估计,目前全球的无创产前基因检测(以下简称“NIPT”)已超过1200万例,仅华大基因一家机构已完成逾350万例,不仅为出生缺陷防控做出重大贡献,华大的科学家们发现,NIPT的基因组测序数据,为大规模的人群队列研究提供了一个全新的思路。

  此次发表于《细胞》的成果,正是华大研究团队在大规模人群队列研究的一次尝试, 并取得了极其显著的成果。

  华大研究员、文章第一作者刘斯洋博士指出,本次研究中,我们建立了一套全新的研究思路和分析算法,突破了当前组学领域难以使用超低深度全基因组测序数据进行遗传学研究的局限和挑战,并且首次证明了NIPT数据可用于回答多个遗传学以及医学领域重大问题的价值和潜力,该方法和策略可被全球基因组学研究参考与应用。

  同时,文章共同通讯作者金鑫博士指出,该研究是全球基因组学领域内,首次基于无创产前基因组测序数据所进行的遗传学探索。结果证明,脱敏后的无创产前基因检测数据在基因组学和群体遗传学研究中有巨大的价值。此次研究建立的分析策略、算法和数据库,对于全球群体遗传学、基因组学、精准医学等领域的发展有着重要的科学意义。

  截至目前,华大基因累计发表无创产前基因检测相关科研论文53篇,其中SCI论文47篇 (46篇为与多家医疗机构合作共同发表),内容涉及方法学、临床验证、临床案例、无创双胎、无创单基因病&全基因组、无创染色体微缺失/微重复综合征等。

  徐讯指出,此次研究成果也证明了生命科学领域已经从单个样本的检测和诊断,正式进入了基因大数据时代。未来,我们将借助对基因大数据的分析与研究,更深刻地了解人类的生老病死,进一步促进我们对复杂疾病、罕见病、药物研发、肿瘤基因解读等方面的研究与应用开发,从而推动精准医学事业的发展,加速基因科技在出生缺陷、癌症、感染等领域的应用,并更好地指导个人的健康管理。

  研究团队主要成员(左起): 刘斯洋博士(第一作者)、徐讯博士(第一通讯作者)、陈芳(共同第一作者)、金鑫博士(共同通讯作者)、黄树嘉博士(共同第一作者)

  

特色专栏

热门推荐