研究人员已经在绘制人类与人类之间的整个遗传关系方面迈出了重要的一步: 一个可以追溯到我们所有人祖先的单一家谱。
人物的抽象插图
在过去的二十年里,人类基因研究取得了非凡的进步,为成千上万的个体,包括来自数千史前人群的个体生成了基因组数据。这提出了追踪人类遗传多样性起源的令人兴奋的可能性,从而得出了世界各地的个体如何相互联系的完整地图。
到目前为止,这一愿景面临的主要挑战是研究一种方法来结合来自许多不同数据库的基因组序列,并开发算法来处理这种大小的数据。然而,牛津大学大数据研究所的研究人员今天发布的一种新方法可以很容易地将来自多个来源的数据结合起来,并按规模容纳数百万个基因组序列。
大数据研究所的进化遗传学家、主要作者之一王岩博士解释说: “我们基本上已经建立了一个巨大的家谱,全人类的家谱,它可以像我们一样精确地模拟产生我们今天在人类中发现的所有遗传变异的历史。这个家谱让我们看到每个人的基因序列是如何与基因组的所有点相互关联的。”
由于个体基因组区域仅从父母一方 (母亲或父亲) 遗传,基因组上每个点的祖先都可以被视为一棵树。这组树,被称为 “树序列” 或 “祖先重组图”,通过时间将遗传区域与遗传变异首次出现的祖先联系起来。
主要作者安东尼Wilder Wohns博士作为大数据研究所的博士,他说: “本质上,我们正在重建我们祖先的基因组,并利用它们形成一个广阔的关系网络。然后我们可以估计这些祖先何时何地居住。我们的方法的力量在于,它对基础数据做的假设很少,并且还可以包括现代和古代的DNA样本。”
这项研究整合了来自八个不同数据库的现代和古代人类基因组的数据,包括来自215个群体的总共3609个体基因组序列。古代基因组包括在世界各地发现的样本,年龄从1,000岁到100,000岁以上。该算法预测了进化树中共同祖先必须存在的位置,以解释遗传变异的模式。由此产生的网络包含近2700万祖先。
在这些样本基因组上添加位置数据后,作者使用网络来估计预测的共同祖先的居住地。结果成功地重现了人类进化史上的关键事件,包括从非洲以外的移民。
尽管家谱图已经是一种极其丰富的资源,但研究团队计划通过继续整合可用时的遗传数据,使其更加全面。由于树序列以高效的方式存储数据,因此数据集可以轻松容纳数百万个额外的基因组。
Wong博士说: “这项研究为下一代DNA测序奠定了基础。随着来自现代和古代DNA样本的基因组序列质量的提高,树木将变得更加精确,我们最终将能够产生单个,解释我们今天看到的所有人类遗传变异的起源的统一地图。”
沃恩斯博士补充道: “虽然人类是这项研究的重点,但这种方法对大多数生物都是有效的;从猩猩到细菌。这在医学遗传学中可能特别有益,将遗传区域和疾病之间的真正关联从我们共同的祖先历史中分离出来。”