圣大科学家参与新型人类参考基因组的创建
有圣大科学家参与的Telomere-to-Telomere国际联合体日前发布了新型人类参考基因组的首个版本。在我校代表的参与下,科学家们首次成功解码了着丝粒——这是DNA中存在大量重复的区域,约占整个基因组的2%。在参考标准器的帮助下,科学家将能够发现突变与疾病之间的更多联系,这意味着可以提高各种治疗的有效性。
第一套组装的基因组是在约20年前获得的。人类基因组计划(The Human Genome Project, HGP)花费了数十亿美元,由世界各地的许多专家进行了十多年的努力。与此同时得到的组装基因组实际上还远远没有完成。由于研究各个阶段的多种问题,有近10%的人类基因组无法组装:从生物实验问题到解决组装的算法问题。在接下来的20年中,参考基因组被多次优化,但即使最新版本的GRCh38仍然包含约1.61亿个碱基对的未知序列—— 约占基因组的5%。
Github:Telomere-to-Telomere国际合作
“组装的最大挑战之一是冗长的重复序列。使用仅能产生短片段的测序技术,就不可能确定这样的重复区位于基因组的何处及其数量。但是在2010年代,Pacific BioSciences公司和Oxford Nanopore公司开发了新的测序技术。使用这些技术获得的序列比上一代测序仪获得的序列要长得多,包含有成千上万个碱基,”项目作者之一,圣大“算法生物技术中心” 实验室的研究员阿拉·米赫延科(Алла Михеенко)说。
因此直到现在,在首次组装人类基因组近20年之后,科学终于准备好填补参考基因组中的所有空白。为此,来自不同国家的研究人员组成了Telomere-to-Telomere国际联合体(T2T),由美国国立卫生研究院(The National Institutes of Health, NIH)的亚当·菲利皮(Adam Phillippy)和加利福尼亚大学圣克鲁斯分校的卡伦·米加(Karen Miga)领导。要了解联合体名称的含义,必须了解端粒——它是基因组中位于每个染色体末端的部分。相应的,T2T的目的是“从端粒到端粒”,即从头到尾组装每个染色体。
T2T搭建的新型参考基因组的首个版本于2020年秋季发布。现在,联合体正在撰写一篇学术长文,其中将详细描述组装基因组及检查错误的方法。很快,摆在世界各地研究人员面前的将是大量分析新型参考基因组的工作。
我们小组由帕维尔·佩夫兹纳(Павел Певзнер)教授领导,主要从事与人类基因组最复杂的区域,即着丝粒相关的工作,不久前着丝粒的组装还基本不可能完成。它们是长度为几百万个字符的区域,其中相同的序列可能重复数千次。着丝粒参与最重要的细胞过程,例如细胞分裂。
——塔季亚娜·德沃尔金娜(Татьяна Дворкина),项目作者之一,圣大“算法生物技术中心”实验室工作人员
博士研究生安德烈·布兹卡泽(Андрей Бзикадзе)在加利福尼亚大学圣地亚哥分校的帕维尔·佩夫兹纳实验室中编写了首个能够接受着丝粒自动组装的程序。之后,由美国国立卫生研究院的谢尔盖·努尔克(Сергей Нурк)领导的小组编写了 HiCanu 程序,该程序能够从 Pacific BioSciences 测序仪产生的高精度长片段中组装出任何基因组。基因组测序项目使用这两个程序来获得所有染色体的着丝粒序列。值得注意的是,安德烈·布兹卡泽和谢尔盖·努尔克两位科学家都曾在圣大进行论文答辩(分别为硕士和博士学位)。
TandemTools 程序是由圣大算法生物技术中心的员工阿拉·米赫延科和阿列克谢·古列维奇(Алексей Гуревич)开发的,该程序可以在着丝粒组装的第一批方案中发现重要错误,校正组装算法,最后获得正确的序列,这些序列已包含在发布的组装基因组中。由实验
室员工塔季亚娜·德沃尔金娜开发的另一个程序 StringDecomposer 用于研究着丝粒的结构,其工作结果将阐明与人类基因组进化有关的许多重要问题。
重要的是必须了解,收集每个人的高质量基因组是一项极其困难和昂贵的任务,另一方面,则是完全不必要的。从基因上说,两个不同的人相似比例超过 99.9%。我们可以对一个人的 DNA 进行测序,将得到的片段与已知参考标准(或参照系)进行比较,找出其差异。
——塔季亚娜·德沃尔金娜,项目作者之一,圣大“算法生物技术中心”实验室工作人员
与参考基因组的差异既可以是“有害的”,例如导致遗传疾病的突变,又可以是“有益的”,例如有些突变会降低罹患癌症或心血管疾病的风险。寻找“有害”突变对于理解各种疾病的发生机制,预测风险和治疗方法的开发都非常重要。
现在,任何人都可以对自己的基因组进行测序,并得知自身携带哪些遗传疾病,是否有将这些疾病传染给儿童的风险,是否有较高风险患上阿尔茨海默氏病或癌症。科学家将成千上万人的基因组与参照系进行比较,获得了所有上述数据。
“研究人员几乎每天都在发表新文章,报告基因组中某些区域与疾病之间的联系。这就是基因组参考序列完整且无误的重要原因所在。否则,某些疾病的发展机制将仍然无法揭示,且难以开发针对这些疾病的治疗方法,”阿拉·米赫延科说道。