圣大科学家参与新型人类参考基因组的创建

有圣大科学家参与的Telomere-to-Telomere国际联合体日前发布了新型人类参考基因组的首个版本。在我校代表的参与下，科学家们首次成功解码了着丝粒——这是DNA中存在大量重复的区域，约占整个基因组的2％。在参考标准器的帮助下，科学家将能够发现突变与疾病之间的更多联系，这意味着可以提高各种治疗的有效性。

第一套组装的基因组是在约20年前获得的。人类基因组计划（The Human Genome Project, HGP）花费了数十亿美元，由世界各地的许多专家进行了十多年的努力。与此同时得到的组装基因组实际上还远远没有完成。由于研究各个阶段的多种问题，有近10%的人类基因组无法组装：从生物实验问题到解决组装的算法问题。在接下来的20年中，参考基因组被多次优化，但即使最新版本的GRCh38仍然包含约1.61亿个碱基对的未知序列—— 约占基因组的5%。

Github：Telomere-to-Telomere国际合作

“组装的最大挑战之一是冗长的重复序列。使用仅能产生短片段的测序技术，就不可能确定这样的重复区位于基因组的何处及其数量。但是在2010年代，Pacific BioSciences公司和Oxford Nanopore公司开发了新的测序技术。使用这些技术获得的序列比上一代测序仪获得的序列要长得多，包含有成千上万个碱基，”项目作者之一，圣大“算法生物技术中心” 实验室的研究员阿拉·米赫延科（Алла Михеенко）说。

因此直到现在，在首次组装人类基因组近20年之后，科学终于准备好填补参考基因组中的所有空白。为此，来自不同国家的研究人员组成了Telomere-to-Telomere国际联合体（T2T），由美国国立卫生研究院（The National Institutes of Health, NIH）的亚当·菲利皮（Adam Phillippy）和加利福尼亚大学圣克鲁斯分校的卡伦·米加（Karen Miga）领导。要了解联合体名称的含义，必须了解端粒——它是基因组中位于每个染色体末端的部分。相应的，T2T的目的是“从端粒到端粒”，即从头到尾组装每个染色体。

T2T搭建的新型参考基因组的首个版本于2020年秋季发布。现在，联合体正在撰写一篇学术长文，其中将详细描述组装基因组及检查错误的方法。很快，摆在世界各地研究人员面前的将是大量分析新型参考基因组的工作。

我们小组由帕维尔·佩夫兹纳（Павел Певзнер）教授领导，主要从事与人类基因组最复杂的区域，即着丝粒相关的工作，不久前着丝粒的组装还基本不可能完成。它们是长度为几百万个字符的区域，其中相同的序列可能重复数千次。着丝粒参与最重要的细胞过程，例如细胞分裂。
——塔季亚娜·德沃尔金娜（Татьяна Дворкина），项目作者之一，圣大“算法生物技术中心”实验室工作人员

博士研究生安德烈·布兹卡泽（Андрей Бзикадзе）在加利福尼亚大学圣地亚哥分校的帕维尔·佩夫兹纳实验室中编写了首个能够接受着丝粒自动组装的程序。之后，由美国国立卫生研究院的谢尔盖·努尔克（Сергей Нурк）领导的小组编写了 HiCanu 程序，该程序能够从 Pacific BioSciences 测序仪产生的高精度长片段中组装出任何基因组。基因组测序项目使用这两个程序来获得所有染色体的着丝粒序列。值得注意的是，安德烈·布兹卡泽和谢尔盖·努尔克两位科学家都曾在圣大进行论文答辩（分别为硕士和博士学位）。

TandemTools 程序是由圣大算法生物技术中心的员工阿拉·米赫延科和阿列克谢·古列维奇（Алексей Гуревич）开发的，该程序可以在着丝粒组装的第一批方案中发现重要错误，校正组装算法，最后获得正确的序列，这些序列已包含在发布的组装基因组中。由实验

室员工塔季亚娜·德沃尔金娜开发的另一个程序 StringDecomposer 用于研究着丝粒的结构，其工作结果将阐明与人类基因组进化有关的许多重要问题。

重要的是必须了解，收集每个人的高质量基因组是一项极其困难和昂贵的任务，另一方面，则是完全不必要的。从基因上说，两个不同的人相似比例超过 99.9%。我们可以对一个人的 DNA 进行测序，将得到的片段与已知参考标准（或参照系）进行比较，找出其差异。
——塔季亚娜·德沃尔金娜，项目作者之一，圣大“算法生物技术中心”实验室工作人员

与参考基因组的差异既可以是“有害的”，例如导致遗传疾病的突变，又可以是“有益的”，例如有些突变会降低罹患癌症或心血管疾病的风险。寻找“有害”突变对于理解各种疾病的发生机制，预测风险和治疗方法的开发都非常重要。

现在，任何人都可以对自己的基因组进行测序，并得知自身携带哪些遗传疾病，是否有将这些疾病传染给儿童的风险，是否有较高风险患上阿尔茨海默氏病或癌症。科学家将成千上万人的基因组与参照系进行比较，获得了所有上述数据。

“研究人员几乎每天都在发表新文章，报告基因组中某些区域与疾病之间的联系。这就是基因组参考序列完整且无误的重要原因所在。否则，某些疾病的发展机制将仍然无法揭示，且难以开发针对这些疾病的治疗方法，”阿拉·米赫延科说道。

圣大科学家参与新型人类参考基因组的创建

圣彼得堡国立大学与俄罗斯天然气工业石油公司开设硕士班培养新一代工程师

圣彼得堡大学新一季《国际关系新形势下的乌兹别克斯坦共和国和俄罗斯联邦》国际竞赛启动

圣大专家参与劳工论坛：神经网络有助于检测员工职业倦怠

其他新闻

圣彼得堡国立大学与俄罗斯天然气工业石油公司开设硕士班培养新一代工程师

圣彼得堡大学新一季《国际关系新形势下的乌兹别克斯坦共和国和俄罗斯联邦》国际竞赛启动

预科奋斗记：伊朗女生如何叩开圣大校门

尼古拉·克罗帕切夫：“大学校园内的教堂正成为精神生活的中心”

健康医学：教育、科学与实践中的传统与创新融合

岩石学博物馆导览