Sobaka.ru: 认识一下圣彼得堡国立大学的科学家伊万·亚历山大洛夫,他协助完全破译了人类基因组中的最后一条染色体!
2022年春天,科学家公布了对人类基因组几乎完整的不间断的破译版本。但其中仍然有一个地方在那时还没有被完全读取,即男性Y染色体。12月,一份多国合作完成的文章让人们对其进行了预先浏览,并正在弥补这一空白。由圣彼得堡国立大学的科学家伊万·亚历山大洛夫参与了这篇论文的撰写。在接受Собака.ru杂志的采访时,他谈到了这项成就对于医学、男性老化研究、癌症控制和进化研究有哪些意义。
伊万·亚历山大洛维奇,能请您谈一谈有关人类基因组破译的情况吗?这毕竟是一个已经进行了30多年的大项目。
人类基因破译可以说是好几个项目。它是在20世纪80年代末被第一次提及,当时有很多关于是否应该这样做,可能或不可能的辩论。许多人怀疑这个想法能否成功,并坚持认为这是浪费精力和科学家的资源。
最终,人们达成妥协:不对整个基因组进行破译,而是破译其中在当时来说最让人有兴趣的部分。也就是包括基因的DNA区域,即相对较长的DNA独特区域,约占基因组的90%。这项工作的结果在2003年发表。很快,所有关于是否应该这样做的争论都被迅速遗忘。因为科学家们已经取得了巨大的进展!
这为人类带来了什么?
带来了有关人类DNA及其周围环境中的所有基因的知识。在这项工作的基础上,科学家们已经开始编纂巨大的数据库,以便进一步研究。其中之一是英国生物银行,它拥有数十万人的数据。
科学家从这些人身上提取了DNA样本,还详细询问了他们是否有偏头痛,是否有高血压的倾向,是否有牙齿问题,甚至是晚上的睡眠质量。现在,世界各地的科学家正在研究这些数据库,试图弄清一个或另一个基因的变化如何与这些人身体的不适有关的规律。
也就是说所有关于科学家找到“失眠基因”或者是“肥胖基因”的新闻都是从那里出来的?
并不总是直接来自那里,但也可以这样说。科学家们可能有一些猜测,比如说他们注意到晚上睡不好的人体内有一种不同的蛋白质。而关于基因组的某一部分与失眠有关的真实的统计和检测数据目前也正是基于这些数据库。如果没有在2003年公布的大部分的人类基因组,这一切都不可能发生。
也不可能进行大量的进化研究,为此,今年的诺贝尔奖被授予生物学家斯万特·帕博,他从事尼安德特人、丹尼索瓦人和其他古人类的基因组研究。
那为什么到目前为止还是会有关于持续解读人类基因组的新闻呢?
正如我所说,在2000年代,并不是整个基因组都被破译了。这个解读中仍有 "漏洞"(约10%),而当时是无法破译的。
这包括哪些部分呢?
这些是所谓的串联重复。如果你记得,DNA有四种核苷酸,是构成我们基因组的有机化合物。它们在图中由四个字母标识。这些字母可以排成数百或数千个字符的长而原始的序列。这就是基因的排列方式,这种形式的基因在我们的染色体中很少或甚至从未重复过。
但基因并不构成我们全部的DNA,而只是其中的一部分。其余的都是我上面提到的那些重复的内容。这些是由几百个或几千个 "字母 "组成的短序列,即核苷酸,它们可以在染色体中连续重复几千次。这些都是在2000年代无法被读取的。
主要是有哪些困难呢?
这里需要说一下我们通常是如何读取DNA的问题。当我们我们采集了样本之后,我们会从细胞中提取DNA。在这个过程中,它将被撕成许多碎片,然后必须按照原来的顺序进行读取和重新组装。
我记得一位生物信息学家告诉我这项工作是如何进行的。他说:“想象一下,一个房间里放着几本列宁的全部作品。然后在那个房间里发生了爆炸,之后你试图重新恢复那个完整的论文集,比较不同副本的残片,看每一页上的字母是以什么顺序放置的。”
是的,这个比喻是比较恰当的。科学家们曾经能够读取长达一千多个核苷酸字母的这种片段。如果你发现两个片段中的200个字母完全匹配,你就知道这是同一个染色体片段,只是从不同的边缘撕开。你可以把它们 "粘 "在一起,并寻找下一个与已经组装好的片段至少有200个字符重叠的片段。然后不断重复。就像一个拼图。当然,所有这些都不是手动完成的,而是在特殊程序的帮助下完成的,它们被称为汇编程序,也叫装配程序。
当你有不重复的长序列时,这一切都很好,但当你有一个连续重复了几千次的片段时,汇编程序不会把它作为一个长的序列放在一起,而只是认为它是同一个地方的相同片段,不会把它们建立成一个长链。重复就会崩塌。直到现在,我们才能够一次破译几万或几十万个字母的巨大DNA块,从而能够正确地读取重复的阵列。春天的时候,一个国际科学家团队已经成功地发表了对带X染色体的单倍体基因组所有染色体的完整解读,而现在我们已经提出了对最后一块Y染色体进行解读。顺便说一句,我在圣彼得堡国立大学的同事在这项工作中发挥了重要作用。他们正好在开发新的汇编程序和检查汇编重复序列质量的程序,这些程序使得这项工作成为可能。
为什么要对这些带有重复序列的片段进行解读?
为了更好地了解我们的基因组是如何工作的。例如,我们成功读取的男性Y染色体,就是一个实实在在的很困难的地方。它有三分之二的重复性!
也就是说,直到现在,我们还不了解负责人类性别的大部分染色体是什么样子。我们已经弄清楚了很多事情,但我们直到现在才了解到全貌。
此外,这些片段对与我们理解进化也很重要。事实上,基因的突变是相当罕见的,重大的变化可能在几十万年内都观察不到。但它们相对频繁地发生在重复序列中,这是DNA中进化最迅速的部分。因此,从这个意义上说,它们在信息上要丰富得多,进化论研究人员在这个领域中可以有取得很好的研究成果,从而更好地了解人类在过去几万或几十万年中是如何变化的。
这项研究还有哪些重要之处?
正如我们已经讨论过的,Y染色体决定了一个人的性别。粗略地说,男性是一个拥有Y染色体的人。知道它是如何构建的,对于理解决定性别的过程很重要。毕竟,并不是所有物种的性别决定过程都与人类的方式一样。
其次,还有一件重要的事情。科学家们早就知道,在老年时,个别细胞中的Y染色体有时会丢失。大约有五分之一的老年男性发生这种情况。更常见的是,它们在血液细胞中发生缺失。而且,在我们之前谈到的非常大的基因数据库中发现,Y染色体的丢失与预期寿命的缩短有关。
此外,在肿瘤细胞中往往找不到男性的Y染色体。有可能它们的缺失与癌症发生的可能性和严重程度有关。但现在这都是猜测......
而要证实或否定这些猜测,就需要一个被完全破译的Y染色体吗?
当然。事实上,不同的人类群体,如民族群体,其Y染色体非常不同。所以问题来了,发生在基因组这一部分的进化事件是否可能导致一些人在年老时失去Y染色体。毕竟,这只发生在20%的男性身上,而不是100%。这仍然需要进行检测,但这个假设是我想到的第一个假设。
可以说一下您在这项研究中承担的角色吗?
我负责对着丝点进行分析,事实上我的整个科学生涯中一直在做这些工作。什么是着丝点?染色体通常被画成一张弓的形式,那么这个弓中间的小圆点就是着丝点。在细胞分裂过程中,特殊的微管就附着在这里,将加倍的染色体扩散到两个新细胞中。如果这些管子在某种程度上连接不良,一个额外的染色体就会进入其中一个细胞,而这尤其会导致唐氏综合症。
实际上,这些着丝点又是由重复序列组成的。因此,我和我的同事们一直在努力寻找正确的方法,把它们放在一起,然后观察会发生什么。顺便说一下,任何人都可以在一个专门的网站上看到我们的工作成果,在那里我们读取的染色体被完整地可视化,不同的重复序列被我们用不同的颜色标记出来。你可以看到整体情况,也可以放大到某些部分,甚至可以查看单个核苷酸序列。
您在这项研究中的工作结束了吗?
没有。事实上,我们只解决了一个简化的问题,即组装了一套单倍体的染色体。也就是说,每条染色体有一个副本。为了做到这一点,我们使用了一个特殊的细胞系。然而,在活生生的人类中,每条染色体都有两个副本,而且它们之间可能略有不同。因此,我们的下一个任务就是组装这样一个完整的基因组,每个染色体有两个版本。当我们学会如何进行这样的组装时,遗传学家才能放手。
另外,我正在与另一个团队合作,该团队进行着为人类基因组的多样性进行编目的任务。他们计划破译的不仅仅是一个单一的基因组,而是从350个不同种族的人身上取样,并对这些基因组进行完整的组装,然后进行比较。如果想要的是不仅要比较,而且还要领会这种比较的结果,得出结论,那就是未来10年的任务了。
为什么需要做这些?
因为人和人之间是非常不一样的。一个平均的基因组并不能解释发生在我们体内的生物化学和生物物理现象的多样性。例如,为什么各民族的医学分析结果会有所不同?所有这些都需要研究。我已经可以告诉你,不同血统的人的着丝点是非常不同的,而且这有可能具有某些医学意义。