圣彼得堡国立大学的生物信息学家们帮助发现了13万种公共基因数据组深处的新病毒
来自圣彼得堡国立大学(生物信息学和算法生物技术中心)、巴斯德研究所(法国)、不列颠哥伦比亚大学(加拿大)、加州大学伯克利分校(美国)和海德堡理论研究所(德国)的科学家们以及全世界的其他研究者之间的国际合作使得存在于公开基因数据组的13万种以前未知的新病毒被发现。
据科学家们称,自然界中有数万亿种迄今为止未知的病毒,其中许多可能是致命的,并有可能引发下一次疫情。然而,并不是所有的病毒都那么危险。
这篇发表于《自然》杂志上的论文,可以作为所谓的 PB 基因组学的基础,它对以前难以理解的 DNA 和 RNA 数据量进行操作(在已发表的研究中分析了 16 PB 的基因组序列)。1 PB 单位的信息等于 1015(千万亿)字节。
“为了应对如此海量的信息,我们创建了Serratus平台,其中包含一整套专为高效处理云中数据而设计的计算机工具”,该国际项目的参与者、圣彼得堡国立大学生物信息学和算法生物技术中心首席研究员安东·克拉贝伊尼科夫说。“但是,如果没有在该中心与我的同事德米特里·梅列什科一起创建的coronaSPAdes RNA病毒组装器,定性地‘重新组装’基因组病毒数据将变得更加困难。”
Serratus 平台合作的主要目标是创建一个强大、非常准确和敏感的“筛子”,用于处理大量数据,以选择与 RNA 病毒相关的数据,将规模从 PB 缩小到 GB,以便使用传统方法进行相对快速的计算处理。创建的 coronaSPAdes 组装器是我们Serratus 构造中的一块独特的砖,使得每个参与者都十分清楚地知道自己在做的事情,所以我们成功了。
圣彼得堡国立大学算法生物技术中心工作人员德米特里·梅列什科
尽管组装所有病毒的完整基因组并非总是可能的,但即使是部分序列也使得建立家族树成为可能,从而显示不同病毒如何相互关联以及它们如何发展。
该协作平台每天能够处理 100 万个数据集,而每个数据集的计算成本不到 1 美分。这就是所有遗传学家的梦想——快速且高效!
圣彼得堡国立大学生物信息学和算法生物技术中心首席研究员安东·克拉贝伊尼科夫
该研究发现了 250 多种感染细菌的巨型病毒,它们与之前在藻类中发现的病毒相似。这些“巨大噬菌体”的近亲已经被发现,例如,在孟加拉国的一个人身上,以及在英国的猫和狗身上。
在 Serratus 出现之前,科学家们知道大约 13500 种 RNA病毒(约占现有各种病毒总数的三分之一),而该项目使这一数字增加了近10倍。
“当前创建的已开发工具的公共存储库和已经获得的结果中充满了许多新发现,特别是考虑到云公共 DNA 和 RNA 序列的数量每天都呈指数级增长。我们希望在2030年之前识别出超过 1 亿种 RNA 病毒”,德米特里·梅列什科说。