生物体的基因组是生物体发育、功能和繁殖所需的一组DNA指令。现代生物体的基因组包含了它在进化道路上的信息,从地球上所有生命的“第一个普遍共同祖先”开始,到那个生物体结束。
一个生物体的基因组在其自身编码中包含的信息可以揭示其与祖先和近亲的联系。
我们的研究探索了一种假设,即生物体的基因组可能包含其他类型的信息,而不仅仅是家谱或分类。我们的问题是:生物体的基因组是否包含信息,可以让我们确定生物体所处的环境类型?
尽管看起来不太可能,但我们在滑铁卢大学和西方大学的计算机科学和生物学研究团队发现,极端微生物——在极端恶劣的条件下生活和繁衍的生物——就是这种情况。这些环境条件范围从极热(超过100°C)到极冷(低于-12°C),高辐射或极端酸度或压力。
我们把基因组DNA看作是用“DNA语言”编写的文本。DNA链(或DNA序列)由一系列被称为核苷酸的基本单元组成,这些基本单元由糖-磷酸主链串在一起。有四种不同的DNA单位:腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶(A、C、G、T)。
抽象地看,DNA序列可以被认为是一行文字,由“DNA字母表”中的“字母”组成。例如,“CAT”将是三个字母的“DNA单词”,对应于三个单元的DNA序列胞嘧啶-腺嘧啶-胸腺嘧啶。
在20世纪90年代,人们发现,通过计算从生物体基因组中提取的短DNA序列中这些DNA单词的出现次数,就可以确定该生物体的物种以及它在进化“生命之树”中与其他生物体的亲缘程度。
这种基于DNA单词计数对生物体进行识别或分类的机制类似于让我们区分英语书和法语书的过程:从每本书中抽出一页,我们注意到英语文本中有很多三个字母的单词“The”,而法语文本中有很多三个字母的单词“les”。
请注意,每本书的词频分布并不取决于我们选择阅读的特定页面,也不取决于我们是考虑多页、单页还是整章。同样,基因组中DNA单词的频率分布并不依赖于被选择来代表该基因组的DNA序列的位置和长度。
DNA词频谱可以作为一个生物体的“基因组特征”,这是一个重大的发现,直到现在,人们认为基因组的DNA词频谱只包含与生物体所属的种、属、科、目、纲、门、界或域有关的进化信息。
我们的研究小组开始探究基因组的DNA词频谱是否可以揭示其他类型的信息——例如,关于嗜极微生物生长的极端环境类型的信息。
我们使用了生活在极端温度(极热或极冷)或极端pH条件(强酸性或碱性)下的700种微生物极端微生物的数据集。我们使用有监督机器学习和无监督机器学习计算方法来检验我们的假设。
在这两种类型的环境条件下,我们发现我们可以清楚地检测到环境信号,表明特定生物居住的极端环境类型。
在无监督机器学习的情况下,给一个“盲”算法一个极端微生物DNA序列的数据集(没有关于它们的分类或生活环境的其他信息)。然后,该算法被要求根据在DNA词频谱中找到的任何相似性,将这些DNA序列分组。
人们的期望是,所有以这种方式发现的集群都将沿着分类线:细菌归细菌,古生菌归古生菌。令我们惊讶的是,情况并非总是如此,无论我们使用什么算法,一些古细菌和细菌总是被归在一起。
唯一能解释它们被多种机器学习算法认为相似的明显共同点是,它们都是嗜热的极端微生物。
生命之树是生物学中用来表示物种间谱系关系的概念框架,它有三个主要分支,称为域:细菌、古细菌和真核生物。
真核生物是具有膜结合核的生物,这一领域包括动物、植物、真菌和单细胞微观原生生物。相比之下,细菌和古细菌是单细胞生物,没有包含基因组的膜结合细胞核。细菌和古细菌的区别在于它们细胞壁的组成。
生命的三个领域彼此之间有着巨大的差异,从基因上讲,细菌与古菌的区别就像北极熊(真核生物)与大肠杆菌(细菌)的区别一样。
因此,期望细菌和古菌的基因组在任何基因组相似性测量的聚类中都尽可能地分开。我们发现一些细菌和古细菌聚集在一起,显然只是因为它们都适应了极端的高温,这意味着它们生活的极端温度环境导致了它们基因组语言的普遍、全基因组、系统性的变化。
这一发现类似于发现了基因组的一个全新维度,一个除了众所周知的分类维度之外,还存在的环境维度。
除了出乎意料之外,这一发现可能会对我们对地球上生命进化的理解产生影响,并指导我们思考在外太空生活需要什么。
事实上,我们正在进行的研究正在探索抗辐射极端微生物基因组特征中存在的环境信号,例如耐辐射球菌,它可以在辐射暴露,寒冷,脱水,真空条件和酸中生存,并被证明能够在外太空生存长达三年。
本文转载自The Co在知识共享许可下的对话。阅读原文。