本文整理自巴塞罗那庞培法布拉大学教授和复杂系统实验室的负责人Ricard Solé,西班牙国家研究委员会(CSIC)教授和进化系统病毒学实验室的负责人Santiago F. Elena合著的复杂系统理论著作《Viruses as Complex Adaptive Systems》,来自微信公众号:SerendipityCamp(ID:SerendipityCamp),作者:徐鸿鹄,头图来自:视觉中国
病毒宇宙
很少有例子能像病毒那样让人着迷地描述自然界(及其以外)的复杂性。
病毒强烈地影响了复杂生态系统中的能量流动。它们与宿主保持着各种各样的关系——从互惠到纯粹的寄生,也带来了一些最致命的流行病。病毒研究在我们理解和操纵生命的研究领域发挥了重要作用,它也吸引了生物学家、物理学家和计算机科学家的兴趣。
在思考病毒的性质和相关性时,会引申出许多重要的问题:它们到底是什么?它们是活的实体吗?为什么会有这么多新出现的病毒?它们是如何产生的?它们会变得多复杂?它们在塑造复杂生物体进化过程中的作用是什么?他们在社会发展中发挥了什么作用?可以将它们与主机内运行的软件程序进行比较吗?计算机病毒与生物毒有多相似?
病毒是一个复杂的系统,其大小跨越了多个数量级(比如小到几百个核苷酸折叠RNA链的类病毒,大到如细菌的拟菌病毒、虹彩病毒、皮托病毒、潘多拉病毒等),生命周期和栖息环境也千差万别。但对它们的行为和结构的研究,特别是跨学科框架的研究,揭示了一些普遍的组织模式。
正如20世纪70年代的理论发展所预测的那样,基于RNA的病毒显示出了高突变率——病毒生活在无序的边缘,在那里有高度的不稳定性,但也有适应性。这一边缘的存在与相变现象有关,其存在与种群的遗传性质有关,通常被称为准种(quasi-species)。其他的病毒,比如巨病毒的拟菌病毒,其体积很大(多达一百万个碱基对),大到比我们所知的一些最小的细胞还要大,它们的生命周期显示出惊人的特性。
我们将讨论病毒形态空间的潜在边界及其重要性,以及病毒种群动力学和自组装的理论模型。模型和理论近似在这一领域发挥了关键作用,特别是适应性景观(fitness landscapes)的概念——这在定义遗传复杂群体的动力学方面具有重要意义。
病毒塑造了细胞、生物体、生态系统甚至生物圈的进化。这种影响跨越了从基因组到地球尺度下的所有生物组织。它们的动力学涉及到了非线性现象、临界点和自组织过程,这与其他生物和非生物系统有许多共同点。
更重要的是,病毒为了解复杂系统的起源提供了一个独特的窗口。此外,我们还将关注其它的非生物系统,例如计算机病毒,它们之间具有意想不到的相似性。
已故物理学家约翰·惠勒John Wheeler谈到科学时说:
“我们生活在一个被无知之海包围的岛屿上。随着我们的岛屿不断扩大,我们无知的海岸也在不断扩大。”
这也适用于定义当今对病毒理解的特定岛屿。很多时候,新的发现深刻地改变了我们的视角,扩展了我们对病毒宇宙的理解,同时海岸线扩大了,新的问题也随之出现了。但我们仍然希望自己能够安全地穿越大陆和未知水域之间错综复杂的边界。
病毒中心说
就像我们宇宙中的暗物质一样,生物圈中也有隐藏的部分。隐秘性就包括了病毒的多样性的存在,及其重要的作用,而这一隐秘部分对于真正了解生物圈的运作方式至关重要。
尤其是宏基因组学的兴起,逐渐揭示了海洋中病毒的一种完全出乎意料的、近乎天文尺度的多样性——荧光显微照相技术发现,即便一滴海水中的一小片区域,也蕴含了一个完整的生命体宇宙,包含了天文图景一般的大量的微生物,人们甚至可以在海洋生物细胞上轻易地发现10-102种不同的病毒。
微小结构,高突变率,引发人类恐惧的能力,使得病毒不仅在我们人类的进化史上,而且在我们的近代史上都发挥了重要作用。它们可能是致命的,也可能是有益的,它们变化如此之快,它们以惊人的方式塑造了我们的基因组和生理特征。越来越多的证据表明,病毒实体为进化提供了源源不断的驱动力。
病毒的重要性如此之大,以至于我们开始思考有关进化的“病毒中心论”观点。尽管流感病毒一样的病毒已经杀死了数百万人(及其许多其他物种),成为对我们生存的极大威胁。但从另一个角度来看,如果没有它们,许多重大的进化事件将永远不会发生。
病毒世界是广袤的,超出了我们大部分人类的认知——整个海洋生物群中,可能存在的病毒数量为10^30个(1的后面接30个0),每秒发生的感染事件数量不少于10^23个(1的后面接23个0)。
由于感染,病毒在一天内就要杀死大约20%微生物的生物量,从而迫使种群不断地大规模更替。由于海洋生物群的微生物成分是能量流的主要组成部分,其明显后果是,大规模的生态进程受到生物圈病毒成分的强烈制约。
病毒对全球范围的碳循环有着深刻的影响——由于它们对浮游生物死亡的影响,细胞溶解产生的颗粒有机碳(POC)仍然靠近水面(而不是沉入深海)。这将深刻地影响到大气中CO2含量。
人们常说,除了火山和类似的极端环境外,地球上几乎到处都有生命。我们也可以说,在生命繁盛的地方,病毒无处不在。病毒以某种方式定义了生命的海岸线——如果不把病毒作为主要(也许是主导)角色考虑在内,就很难了解生物圈的进化。
海洋病毒说明了,生态学研究的最明显的结论之一:我们的星球是由微生物控制的,尤其是由病毒控制的。Koonin和Dolja就曾指出:海洋的水实际上就是一种病毒做的汤,每毫升的海水就含有多达10亿个病毒颗粒。
如果以病毒作为世界的中心观点来看待人类,人类就不应被视为一个只携带约2万个基因的孤立实体,而应被视为一个复杂的物种联盟。特别是,我们是一个巨大的生态网络的载体,该网络在许多种微生物之间发生相互作用,这些微生物在我们的口腔、肺部、肠道或皮肤上定居。这就是所谓的微生物群。
我们自身的微生物群部分,还携带着大约300万个额外的基因,它们与我们共同进化了数百万年。
病毒居住在一个跨越分子结构和细胞尺度之间的广泛区域内。有些病毒很小,需要很长时间才能检测出来——比如1892年,俄罗斯科学家Dmitri Ivanovsky首次发现的第一种病毒:烟草花叶病毒TMV。
这是一个特别重要的认知突破,因为一旦我们关注病毒这个概念,伴随着电子显微镜的发明和分子遗传学的发展,病毒的内部结构和遗传成分就变得可供研究。
病毒的一个特别显著的特征是其巨大的遗传多样性。这种多样性不仅仅是其本身的大小和组成的问题——它还涉及了复制的逻辑及其对地球上其他生命的进化影响。
由于结构的简单性,病毒无法在细胞外复制——病毒需要细胞作为机器来复制自己。
细胞基因组的复制,得益于一种高度复杂的分子机制,这种机制基于双链DNA分子转录成单链RNA链,然后由另一个同样巨大的分子复合体(核糖体)将其自身翻译成构建整个复制复合体所需的蛋白质。所有的细胞有机体都会对这种模式做出反应,很少出现偏差。
相比之下,在混乱的病毒圈中,则可以观察到各种RNA和DNA的组合以及它们之间的相互转换。如此广泛的遗传策略允许潜在的进化,使病毒成为真正的“基因组实验室”。
正是由于这种复杂性,David Baltimore根据遗传物质的类型(DNA或RNA,单链或双链)和复制策略,尝试将病毒分为七种不同性质的组:
Group I由具有双链ds DNA基因组的病毒组成,通常在感染细胞的细胞核内复制,并使用细胞蛋白进行复制——例如疱疹病毒和天花病毒。
Group II包括了所有具有单链ss DNA基因组的病毒,它也利用细胞机制进行复制——例如犬细小病毒和植物双子病毒。
Group III是具有双链ds RNA基因组,并在感染细胞的细胞质中复制。它们为自己的复制酶编码——例如一些真菌病毒。
Group IV和Group V是最丰富的类群,它们的单链ss RNA基因组要么是正的(Group IV),要么是负的(Group V)。“正”意味着被包裹的分子可以直接被细胞机器翻译,而“负”意味着被包裹的分子必须首先被转录成补体,然后才能被细胞核糖体翻译成蛋白质——大多数已知病毒都属于这两个家族之一:TMV、丙型肝炎病毒(HCV)、口蹄疫病毒、埃博病毒、黄热病病毒和几种流感病毒。
Group VI对应于具有通过中间DNA分子复制的“正”单链ss RNA基因组的病毒。这一组对应于众所周知的逆转录病毒——其最典型的代表是HIV-1。所有逆转录病毒都编码一种酶,即逆转录酶,该酶以RNA为模板合成DNA。
Group VII对应于通过单链ss RNA中间体复制的双链DNA病毒——这一小群病毒也编码逆转录酶,其典型的代表是乙型肝炎病毒(HBV)。
泛化病毒模型
分子生物学和信息技术几乎在二十世纪中叶同时出现,并从那时起并行发展。尽管生命结构与计算机硬件和软件之间存在着巨大差异,但在这两个学科的早期发展中,思想和术语不断交流,也发生了有趣的趋同。
工程师们建造能够操纵信息的新技术引擎时,使用了英国数学家阿兰·图灵所定义的理论计算模型。与此同时,他们参与进行了一个重要且古老的工作——消息的编码和解码。
20世纪50年代,编码和解码秘密信息是冷战时代的主要任务,计算机设计师和程序员必须找到以最低成本进行计算的方法。早期的机器非常昂贵,功率有限,所有的东西都需要在强大的约束下进行适当的设计。
这意味着编写简短、优化的程序,使用适当的编码方案,并压缩信息。这与数十亿年的物种进化过程非常相似,不光在计算机架构中,生物体内我们也需要程序和执行程序的机器——计算的这两个组建也通常被叫做软件和硬件。
病毒被视为细胞内的寄生虫,需要可用的分子机制来自我复制,这一经典观点表明,我们可以将病毒视为封装的软件,由细胞宿主的"主机硬件"执行——使用这个类比,在我们探索病毒作为计算对象时,将会变得非常有用。
图灵机 (a) 是计算设备的抽象表示,可以执行计算机完成的任何操作,他被定义为一个被写入了0和1的无限的磁带,磁带信息也可以由“磁头”读取和写入。这个磁头沿着磁带移动,以一种确定的方式改变磁带的内部信息。细胞内的几个分子过程(b)与此类似——这里展示了 RNA 聚合酶“读取”DNA 链并“写入”RNA 分子的过程。
图灵结果的一个有趣且经常被忽视的含义,与图灵机器的分子对应物有关,转录和翻译过程与图灵隐喻非常相似。图灵计算方法通常只与计算机病毒有关,而没有特别注意真实的病毒——因为在图灵的时代,分子生物学并不存在,那时候,还没有人知道分子信息实际上存储在长长的聚合物链中。
如果细胞包括(除其他外)这些能够识别和读取生物聚合物的分子机器,那么很明显,病毒基因组可以被视为带有开始和停止信号的磁带,这条磁带将被细胞聚合酶和核糖体读取和解释,这两种酶共享一个共同的字母表。
这个框架里,细胞计算将与病毒信息分离开来——病毒只关注磁带,作为寄生在机器上的机器,它并不负责处理读写过程。
分子生物学从IT技术中极大丰富了词汇表。诸如编码和解码、转录和翻译、校对、不匹配、冗余、同义、信使,甚至图书馆等术语都完全融入了现代生物学的行话中。
很快,伟大的数学家冯·诺依曼的杰出工作预示了计算系统和生物系统之间的强大融合。冯·诺依曼对机器能够以某种自主方式自我复制的可能性很感兴趣——这样的机器会是什么样子?自我复制的最低逻辑要求是什么?
对硬件非常熟悉的冯·诺依曼(他参与了ENIAC的设计)采用非常抽象(但也很笼统)的观点探讨了自我复制的理论基础,忽略了组件的确切性质和机器执行的特定功能。
在冯·诺伊曼看来,系统由标记为A、B和C的三个部分组成,分别对应于构造器、复印机和控制器。至关重要的是,需要指令φ(A、B、C)来提供制作机器副本所需的指令集。
在今天,我们已经非常清楚——这也是活细胞的逻辑:DNA作为基本指令集φ(A+B+C)运作,定义硬件,而以精确方式复制指令(由高度复杂的蛋白质网络定义)所需的机器A是由一组分子机器提供的,如聚合酶,当细胞分裂时,它们与DNA相互作用并复制指令;而从DNA转录到RNA的信息的核糖体对应于B。
与病毒复制相关的部分可以通过一个软件φv被定义,该软件要求细胞机器复制自身。换句话说,病毒的指令φv使用细胞机制(A和B)生成自身的拷贝,然后为新一轮复制做好准备。
在这种最低要求的环境中(病毒被认为只是一个复制机制),唯一需要的操作就是使用能够读取病毒链的分子“磁带头”,用来创建病毒链的额外副本。与细胞复制相关的完整方案相比,病毒的复制则非常简单——它只是一个分子寄生虫。
这当然是过度简化的模型——即使是最小的病毒,通常也需要感染它们的宿主,这在某种程度上意味着一个进化的识别过程。
分子寄生虫必须能够检测并附着在宿主上,随后将病毒基因组拖入细胞。这个事件链可以描述为某种信息处理(因此可以用计算来表示)。真正的病毒,实际上并不如自我复制的机器一般完善——因为它们实际上是依赖于被它们感染的机器执行操作——因而有些人反对将病毒看作是有生命的系统。
进阶病毒模型
分子寄生虫——病毒似乎表现出了多种多样的设计。事实上,病毒的世界是极其多样和不断变化的,但也有一些与病毒发展相关的关键、通用机制,揭示了病毒复杂性中普遍存在的深层和常见的物理过程。
在一大类球形病毒中,结构组织也受到强烈的几何和物理机制限制——所有这些特性都与系统的硬件有关,通过探查其性质,我们还可以在抽象计算中更好地理解病毒。
给定病毒颗粒的大小与其基因组的大小成正比。就质量而言,基因组比整个病毒粒子的总质量小得多。鉴于病毒基因组较小,许多病毒壳是由最少数量的基因产物形成的——即球形病毒应该具有正多面体的高度对称性,这种结构也称为柏拉图固体。这种正多面体的任意一个面都是对应于同一蛋白质单元的完全相同的多边形。
球形病毒和杆状结构是成熟病毒拥有的典型特征,这样的病毒可以感染从细菌到高等植物和哺乳动物的所有宿主。所有这些病毒都是由数量有限的构成病毒壳的亚单元紧密排列、规则分布而成的。
病毒壳的装配过程涉及到几何学——即单元级别里都有一些几何约束。病毒本身不会进行代谢活动的事实表明,与细胞不同,它们的组装可以用标准平衡热力学来理解。这一观点的一个很好的证明是,在体外条件下,杆状TMV病毒会自发地自行组装成具有完全传染性的病毒颗粒。
TMV粒子的自组装和生长。构建整个病毒粒子自组装所需的基本单体,形成一种特征有序的螺旋结构。RNA链附着在这个生长的结构上。
一个单体单元聚合成螺旋结构,这是一个热力学偏爱的过程。螺旋结构是蛋白质的固有特性,它被组织成圆盘。随着时间的推移,RNA会附着在生长的杆状细胞上。TMV基因组RNA折叠成二级结构的规律性,按照壳对称性重复,有助于在指定位置形成所需的壳蛋白构象,从而显著提高组装效率。
有趣的是,自组装机制协调病毒形态,它只依赖于能量驱动的物理力,与遗传学或生物学并没有直接的联系——病毒形态可以直接与物理定律相关联,因此我们可以将病毒组装视为一个物理问题,当然,这肯定比涉及点粒子和轨道的简单物理问题更复杂,这里还涉及到分子力和能量最小化的过程。
细胞和病毒都需要自我组装,这意味着冯·诺依曼方案的一部分需要映射到一组具体的规则中,这些规则不能与生命物质的自组织性质分离。
当同时考虑病毒壳和基因组时,病毒复制过程的扩展冯·诺依曼模型。在这里,病毒由φv定义,φv被包装在由给定数量的相同蛋白质Pv构成的闭合边界Cv中。一旦感染细胞,病毒信息便利用A和B构建壳蛋白和新的φv。病毒的组装不是受控的发育过程,而是通过自组装(虚线框)形成包含原始基因组拷贝的组装壳,这里也可能存在突变的版本(φ′,φ′′)。
这个模型与之前的版本有两个主要区别:存在一个由物理原则驱动的组织机制,该机制不包含在φ给出的“程序”中;另外由于突变,复制过程的结果可能包含不同的变体。
此外,由于病毒可能更复杂,并与细胞机制的三个组成部分(A、B、C)相互作用,甚至病毒本身也携带了分子机制的碎片,因此产生的相互作用可能远远不是简单的细胞与病毒的混合机制。这些结果表明,在某种程度上,我们可以将病毒视为具有与繁殖相关特殊能力的分子实体。
基因组的进化
在简单的生命形式中,基因组复杂性与基因组长度相关。存储在基因组中的信息内容需要更加紧凑,以便在有效复制的同时压缩所有必需的指令。
对于病毒,如果需要更复杂的决策集来感染宿主,完成复制、组装、移出或结合,则必定要求更长的基因组。当我们放松这种限制并允许基因组改变时,会发生什么呢?
在使用无细胞条件的转移实验中,人们观察到较短的RNA基因组的进化,其中由突变产生的较短 Qβ分子,由于更短和复制更快而获得了适应性优势。
针对这个问题,利用Qβ噬菌体,Spiegelman为RNA病毒在无细胞环境中的复制创造了条件。随着这一人工选择实验的进行,Spiegelman发现,在每一轮选择之后,获得的序列越来越短。
原始基因组为ν∼4500个核苷酸,游离核苷酸与复制RNA链所需的Qβ复制酶一起放置在试管中。由于没有细胞存在,Qβ基因组中不需要与复制酶结合的任何部分都变得多余,在实验结束时,最终产生的链只有ν∼200个核苷酸,完全不能感染细胞。
这个实验充分说明了选择的力量,选择带来最快的生存:越短越好。除了速度快(因此长度短)之外,没有其他特征在起作用。这实际上对应于最简单的标准复制竞争模型。
更进一步的,随着RNA变短,病毒的感染性也降低了,在某种程度上,大多数序列根本无法感染其原始宿主细胞。一旦从宿主细胞环境中解放出来,与感染相关的病毒生命周期所需的所有元素都将被视为无用而轻易地被移除——这意味着没有细胞背景,就不会有感染。
模糊的边界
冯·诺依曼的逻辑模型捕捉到了自治实体完成周期性复制所需的真正关键的因素。计算机理论和分子生物学的吻合可能不是偶然的:也许自我复制生命的逻辑只有一种逻辑形式。
生命是什么?病毒是活的嘛?回答这个问题可能并不如我们想象一般的容易。正如我们已经讨论过的,只要存在给定的细胞环境,病毒就可以自我复制。但是,病毒通常被认为是无生命的,因为它们缺乏维持细胞结构所需的代谢活动。
而另一方面,活细胞还包括潜在的休眠状态,尽管这种状态下细胞被认为是活的,但其惰性不亚于宿主外的病毒——在这些休眠系统中,在很长一段时间内,细胞都不会生长或可检测到的新陈代谢。在这些休眠阶段里,细胞还活着吗?
人们可以很容易地得出结论:病毒是非自主的复制者,而细胞则具有完全的自主权。自主权的差别可以区分病毒和细胞。但仔细分析,便会对这一观点提出质疑。
也许进化的“自私”方面被过分强调了——有机体通常被认为是自私的。然而,在基因和蛋白质的大分子水平上,进化的“合作”方面更为明显,并平衡了这种以自我为中心的“自私”倾向。
细胞是一个巨大的协同系统,数千个基因/蛋白质共同发挥作用,这些蛋白质必须以一种整合的方式一起发挥作用,才能产生功能细胞所需要的许多分子。而大分子并不知道它们是否与其他基因和基因产物(如蛋白质)协同或竞争地发挥作用。
在功能细胞和生命的起源中,基因和蛋白质之间的合作行为有很多例子,不论是“自私”还是”合作“,都必须被视为正常进化的一部分。
Koonin和Starokadomskyy为我们提供了一个有趣的三维空间:
纵轴表达了自私-合作程度:较低的值与合作复制相关;更多的寄生复制占据上半部分。第二个轴校准不同的自主程度;第三个轴引入了为完成复制或修改所需的资源数量。尽管三个轴都是连续的,但实际已知的类型似乎聚集在不同的子集中。
这里共有5组聚类。自私-合作维度上下两部分可以分别划分出2个自私系统和3个合作系统。横轴自治维度则可以区分出3个层次的自治。
可以将两个基本类定义为寄生类和协作类。
在这里,第一类包括一些明显的成员,如生长并最终破坏宿主的裂解病毒(Lytic Viruses),以及在宿主基因组内传播的其他病毒——如逆转录转座子(Retrotransposons)。在另一类中,一方面,质粒(Plasmids)强烈依赖于宿主的复制周期,可以为宿主提供优势,从而充当合作者。另一方面,染色体(Chromosomes)是细胞类的复制子,它编码的是一个超越纯复制功能的完整序列,并且在自主轴上明显分离。
考虑第三个资源轴之后,也可以分离出两个大类:第一组包括复杂的复制子——它们可以生成(或导入)全部/部分资源,正如人们所期望的那样,可以从类似细胞的实体中获得这些资源。第二个广义类则封装了那些缺乏这些特性的简单复制子,这些特性对应于类病毒的寄生实体。也就是说,第三个轴用来衡量不同复制子的资源自主性。
但这里也有特例。比如许多明显符合细胞类的生命形式也需要一个细胞或多细胞的宿主,从中提取能量和资源——这种让界限变得模糊的一个例子是,生活在宿主细胞细胞质内的内共生细菌,它们的复制和生存完全依赖于宿主细胞。
另一个极端的另一个例子是噬菌体,这是一类特殊的大型噬菌体,感染聚球藻属和原绿球藻属的海洋蓝藻,其基因组中包含了这些细菌和植物叶绿体使用的采光装置有关的关键基因。
这个分类方法中最重要的“局外人”是“非生产者”——它们携带了非常大的基因组编码酶和其它影响细胞代谢和生物合成途径的关键分子。这些大型的非生产者,尤其是以奇怪的拟菌病毒科(Mimiviridae)家族成员作为代表,通过将自己置于模糊的中间位置来挑战我们的二元分类体系。
1992年,利兹大学和马赛大学的微生物学家描述了一种感染,他们认为是一种微小的革兰氏阳性细菌感染了Acanthamoeba polyphaga,并将其命名为Bradfordcoccus。十年后,Claverie及其同事在《科学》杂志上发表了一篇惊人的论文,结论是这种微小的细菌实际上是一种前所未有的巨型病毒,它属于David Baltimore的Group I——即具有双链的ds DNA基因组。这种病毒名为Mimivirus,是同类病毒中的第一种。
这是一系列发现中的第一次,在这些发现中,发现并表征了越来越大的病毒,它们都具有基因组特性和保守基因。迄今为止,加入该家族的最大病毒是巨大的潘多拉病毒——其基因组大小与某些真核寄生物相似。正如拟菌病毒(Minmivirus)一样,潘多拉病毒在正式被定性为病毒之前也是已知的。
2008年,德国临床微生物学家Patrick Scheid研究了一位患有眼部角膜炎的女性隐形眼镜中的变形虫,他描述了一种被称为内吞生物(endocytobionts)的东西,即大约1μm大小的颗粒,生活在变形虫体内——所有这些巨型病毒都感染单细胞变形虫。
这些巨型病毒与任何其他病毒都非常不同,它们具有细胞有机体的典型特征:有自己的寄生物。
巨型病毒的生命周期。这里显示了拟态棘阿米巴卡氏杆菌在12小时的周期内涉及的几个明显的阶段,这些阶段由从电子显微镜获得的快照来说明。
迄今为止,已经描述了两类拟菌病毒(Mimivirus)宿主的分子寄生虫。
首先是卫星噬病毒体(Sputnik Virophage),其名称类似于感染细菌的噬菌体。卫星噬病毒体有一个双链DNA基因组——比一些真正的病毒都大,约18kb,编码约20种蛋白质。
其次,作为“细胞”,Mimivirus基因组也携带转座因子,在这种情况下被命名为转座病毒。转座病毒是约7kb的线性DNA元件,编码自身会动员约7个蛋白质编码基因。其中一些基因与卫星噬病毒体的基因同源。
以上如此复杂的程度,更接近细胞机制,而不是病毒“软件”的标准模型,这很令人费解。噬病毒体(Virophage)的概念,深刻地挑战了病毒软件借助硬件自我复制的简单图景。
突变适应性
尽管大多数病毒与计算机程序有着惊人的相似之处,但这种类比却总有失效的情况——除非我们将其放在一个业已存在的细胞机器中,该机器被劫持以用于病毒复制,否则这些小东西所携带的“寄生软件”没有任何意义。
与其他生物学一样,病毒的生命周期只有在进化的语境下才有意义。
进化需要变异和选择,即使在处理人造计算机病毒时也是如此。变异不是软件的一个组成部分。另一方面从定义上讲,程序甚至需要保护其较小的组件不出错。
与此相反,病毒可能需要面对宿主有机体的反击,因此病毒与其宿主之间的军备竞赛随之而来。这种军备竞赛的一个特别显著的结果是,不稳定被推到了极致。
信息和计算具有定义生命实体特征的重要作用——由于其固有的简单性,以及由于其强烈依赖宿主分子机制进行复制,因而病毒是独特的动力系统。
RNA病毒的一个特别重要的特征,是其高突变率,远远高于细胞系统显示的任何其它突变率,这是由于缺乏RNA依赖性RNA聚合酶(RNA-dependent RNA polymerase)相关的修复机制。
这种酶催化了RNA模板的RNA复制,每个核苷酸和复制周期的突变率在10^−4~10^−5。而在基于DNA的系统中,如细胞中,DNA聚合过程通常与校对和修复机制相关,该机制可有效地将突变率降低到至少低4-6个数量级的10^−8~10^−11,确保受控的复制周期。
由于高突变会带来表型错误的负担,这意味着许多由此产生的病毒基因组可能包含有害变化,导致无法存活的病毒颗粒。
然而,突变是进化的重要组成部分,因为遗传变异性是自然选择使种群适应环境的燃料。从这个意义上说,为了跟上RNA病毒生存的不断变化的环境条件,容易出错的聚合酶可以被视为是积极的影响。
然而,请记住,突变是一个随机过程,与所产生的突变在后代中可能具有的价值无关,突变本身是一把双刃剑:每个基因组中的突变太多可能只会导致适应水平太低,以至于它们不再与成功的复制兼容。
因此,突变率,就像其他任何特征一样,本身已经进化,并针对RNA病毒的生活方式进行了优化:只能足够高,但不能超越某个极限。对于RNA病毒,异质群体导致所谓的病毒准种(viral quasi-species)——一个病毒准种可以看作是一个由主序列(master sequence)控制的基因组群,主序列可能与群体的平均序列一致,即一致序列。
准种结构对RNA病毒的生物学有许多影响。最重要的是,群体存储了一个对应对环境不确定性至关重要的表型库:在病毒感染和发病机制的背景下,这包括与免疫相关的宿主反应,也包括组织特异性或对药物的抗性等其他反应。
病毒种群准种性质的一个特别出乎意料的后果与信息密切相关——这被称为误差突变问题(error catastrophe Problem),与物理学中的相变密切相关。
它最初是在变异和复制分子(或实体)的抽象群体中定义的,一般称为复制子,竞争有限的资源。更准确地说,大量字符串(基因组或聚合物)种群中的每个序列,都可以以某种速率复制。
复制率取决于序列,序列和增长率之间的关系是复杂的。此外,我们假设每次链复制时,突变都可能以给定的速率μ发生。Eigen预测,突变对与稳定信息一致的信息量(在基因组长度方面,ν)施加了限制。
具体而言,研究表明存在一个临界突变率 μc∼1/ν,高于这个值达尔文进化论就不会发生。
因此,理论工作给出了一个关键预测:对于高于临界值,即μ>μc的突变,将无法观察到任何可行的序列。在这种情况下,将观察到随机漂移。相反,在低于阈值的情况下,选择会起作用,信息可以以稳定的方式保持。
每个位点突变率与基因组大小的比例定律。实线用于突出通过误差阈值理论预测的连接突变率 μ 和基因组长度 ν 的反比定律。
可用信息证实了这种反向关系,如上图所示。突变率随着基因组长度呈反幂律下降。RNA病毒表现出最高的感染率,比DNA病毒大几个数量级,类病毒显著地说明了这一点。
菊花褪绿斑驳病毒 (CChMoVd),具有 399 个核苷酸的基因组,二级结构如图。CChMoVd是非常小的病毒,配备有最小的非蛋白质编码基因组,可以感染植物并利用其RNA聚合酶进行复制。随着对较大基因组的分析,突变率将迅速下降。
自然,这带出了两个新的问题:这种关系的起源是什么?病毒突变率的限制(如果有)是什么?
相变
由于高突变率,RNA 病毒种群高度异质,因此可以定义一系列突变相关序列。因而存在一个突变谱——这不仅仅是一组简单的独立突变序列。
病毒准种涉及一系列可以帮助克服选择压力的变体。Eigen-Schuster模型为这些突变的行为提供了一种数学分析的方法。
错误突变相变,由其最简单的形式来说明。这里以突变率μ和fm为关键参数绘制了与该模型相关的两个相——准种和灭绝。这些相由临界线μc(fm,f)分隔。一个涉及两种状态(黑色和白色分别表示主位点和非主位点)的空间离散模型提供了参数过渡的图形化展示。
该模型定义了分隔两个定义明确的相的边界。在准种阶段(灰色区域),将出现主基因组,以及突变体的尾部。一旦越过边界,所有主序列就会消失(尽管它们的复制效率更高)。该模型可以映射为离散晶格模型,其中突变和复制事件可以视为反应。
随着突变率的增加,主位点的数量减少了,但主位点的域也经历了复杂的波动——这些波动只不过是相变物理学中已知的波动。可以观察到许多不同大小的复杂集群。
实际上,准种模型可以用一种经典的相变模型来表达,即所谓的伊辛(Ising)模型。 Ising模型成功地用于预测当温度T增加到超过临界阈值Tc时铁磁转变的行为。
一旦T>Tc,磁化强度就会消失,并且在接近Tc时观察到临界波动,这是相互作用有序与热无序之间冲突的结果。在病毒学种,突变也是无序的来源,而准确的复制负责秩序(稳定的主种群)。
在这里,我们也发现了病毒动力学与物质特性及其相之间的惊人联系。
最后,我们回到上一节最后遗留的问题,从数学上推导突变率随着基因组长度呈反幂律相关性。
用μ定义每个基因组的突变率。突变的准确定义需要考虑序列长度为ν的位点。如果μb是每个位点的突变率,那么不难看出它与μ有关:
μ = 1 − (1 − μb) ^ ν
此处 p = (1 − μb) ^ ν 是没有任何位点发生突变的概率;1−p是某个位点发生突变的概率。由于μb通常很小,我们可以使用近似值:
μ ≈ 1− e^−μbν ≈ 1− μbν
如果我们回到先前的突变率临界条件并将其写成μb的函数,我们有
其中α>0是一个常数。这一表达实际上对应于观察到的突变率的反向衰减,作为其基因组大小的倒数。特别的是,RNA病毒已被证明遵循这一逆定律,因此与Eigen的理论一致。
我们可以理解,该模型非常简单,但动态复杂性却非常丰富,更重要的是,它做出了明确的预测:自适应系统可以容忍的无序率有一个上限。
如今,我们知道RNA病毒生活在灾难的边缘——利用了临界点有序和无序的混合特征。这一结果所带来的一个有趣的结果是,由于误差阈值是一个相变点,它定义了一个锐利的边界,将两个相分隔开来——其中之一包含了主序列的丢失。
一旦发生这种情况,就会失去准种结构,并且不会发生达尔文适应进化。因此,该理论预测,即使微小的超过μc的突变率,也会导致物种灭绝。
使用诱变药物的实验测试结果与该预测一致,这表明了对抗病毒种群的潜在途径(尤其是与其他疗法相结合)可能会增加突变。
这为如何利用相变理论以非标准方式对抗疾病提供了一个很好的例子。
本文来自微信公众号:SerendipityCamp(ID:SerendipityCamp),作者:徐鸿鹄