旅鼠的启示：从进化稳定策略到合作秩序的扩张-虎嗅网

本文来自微信公众号：经济观察报观察家（ID： eeoobserver），作者：姚广孝，头图来自：东方IC

旅鼠之谜

自然界有一种可爱的动物叫做“旅鼠”（lemming）。它们长得很像大家经常见到的宠物仓鼠，常年出没在地球高寒地带，身上覆盖着一层厚厚的御寒毛发，平均块头只有15厘米左右。中世纪时，斯堪的纳维亚半岛的农民把这种啮齿类动物叫做“天鼠”，这是因为它们的数量会发生神秘的周期性起伏，有的年份里看不到几只，有的年份地里又会一夜之间凭空冒出漫山遍野的旅鼠，仿佛“从天而降”一样。这种数量起伏的完整周期一般会持续三到四年。

为什么旅鼠的种群数量会发生周期性的变化呢？这得从两方面说起。首先，旅鼠的繁殖能力非常惊人，终其一生都在拼命生育。它们通常一个月就会达到性成熟，之后每五个星期就能产下一窝崽，每一窝都有8只左右。根据测算，如果食物和地盘充足，只要一年的时间，一个旅鼠种群的成员数量就会直接翻10倍。另一方面，旅鼠所分布的挪威、西伯利亚等高纬度地区植被有限，食物对旅鼠来说是一种极度稀缺的资源，数量庞大而又饥肠辘辘的旅鼠们会刨开雪地冻土，把草根也啃得一干二净。暴涨的数量加上稀缺的资源，导致种群迅速陷入饥荒，没有东西吃的旅鼠成批饿死，然后种群的数量又会跌回之前的状态。

对于生活在极地附近的动物来说，种群数量在丰年和荒年里发生波动其实很正常，但是像旅鼠波动得如此剧烈的就显得不合常理了。为什么这么说呢？因为在动物界，其实广泛存在着各种调控种群数量的“计划生育”机制，它们的存在就是为了避免出现旅鼠成批饿死的这种情况。比方说，对于大部分鸟类而言，每一窝孵几只蛋是一个需要精打细算的事情，生得少了不利于自己的基因在种群内传播，可如果生育数量超过了食物链承载的极限，生下来的雏鸟也只能饿死，平白消耗了有限的生育资源。于是一些鸟类发展出了独特的信号识别系统，比如欧椋鸟会在繁殖期仔细聆听栖息地范围内同类的鸣叫声，如果声音很大就表明种群数量较高，生育需要谨慎；如果声音很小就意味着可以放心生育。这种信号反馈机制写在了欧椋鸟的基因里，让它的种群数量可以长期维持在一个正常范围之内。

所以问题来了，旅鼠这个物种到底怎么了？

进化稳定策略

为了回答这个问题，首先需要了解一个叫做“进化稳定策略”（Evolutionarily Stable Strategy）的概念，它由理论生物学家梅纳德·史密斯（Maynard Smith）提出，是进化博弈论领域的基础。简单来说，如果有这么一种生存策略，一个种群的大部分成员都采用它，而且采用这个策略而非其他策略的生物个体，能够更好地适应自己种群的当前状态，那么它就是进化上的稳定策略。

我们知道，进化是生物一代代不断适应自然环境的过程。自然环境既包含捕食者和食物等外部生存条件，也包含源于自己同类的种群内竞争压力。大多数人对前者已经有了足够的认识，而后者往往更容易被研究者忽略。史密斯提出进化稳定策略这个概念，正是想要描述一种能够帮助个体成功应对种群内部重复博弈竞争压力的最佳策略。

举个例子，博弈论研究里经典的“针锋相对”策略就是很多生物种群内的近似进化稳定策略（阿克塞尔罗德在《合作的进化》里使用的概念是“集体稳定策略”，这个概念是对“进化稳定策略”的进一步修正，但在本文涉及到进化稳定策略的内容里两者是可以互换的）。在多轮次的博弈中，这种策略类型会首先假定对方是好人并在初次博弈中向对方伸出合作之手，如果对方合作，自己下一轮博弈也会合作；一旦对方背叛，自己下一轮就会还击；可对方只要在下一轮里痛改前非恢复合作，自己在下下轮里依然会不计前嫌地和对方继续合作。一个种群中大部分个体都是这种类型，那么它们之间就会开展持续的合作，不断形成双赢；假设这时有少量恶意策略个体入侵了种群并展开欺骗，尽管针锋相对策略个体会因此遭受损失，但恶意策略只是日常遇到对手中的少数，大部分情况下针锋相对策略还是能和其他同类继续双赢，所以总体损失并不大；而恶意策略个体则因为欺骗“针锋相对”而不停地遭到整个种群大部分对手的报复，很快就会被淘汰。可以说，如果大部分成员都是针锋相对类型，那么这个种群既可以很好地适应大自然，也能很好地处理内部成员之间的关系。

然而不幸的是，“永远背叛”同样也能成为进化稳定策略。试想一个种群里的所有成员都相互伤害、绝不合作，这时如果有哪个个体主动与陌生人合作就无异于自找不痛快；相反，维持互害关系虽然同样会给自己造成损失，但这种损失总比单方面信任对方然后被对方欺骗来得少，所以它依然是种群个体在当前状态下自保的最佳策略。永远背叛策略占优的种群适应大自然的能力是非常糟糕的，它很容易被相同生态位上的其他能够建立成员间合作关系的竞争物种所淘汰。唯一能破解这个困局的办法，就是种群里有足够多的成员同时将策略变为善良的“针锋相对”，但对于一个已经习惯相互欺骗的群体而言，他们两两之间达成互信都已经困难重重，骤然达成一个更广泛的多人合作机制又有多大的可能性呢？更可能出现的情况是，就算一些个体痛改前非，单方面展现出合作诚意，在其他依然习惯互害的个体眼里，这只不过增大了从天真的对手身上骗取更多利益的预期，反过来为坚持永远背叛策略提供了更坚实的理由。

上面两个截然相反的例子透露出了进化稳定策略的一个重要性质：如果某个进化稳定策略在种群内部获得了统治地位，那么其他策略再想要入侵这个种群就会变得非常困难，因为进化稳定策略就是个体在种群当前状态下的最佳选择，任何妄图采取其他策略的个体只能让自己的生存境况恶化。

至此，我们就不难理解旅鼠种群的困境了。在旅鼠种群里，“拼命生育”就是一种进化稳定策略，而拼命生育就意味着“永远背叛”，因为极地食物资源有限，本来只有所有旅鼠节制生育、节用资源，大家的后代才能都活下来；但是假设哪只旅鼠真的主动控制后代数量，其他同类受到繁殖欲望的驱使又没这么做，那么这种“计划生育”基因在种群内的比例就会越来越低而趋向灭绝，最后只能是那些拼命生育、置资源总量有限而不顾的策略笑到最后。尽管这个策略会伤害到旅鼠种群的整体利益，但它却能够胜过节制生育的策略，将自己快速传播到整个种群中。旅鼠这种相貌可爱的动物竟然生活在这样一个同类互害程度远超其他物种的黑暗丛林里，着实让人唏嘘不已。

旅鼠的例子清晰地阐明了一个道理：某个种群当前的进化稳定策略绝对不等于整个种群应该采取的“最优策略”。进化稳定策略保证的是个体在此时此刻的生存利益而不是种群的整体利益，如果某种策略能够兼顾两者，那只是由于种群利益恰好与个体利益一致而已。正因为如此，《自私的基因》的作者理查德·道金斯（Richard Dawkins）认为“进化稳定策略”有可能是自达尔文以来进化论理论上最重要的发展之一，因为它真正地将基因的自利逻辑贯彻到底：生物是基因的载体，基因所编码的生存策略只用保证更好地复制和传播自己就行了，种群的整体利益根本不在基因的考虑范围之内。的确，大多数情况下，如果某个生物种群的进化稳定策略恰好也能提升整个种群适应自然的能力，那么自然选择肯定也会更偏好它。但仍然会存在一些情况，一个糟糕的进化稳定策略会为了一己之私将整个种群推向周期性的崩溃甚至是灭绝。

抱团的力量

旅鼠这样的永远背叛型进化稳定策略，很容易让人想到经典的囚徒困境，但前者的内涵其实远远超出了后者，前者代表了一种更普遍意义上的“博弈平衡状态”。这个状态可以由合作型策略达成，也可以由背叛型策略达成，还可以由混合型策略达成，无论哪种，博弈的个体都会发现自己陷入了亲手参与制造的“泥沼”：自己一方面成为了塑造种群环境的一员，另一方面也被种群环境所圈定，无法挣脱。类似的现象我们在经济制度形成、文化习俗变迁等很多领域都能观察到，这表明“进化稳定策略”这个概念并不仅仅适用于生物学研究，它其实是一个普遍存在的规律。包括阿克塞尔罗德在内的众多科学家对这个规律进行了抽象和一般化，在数学上找到了挣脱“永远背叛”泥沼的关键，这个关键就是两个字：抱团。

前面旅鼠的例子已经告诉我们，任何个体试图反抗“永远背叛”策略流行的大环境都是毫无意义的。但如果是一群相互合作的个体抱团闯入，情况就变得不一样了。这群合作的个体虽然在与原来的群体成员博弈时会遭受损失，但小集体成员彼此之间的合作会给自身带来收益，只要这个收益足够大就可以弥补背叛的损失，让他们能够有足够的实力抵御恶劣环境的伤害。

显然，收益是否够抵消损失，取决于这个抱团的小集体有多少成员。也就是说，只要小集体的规模达到了某个最低线，这个小集体就能够成功地在永远背叛策略流行的大环境中生存下来。那么这条线到底是多少呢？尽管具体的数字依赖每一轮博弈里合作和背叛行为分别可以获得的收益大小，但总体来说，最低线其实可以很低，低到足以违背大部分人的直觉判断。

阿克塞尔罗德在《合作的进化》一书中，对这个能让小集体成功存活的最小成员规模进行了测算。首先假定在一轮典型的囚徒困境博弈中，博弈双方选择合作，每个人可以得3分；一方合作一方背叛，背叛者拿5分，合作者只能拿0分；双方均选择背叛，每个人只能拿1分。那么根据上面的分值来计算，如果一个外来的针锋相对型策略小集体想要在永久背叛的大群体里站稳脚跟，小集体的人数最少只需要在入侵后占整个大群体人数的5%就可以。

不仅如此，这个5%的比例还可以继续下降。我们知道，预期对于博弈结果会产生重大影响。最初双方从合作中的收益往往是最高的，随着博弈接近结束，博弈双方对于合作的预期也会越来越低，这一方面造成了相互背叛可能性的升高，另一方面会让每一轮合作的收益下降，这就让重复博弈的收益也出现了经济学上常见的边际递减效应。边际递减的速度取决于“未来”有多远。博弈次数越多，博弈的结束越显得遥不可及，双方继续维持合作的意愿也就越高，博弈收益的边际递减速度就会越慢，这也越有利于合作策略的生存。阿克塞尔罗德发现，如果将博弈次数增加到200次，那么针锋相对策略小集体的最小成员人数在永久背叛大群体中的占比甚至可以从5%下降到1‰。

这些研究给我们带来了什么启示呢？

首先，一个永远背叛成为进化稳定策略的群体，想要自发地跳出这个困境是很难的，这一方面是因为个人势单力薄的反抗等于自取灭亡，另一方面也是由于长期相互背叛的个体之间实在是难以建立起信任：如果没有过合作的先例，你根本不知道某个宣称要和你一起对抗大环境的人是真想和你合作，还是只想通过单方背叛拿到更高的收益而哄骗你。

反过来说，如果永远背叛的群体想要维持现状，那它需要做的事情就是避免被外部有合作习惯的小集体入侵，同时防止群体内部的某些个体抱团。换句话说，必须让群体长期处于一盘散沙的状态，不允许成员自发组成小集团。

紧接上一条，打破地理隔离、实现大规模的成员流动也是永远背叛策略集体维持现状的必要条件。这是因为封闭的地理单元里博弈个体数量较少，很容易由于自然突变等原因迅速出现一批互信的成员建立起合作关系并发展壮大，只有大规模的外来成员迁入，才能淹没小地理单元里自发出现的合作关系。旅鼠之所以一直处于永远背叛状态，一个很大的原因就在于这个物种过于强大的迁徙能力：每当一个地区被挤得水泄不通，多出的旅鼠们就会马上迁徙到邻近区域，把邻近区域也拖进拼命生育的军备竞赛中，这样就很难留出足够的时间和空间让一小群旅鼠演化出节制生育的基因。

最后，永远背叛的群体看似强大，但实际上是很容易被入侵的。一个非常低比例的合作策略小集体就能够在这样的群体里扎根下来，只要时间足够，它们就能通过自然选择之手逐步壮大，最终将合作的秩序扩张到这个原本黑暗的角落里。

合作秩序的扩张

既然互害的群体无法避免被抱团的合作策略个体入侵，那么反过来，合作的群体能否避免被欺骗策略组队入侵呢？答案是肯定的，但这样的合作群体需要满足两个条件。

第一，合作策略本身必须具有睚眦必报的特点，也就是说，合作策略的个体一旦在某轮博弈里被骗，那么它下次就一定会报复回去。针锋相对策略就有这个特点，而在第二次遭到背叛后才报复回去的“两报还一报”策略无疑太过宽容了，由它组成的群体很容易遭到那种喜欢试探一次后再合作的恶意策略入侵，因此它并不如针锋相对策略稳健。

第二个条件是博弈收益的边际递减速度必须大于等于某个临界值，或者说，博弈的时间要足够长。以各种合作策略中最稳健的针锋相对策略为例，假设相互合作、单方背叛、被单方背叛和相互背叛行为所获得的分值依然是3分、5分、0分和1分，那么只要当每一轮博弈的收益值至少是前一轮收益的2/3时，恶意策略无论是单独还是抱团作为小集体前来，这个合作群体都能阻止它们的入侵。

善良策略只要抱团就能入侵永远背叛的群体，而恶意策略却无法抱团入侵满足上面两个条件的善良策略群体，这是善良策略相比于永远背叛策略的绝对优势，它给我们描绘了一副基调光明的图画：永远背叛的进化稳定策略虽然存在，但善良的合作策略一方面能够集体入侵这种群体，另一方面又能保护自己免遭对方的入侵，使得合作秩序总是处于一种扩张的态势下，这也许就是大自然隐藏在弱肉强食之后更加美好的真相吧。