--“囚徒困境”博弈的启示
榕城老应
4。善良的智慧
博弈理论中的无名氏定理毕竟只是证明了:无穷多种合作的均衡可以在重复囚犯困境博弈中,由理性自利的人作出来。但进入这个合作均衡的第一步必须至少有一方能够忍让牺牲才有可能开始。那么在现实中这合作真的能够做到吗?低等的生物和分子水平的个体并没有多少智力,它们能够出现合作吗?
70年代密知根大学教授Robert Axelrod做一个实验,他邀请各个大学心理学,经济学,政治学,数学和社会学专家,在囚徒困境的游戏规则下进行电脑程序锦标赛。两两程序捉对进行150次重复博弈。比赛结果发现,在15个程序中前8名的优胜者都是善良的,即从不首先背叛,而其他则都不是。在所有善良的程序中,得分最低的是最不宽容的冷酷策略,一但受背叛绝不谅解。
小人都不发达,善良和宽容都得到了回报。这真是善有善报呀!冠军为多伦多大学心理学教授Anatol Rapoport得到。他的程序十分简单,第一次合作,以后就照抄上一回合对手的策略。这就是TFT呀!Axelrod十分惊异这个结果,又组织了一次比赛。结果还是它得标。单纯的善良容易受到欺负,进取十足的过于咄咄逼人,老谋深算精于分析都不如这个简单的TFT能够因合作而受益。TFT与每个对手对阵,都没胜过对方,最好的也不过是平局,但它所有的对阵的收益加起来总分最高。不求胜过对方,结果活得最滋润,这才是真正的智慧所在!
这个电脑仿真实验给人们很多启示。
首先,无论是人际关系,公司竞争,生物生存的博弈,真正的目的不是胜过对方而应该是自身的总收益。因此自私明智的策略应该是最大地促进合作避免背叛,TFT没有胜过任何对手但得了与所有人对阵后最高的积分。
其次,TFT的策略以合作开始是善意的,受侵犯会报复是尊严的,对方悔改就原谅是宽容的,程序简单是明朗的。这善意,尊严,宽容和明朗的特点也是人们熟知的最好的处世之道。
这个以合作为开始以后照抄对方行为的TFT策略是如此的简单,不需要多么高级的智力就能实现,任何生物以致分子团都能于生俱有。这就解释了为什么在自然界合作能够如此广泛地存在。
×-×-×-×-×
“等等!你前面推理说的是:TFT这么又拉又打的,弄得猴精都要跟你合作。后面实验说的是:TFT与其他各种死不改悔的策略过招,结果积分最高。这哪儿跟哪儿呀,怎么闹到一块了?”
“后面实验的结果说明:TFT和其他策略竞争时有生存的优势。而它是靠合作的成果来取胜的。前面的推理是说:要是对手足够聪明,经过一番推理后,他会选与你合作。要是对手不够聪明或者没有智力,那采用其他策略时就会遭到实验一样的结果,终将被自然淘汰。聪明的人在头脑里过了一遍各种可能,是不需要碰了壁才想明白的。博弈的均衡是自然淘汰后的结果,或是聪明人能想明白的状态。”
“那么,像TFT和冷酷策略,要宣示出来让对手知道吗?”
“不说出来,策略的优势表现在博弈的结果上。就像上面实验一样。但这是血淋淋的战后统计结果。宣示出来,策略的优势表现在影响对方聪明人的决策上,防止误判,达到不战而屈人之兵的结果。”
×-×-×-×-×
这里几个最典型策略的对阵情形还是很容易想象的。这也是人们在生活中经常遇到的。
一律背叛好战的恶人AllD与同类交手则互斗,双方都得了次差的收益。与TFT和冷酷策略(Grim)对阵也基本如此。遇上对方怀有善意伸手合作的策略都能占了便宜,收获大了。对方善意越多,恶人得分越多。这叫姑息养奸。
非常善良一味合作的AllC与同类,TFT和Grim相遇时都能合作,各得次好的收益。遇上在无视你的善意的AllD和其他比较狡猾的策略,只能被予取予夺,对方得到最高,自己落得最惨下场。这是舍身饲虎,求仁得仁?
Grim,与TFT或单纯的AllC相处还好,遇上其他不太安分的策略,最终多会互相掐上了。这家伙苦大仇深,心眼较小。眦仇必报,没完没了,自己也不好过。
TFT比Grim好一点,遇上对方即使是不安分但尚能见风使舵的还会走向合作共赢。唯宽可以容人,大家都好。
其他更狡猾复杂的策略至多在AllC或比较善良的策略间讨点便宜。对AllD,TFT,Grim及其他比较狠辣的策略得不偿失。
当然Grim和TFT,严格地以牙还牙,还是显得过于狭隘。双方都持有这种策略在如电脑一样毫不差错的对局中都还能合作下去。但在现实世界中偶而的错失和误解是难免的,一个误会就引起惩罚,惩罚带来报复,报复又受反击,这样以牙还牙的一直互斗下去。现代的战争和人事无谓的争斗大多是如此引起的。为此各种修正的TFT应运而生,比如说受到对方背叛时不一定非要报复,有时偶尔再次伸手合作,具有额外的宽容以便在误会等等具有噪音环境的也能稳定地走向合作。
×-×-×-×-×
Axelrod的电脑仿真实验可以解释促进合作的TFT策略比其他在生存之道上更有优势。但是这电脑比赛是一对一的交往,而在生物竞争中一个个体是生活在一群同类和异类的环境中,一个人可能落入一个充满恶意的群体中。TFT的最初善意在一对一的比赛中遇上了AllD白眼狼只是在第一下吃了点亏,以后重复就打平了。但你如果落入一群白眼狼中,每遇一个新的白眼狼都吃一个亏,累积起来伤痕累累,还能活下去吗?
这个比赛也没有解释这个策略是否可能在进化中产生。没解释如果你身处一个全是只顾眼前不愿合作的团体,有没有可能用TFT的思想影响转变他们。
进化中能够产生的新种都是微小的变异偶然在原有的群体中发生。它必须比原来个体更有适应环境的优势才可能得以在竞争中生存发展。也就是说新的策略,如果它可以具有更多的收益的优势就可以侵入原有的群体,它也就可以在进化中产生。
在一个都习惯于一种思想的团体,如果一种新的思想能够影响几个人,从而使得他们的收益大于守旧的人,那么这种新思想就能在团体中站住脚。不然的话,这个群体中的原来策略或者团体中的旧思想就会扼杀新思想。这样的旧思想就称为“进化稳定策略(Evolutionarily Stable Strategy)”,简称ESS。
ESS概念是John Maynard Smith在1972年首先引入的。一个群体如果都采用某一ESS策略,那么采用任何一个其他策略少量个体都不能入侵它。也就是说,自然选择的力量会消灭群体中ESS策略的变种。这个概念起先用在博弈论,行为生态学,经济学上,后来广泛地被用到人类学,进化心理学,哲学和政治学上。Maynard Smith因此在1999年得了在基础研究中荣誉不下于诺贝尔奖的Crafood奖。
探求自然界合作之谜在上个世纪八十年代就开始有很多的研究。在囚徒困境的环境下,对于持有AllD和TFT策略的物种都是ESS的。也就是说,当着两种物种混在一起,只有TFT占有足够多的数量,自然选择的压力才会让TFT占据优势,从而一统天下。否则,AllD将消灭TFT。
这个结果其实十分悲观。须知进化都是从简单开始的,最简单的策略是毫无记忆不知变通的AllD和AllC。在全是AllC的群体,它们都是非常善良总是合作,个个都有很好的收益,这就像在伊甸园。但是如果偶然变异产生了一个AllD的恶魔,或者来自外面的入侵。这个总是不合作的AllD,在遇见AllC时占尽便宜得到更多的收益,所以在进化中具有竞争优势,产生出更多的后代进而侵吞了AllC整个的世界。这个需要拥有记忆比较复杂一点的TFT在变异中产生时,必须面对着全是恶魔的AllD地狱世界,按照上面ESS的结果是无法生存下去的。
(待续)