--“囚徒困境”博弈的启示
榕城老应
3。胡萝卜加大棒
“冷酷策略”能够让极其精明自私的对手从自己的利益出发自觉地放弃眼前短期利益而走向合作,用博弈的逻辑证明了一个重要的手段:在重复博弈中让对方了解自己可信的处事原则就会影响他的决策。
“冷酷策略”是大棒子的政策,有阻吓作用,但一旦开动两败俱伤,对方得到的教训是极其惨痛的,但施法者也赔上了,从此被仇恨蒙住了眼为复仇付出终生。对阵时万一遇上不开眼的马大哈或者纯粹误会,那就掐上了,确实过于冷酷,也不明智。“不教而诛,谓之虐”。既然让对方了解自己可信的处事原则就会影响他的决策,是不是罚过了给个出路,送根胡萝卜?
确实如此,这个触发策略的政策叫做“礼尚往来(Tit for Tat)”。你用“背叛”待我,下一回合我也回敬个“背叛”。待到你想通了送个“合作”来,下次我也给你“合作”。这个策略有时翻译得更有杀气点叫“以牙还牙”或者“一报还一报”,简写为“TFT”,其实含有宽恕的成分,远比“冷酷策略”要温柔的多。
TFT有威胁阻吓作用吗?这要细看。TFT有两个成分,一是“惩罚”,二是“宽恕”。如果把它分开陈述,什么时候使用“宽恕”要看我爽不爽,受阻吓的人当然要考虑最坏的情况,那“惩罚”的政策就有“冷酷策略”的功效。要是这两个成分捆绑在一起作为一个政策公布,那对方就有个投机的心理。要避免投机,一会儿“背叛”,一会儿“合作”钻政策中宽恕成分的空子,重复囚徒困境博弈必须满足 "2 R > T + S"这个条件,就是说用“背叛”对“合作”,占便宜和被占便宜的得益平均值小于共同合作的得益,不然投机分子就会反反复复玩这手来得益,反正被惩罚了挨打也不怎么疼。中国历史上许多部族时降时叛,最典型的是隋炀帝征高句丽,就是因为这个条件不能满足被钻了空子。读者可以自己来证明这个条件的作用。
为了让大家方便对照T,R,P,S的含义,我将囚徒困境的支付矩阵重新罗列如下。注意有T > R > P > S。
你 |
|
是不是有了这些触发策略以后就能做到合作?未必。触发策略是后发制人。它们可以是子博弈完美纳什均衡,也就是说它可以维持已有的合作局面,但不能开创这个局面。对于囚徒困境,无论是单次还是重复,谁先伸手合作,都有可能吃亏。考虑一下对方第一次就使出“背叛”不怎么友好的人,你无论是使用冷酷策略还是温柔些的TFT,到第二步就是用“背叛”来报复了。如果对方也不肯吃亏,那么以后双方就都是用“背叛”来对掐了。我方第一步用“合作”要比“背叛”来的吃亏。即使双方都有触发策略,要扭转对抗的局面,就必须有一方先做出牺牲才行。
这又给我们一个启示:重复囚徒困境博弈中必须至少有一方愿意牺牲才可能开始合作。
是不是愿意作牺牲高尚的一方一定要受损失呢?不一定。他只有在碰到有恶意的对方时,第一下被人占了便宜,以后就不会了。在触发策略启动后,随着交手次数的增加,这个平均收益与不作牺牲最好的对策的差别就会越来越小,交手足够多时以致可以忽略不计。但如果对方也是怀有善意,或者能够改恶从善从而走向合作,那就挣大了。冒一个小损失的风险而可能取得合作双赢的高尚人也是真正一个聪明的人。
所以说:自私一点精于算计的对手并不可怕,就怕你要合作的人不够聪明!
更精明的人有两个疑问:一是作为现实生活中的重复博弈虽然不知道什么时候结束但都是有限的。二是现在的收益中与以后的重要性是不同的,对金钱还讲个利息呢。考虑到这两点对上面的结论有什么影响?
不难看出这两点都使得长远的利益打了折扣,这要使得惩罚威胁的效果降低,合作的难度是要大些。 不是很难可以推算出精确的结果。假如下一次还会相遇的概率为p,现在的收益放到下一次的利息为r,记W =(1+r)/p-1,下一次可能的博弈收益V折现到现在的收益就是 V/(1+W)。用这个参数,可以算出当W<(R-P)/(T-R) 时冷酷策略才有威慑力。当 W<(2R-S-T)/(T-R) 时TFT的宽恕成分才不会被人有机可乘。注意到无利息无限重复博弈时 W=0,囚徒困境有 T>R>P>S,这时冷酷策略威慑力的条件自然满足,具有宽恕成分的TFT的有效条件变为 2R>T+S,这与我们前面陈述的一样。
这让我们看到有时人性阴暗的一面发生的原因。人们之所以可以从囚徒困境的悲剧中跳出来,是因为将来还会相遇,将来也很重要,可以用将来长远的利益来影响对手当前的策略选择。在当前的利益比将来重要的多时(r 较大),当将来相聚的机会不大或看不到将来时(p 较小),这导致对将来的折现率W较大,就是说当下的收益被更加看重。如果对反复无常的人报复的损失 2R-S-T 不大及背叛的诱惑 T-R很大,W<(2R-S-T)/(T-R) 就有可能不能满足,这意味着TFT的宽恕不足以挽回想背叛的人走回合作。如果双方合作与背叛单干的收益的差距 R-P 不大及占便宜与合作的差别 R-P 很大时,W<(R-P)/(T-R) 不满足意味着冷酷策略都无法阻止背叛。这在W比较大时就容易发生。这就是为什么在经济危机时公司的合作可能瓦解,国家之间容易发生战争,灾难之中朝不保夕时常见丑恶,高速转型期折现率W较大时传统道德往往沦丧。这时任何的教化和局中的策略都无助于事,局中人为了自保减少损失纷纷走向背叛。唯一可以改变这个局面的是超脱博弈双方的政策,它可以直接干预改变支付矩阵中部分参数的赋值。是以乱世用重典!作为与这群体敌对的力量则可以用稳定时期的约定,美好的向往,普世的规则来阻止进行必要的政策改变,使其社会群体难以合作陷入长期对抗之中。
这次从2008年开始的美国金融危机让投资人,消费者,银行,公司的合作关系面临崩溃的危险。“看不见的手”的运作已经指向负面,美国政府大力出手干预自由经济。采用一系列比社会主义还要直接的政府干预手段,改变了博弈支付矩阵的赋值,使得局中的合作关系得以维持,不至于让危机进一步扩大。这与1997年亚洲金融危机,以维持自由经济原则来批评香港政府的态度截然不同。那是因为美国政府搞经济的深谙博弈理论,绝不是只懂得主义信仰的书呆子。
我们在这里看到了:对于重复囚徒困境博弈,采用有反馈的策略可能阻止背叛走向合作。但是当环境恶化,惩罚不足以让背叛者拒绝占便宜的诱惑时,合作将会瓦解。上面的数值关系条件给合作得以维持的条件。给当权者指出用政策来改变社会风气的方向。
(待续)