用逆向归纳法求解动态博弈问题

(整期优先)网络出版时间:2009-05-15
/ 2

用逆向归纳法求解动态博弈问题

任建英

任建英(重庆师范大学数学与计算机科学学院)

摘要:逆向归纳法是求解动态博弈精炼纳什均衡的有效手段,即用进化观点对逆向归纳过程进行了深入分析,认为精炼纳什均衡是在极限情况下的完美信息动态博弈的唯一进化稳定的结果.当然,使用逆向归纳法也有其局限性。

关键词:逆向归纳法动态博弈局限性

0引言

手雷博弈

某投资人A投资一价值6万元的项目时缺少2万元的投资,而某人B此时有2万元闲置资金可以投资.A希望B将2万元资金借给自己,并答应在年终赚到钱后和B对半平分,B是否将钱借给A呢?假设投资该项目肯定可以赢利,则B最担心的就是赚钱后是否真的与自己平分利润,因为如果A赚钱后不仅不和B平分,而且还卷款潜逃,B将会连自己的本钱都收不回来。图1的扩展行表示这个博弈问题。

在该两阶段动态博弈中,B决策的关键是要判断A的许诺是否可信。根据博弈方都是以自身得益最大化为目标的理性人准则,A在决策时的选择应该是“不分”,独吞6万元利润,实现自己的利益的最大化;B清楚自己借钱给A后可能面临的风险,因此他不会被A的不可性的承诺所迷惑,知道一旦借钱给A,A在年终赚钱后不会跟自己平分。因此B最合理的选择是“不借”而不是“借”,保住自己的本钱,实现自己利益的最大化。此时对B来说,本博弈中A的许诺是不可信的。

显然有不可信的许诺,AB的合作最终成为不可能,这是对AB两方来说都不是最佳结果,那么,有没有办法使A的许诺变成可信的,从而使B愿意选择“借”,然后A遵守诺言选择“分”,最终实现双方的最佳利益呢?

在博弈中,B威胁在A违约时“打官司”保护自己的利益。由于打官司也要成本,因此,我们假设打官司的结果是B能收回成本2万元,而A则会失去全部收入。这样博弈就变成图2中扩展型所表示的两博弈方之间的三阶段动态博弈。

当博弈进行到第三阶段,即A选择“不分”时,B可以选择“打官司”来讨回公道。如果选择“不打官司”,则独吞6万元,B什么好处也没有。当B选择“打”官司时,则能收回自己的2万元本钱,B打官司的得益比不打官司的得益大,因此B的唯一选择是“打官司”。对A来说,他完全清楚的上述思路,知道“打”官司的威胁是可信的,因此A符合个体理性的选择是“分”而不是“不分”,双方共享利益,各得3万元。也就是说,这时A的分的许诺成了可信的诺言,即B在增加对A的一个法律约束条件之后,自身的利益受到法律保障,A的分钱许诺就变成可信的许诺。这时,B在第一阶段就可以放心大胆地选择借了。博弈结果是B在第一阶段选择“借”,A在第二阶段选择“分”,从而结束博弈,双方各得到得益3,皆大欢喜。此时B的完整策略是第一阶段选择“借”,若第二阶段A选择“不分”,第三阶段选择“打”,即“打官司”,A的完整策略就是第二阶段选择“分”。这就是这个三阶段动态博弈的解。

现在我们假设B威胁的不是“打官司”,而是威胁使用“手雷”炸死A,即B威胁在A选择“不分”时,将用“手雷”炸死A,这样博弈就变成图3中扩展型所表示的两博弈方之间的三阶段动态博弈。

假如第三阶段B选择“炸”以后的得益,确实如图3,那么这时候B在第三阶段“炸”的威胁对A来说,就不再是可信的了,是一种“不可信”的空头威胁。因为这时候B“炸”虽然让A遭到10万元的损失,但B自己也受到10万元的损失,而“不炸”只损失2万元本钱,理性的B此时是不可能选择“炸”的。如果A清楚B的这种心理,虽然他在第二阶段选择时会考虑如果第三阶段B“炸”对自己很不利,但对B第三阶段“炸”的威胁仍然会无所顾忌,最终他仍然会选择“不分”。因为他知道B第三阶段“炸”的威胁并不可信的,这样他在第二阶段分钱的许诺自然也就不可信。现在再回到第一阶段B的选择,B现在很清楚,只有“不借”才是保险的。

1逆向归纳法的概念

在“手雷博弈”中,我们就采用了一种分析动态博弈的有效方法,即从动态博弈的最后一个阶段博弈方的行为开始分析,逐步倒推回前一个阶段相应博弈方的行为选择,一直到第一阶段的分析方法,这种分析方法称为逆向归纳法。

逆向归纳法(BackwardInduction)即从动态博弈的最后一个阶段博弈方的行为开始分析,逐步倒推回前一个阶段相应博弈方的行为选择,一直到第一个阶段的分析方法。逆向归纳法事实上就是把多阶段动态博弈简化为一系列的单人博弈,通过对一系列单人博弈的分析,确定各博弈方在各自选择阶段的选择,最终对动态博弈结果,包括博弈的路径和各博弈方的得益做出判断,归纳各个博弈方各阶段的选择则可得到各个博弈方在整个动态博弈中的策略。

2逆向归纳法的数学模型

我们假定博弈有两个阶段,第一阶段参与人1行动,第二阶段参与人2行动,并且2在行动前观测到1的选择。令A1是参与人1的行动空间,A2是参与人2的行动空间,当博弈进入到第二阶段,给定参与人1在第一阶段的选择,显然参与人2的最优选择a2*依赖于参与人1的选择。我们用a2*=R2(a1)代表上述最优化问题的解。因为参与人1应该预测到参与人2在博弈的第二阶段a2*=R2(a1)将按的规则行动

令上述问题的最优解为a1*。那么,这个博弈的子博弈精炼纳什均衡为(a1*,R2,(a1)),均衡结果为(a1*,R2,(a1*))。(a1*,R2,(a1))是一个精炼均衡,因为a2*=R2(a1)在博弈的第二阶段的最优解;除a2*=R2(a1)之外,任何其他的行为规则都不满足精炼均衡的要求。

3逆向归纳法的特征

逆向归纳法的特征是:博弈行为是顺序发生的,先行动的理性的博弈方,在前面阶段选择行为时必然会考虑后行动博弈方在后面阶段中将会怎样选择行为,只有在博弈的最后一个阶段选择的,不再有任何后续阶段影响的博弈方,才能直接作出明确选择;后面的行动者在进行行动选择前,所有以前的行为都可以被观察到,而当后面阶段博弈方的选择确定以后,前一阶段博弈方的行为也就容易确定了。

4逆向归纳法的适用性和局限性

除手雷博弈的求解可用逆向归纳法求解外,“使用核武器”博弈,“抓钱博弈”。动态博弈模型中如“斯塔克博格双寡头模型”“企业中的劳资博弈”“轮流出价博弈”“货币”“税收”等。都可以用逆向归纳法求解。

逆向归纳法是求解动态博弈的重要方法,但逆向归纳法也有明显的局限性。

首先,逆向归纳法要求博弈的结构,包括次序,规则和得益情况等都是博弈方的共同知识,各个博弈方了解博弈结构,相互知道对方了解博弈结构。即“博弈1知道博弈2知道博弈3知道得益函数。”显然,博弈方越多,逆向递推的链条就越长,博弈方共同知识的要求就越难满足。

其次,逆向归纳法不能分析比较复杂的动态博弈。由于逆向归纳法的推理方法是从动态博弈的最后阶段开始对每种可能路径进行比较,这对博弈者的理性提出了很高的要求,博弈者不能有哪怕是丝毫的对理性偏离的行为,博弈者必须有能力比较判断的选择路径数量,包括数量不很大的离散策略,或者有连续得益函数的连续分布策略,而这往往是不可能的。

最后,在遇到不同的路径有相同利益的情况时逆向归纳法也会发生选择困难。因为此时博弈方遇到了无差异行为,无法确定唯一的最优路径,逆向归纳法适用性会在这里失效。

总结逆向归纳法实质上是各阶段动态规划的库恩算法,把一个多阶段动态规划问题“分解”为一个个单阶段的优化问题,通过求解每一个单阶段的最优化,来得到整体规划的最优化。同样,在动态博弈中,逆向归纳法也就是把多阶段动态博弈化为一系列的单人博弈,通过对一系列的单人博弈的分析,确认各博弈方在各自选择阶段的选择,最后对动态博弈结果,包括博弈的路径和各博弈方的得益做出判断,归纳各个博弈方各阶段的选择则可得到各个博弈方在整个动态驳议中的策略。

参考文献:

[1]张维迎著.博弈论与信息经济学上海人民出版社.2004年.

[2]范如国,韩民春编著.博弈论.武汉大学出版社.2006年4.