友情提示:如果本网页打开太慢或显示不完整,请尝试鼠标右键“刷新”本网页!阅读过程发现任何错误请告诉我们,谢谢!! 报告错误
飞读中文网 返回本书目录 我的书架 我的书签 TXT全本下载 进入书吧 加入书签

纳什均衡与博弈论-第37章

按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!



大很多。例如,只有一种情况下能得到完美的平均成绩为A——所有的100个学生都得到A。但是你得到平均成绩是C的情况却有很多——100个C、50个A和50个F,5个级别的成绩各有20人得到,等等。

  就像扔硬币,一次扔4枚硬币,头像朝上的硬币数量相对于上例中的成绩(0就是F,4就是A)。在100次试验中,许多组合的平均值为2,而只有很少的情况平均值为0或4。因此,基于一无所知,你的预测为平均成绩是C。

  第四节 回到博弈

  在博弈论中,一个参与者的混合策略也是概率分布,与平均成绩或扔硬币的例子非常相似。概率论就是关于如何找到对于每个参与者都是最好的混合策略(为了达到这个博弈的最大效用,或最大回报)。在一个多人参与的博弈中,在所有参与者的各种混合策略中至少有一个组合可以达到一种情况,即没有一个参与者能通过改变策略获得更好的结果——这就是纳什均衡,博弈论中最重要的基本原理。

  但是,纳什的现代博弈论基础也有自身的瑕疵。正如纳什指出的,虽然所有的博弈(在确定条件下)都有至少一个纳什均衡,但在很多博弈中能够出现不止一个纳什均衡。在那些情况中,博弈论并不能预测会达到哪个均衡点——你无法辨别出在真实世界情况下参与者们将会实际采用哪套混合策略。并且,即便在一个复杂的博弈中只存在一个纳什均衡,要计算出所有参与者的混合策略是什么,这也远远超出了超级计算机组的能力。

  同时,传统博弈论的基本假设的薄弱之处使此瑕疵更为明显——在获得所有必需的信息计算回报时,参与者是理性的回报最大化者。在大多数人不计算吉士汉堡的营业税的世界里,那是一个苛刻的要求。在现实生活中,人们并不是“绝对理性的”,不能够找到最佳的利润最大化策略来应对所有其他竞争者使用的策略组合。所以,博弈论显然是在假设每个参与者能够做到那些超级计算机都不能做到的事。而且,事实上,几乎每个人都意识到这种完全的理性是无法达到的。故而,博弈论中使用的现代方法经常假设这种理性是有限的或“有界的”。

  博弈论学家们千方百计去处理关于纳什理论里原初数学问题的这些限制。大量最高水准的研究工作已经对博弈论的原始公式进行了修正和改良,使之成为一个修正了许多初期“瑕疵”的理论体系。例如,已经展开了许多研究用于理解理性的限制。虽然如此,众多博弈论学家仍坚持这样一个观点,即“解决一个博弈”意味着找到一个均衡——一个所有参与者都能得到他们最大效用的结果。博弈论学家们一直在探讨各参与者应该怎么做才能使自己的回报最大化,而不是去思考当参与者们真正参加一场博弈时将会发生什么样的情况。

  我们在波士顿会谈后一年,当我去国家航空航天局艾姆斯研究中心拜访沃尔波特时,他指出找寻博弈均衡解应该从博弈内部去审视,从参与者之一的观点去审视,而不是以一个局外人、一个评估整个体系的科学家的有利观点来审视。从局内看,可能会有一个最优解,但是局外的科学家向局内看,只要仅仅预测什么将会发生即可(而不是试图去赢得这场博弈)。沃尔波特坚持,如果你这样看待此问题,你只知道你永远不能确定一场博弈怎么结束。所以概率论的科学应该不仅是寻找单个的解,而是找到一个解,它的概率分布能做出最优的可能性预测来解释博弈的结果将是什么。“情况将会是,无论何时提供你关于一个体系不完整信息后,你必须马上给出的是各种概率的分布,而不是单个的解。”

  换句话说,过去科学家们没有真正将博弈参与者们当作统计物理学中的微粒来考虑,至少没有从正确的角度去考虑。如果你真的考虑过这一点,你就会意识到没有一个物理学家在计算气体热力学性质时考虑单个分子的状态。这个观点是为了计算出整个分子集合体的全面特征。你不可能知道单个分子在干什么,但是你能够统计计算出结合在一起的所有分子的宏观表现。博弈和气体之间的联系应该很清楚了。统计物理学研究气体,并不知道单个分子的活动,而博弈论学家同样不知道单个参与者是如何思考的。但是物理学家确实知道分子集合体的表现可能是怎样的——统计学意义上的——并且能针对气体的性质给出较好的预测。类似地,博弈论学家应该能对博弈中将会发生的事件作出统计学预测。

  正如沃尔波特反复强调的,这就是科学通常的处理方式。科学家们对他们研究的体系相关的信息进行限制,并试着基于他们手上已有的信息做出可能的最优预测。就像一场博弈中的一个参与者仅仅对这个博弈中可能出现的策略组合持有不完整信息,那么科学家们就研究在拥有不完整信息情况下的博弈,信息包括参与者们都知道些什么以及他们是如何思考的(切记,不同的个人在博弈时使用的思路是不同的)。

  所有的科学都面对这种问题——对于一个体系知道一些情况,然后就根据这有限的知识,试图去预测将会发生什么,沃尔波特指出。“那么科学将如何着手来回答这些问题呢?在你所致力研究的每个独立的科学领域中,这种尝试的结果将是一个概率分布。”

  从这一点看,概率论就引进了另一种混合策略。不仅仅是参与者持有混合策略,备选的可行概率分布也会变化。科学家描述博弈持有一种“混合策略”,那就是对于博弈结果的可行预测。

  “当你想到这个的时候,觉得显而易见,”沃尔波特说,“如果给你一场真人参加的博弈,不,你就不会总是得到同一种结果。你会得到不止一种可能出现的结果……他们不可能总是以完全一样的那套混合策略去结束博弈。对于他们使用的混合策略会出现一个分布现象,就像在其他科学问题中一样”。

  显然这个想法已经将博弈论带到了一个新的水平。当每个参与者都有自己的一个混合策略时,科学家描述该博弈用到的一个纯策略的概率分布应该估计所有参与者的所有混合策略的概率分布。然而你如何找出那些混合策略的概率分布呢?当然,得通过最大化你的无知。如果你想对待概率论就好像其中的参与者就是微粒,假设他们策略的概率分布最好的方法就是最大化不确定性(或者用信息论中的专业术语,熵)。使用这个方法,你不需要假设博弈中的参与者们理性有限;这种“有限”自然地出现在信息论的准则中。如果给你一个关于该博弈可能结果的概率分布,那么你就能够用决策论原理来选择哪种结果是你预测的。

  “当你需要一个预测时,概率分布却不需要,”沃尔波特说,“你不得不决定发射导弹或者不发射;向左转还是向右转。”做这样一种决定的数学基础、根本原则是由雷纳德·萨维奇(Leonard Savage)于20世纪50年代比较精确地发展出来的,但是他们却对诸如帕斯卡赌注之类的问题刨根问底。如果你知道一个可能结果的概率分布,但是却不足以过滤掉一些可能性来得到一个单一的预测结果,你就需要考虑如果你决策错(或对)了你不得不失去(或得到)什么。

  “如果你预测出X,但是真实的结果却是Y,你的损失会是多少?或者反过来,你能获得什么好处?”沃尔波特解释道,“有些误判不会给你带来多少损失,这取决于真实结果是什么。但是在其他情况下,你对于真实结果的预测可能导致各种各样的问题——例如你现在已经发动了第三次世界大战。”

  决策论要求你做出的预测应该能使你的预期损失达到最小(“预期”意味着与最终选择相关的可能性都被考虑在内——你将所有可能性造成的损失量平均化了)。结果,沃尔波特观察到不同的观察者会对一场博弈的结果做出不同的预测,即使在可能结果的概率分布是一样的情况下,因为在一些特定的错误预测中一些参与者可能比其他人损失得更多。

  “换言之,对于一模一样的博弈,作为一个局外人你的决策如何去预测将取决于你的损失函数,”他说。那就意味着最佳预测不是博弈中建立的均衡点,而是依赖于“那些剥离于博弈之外的对于结果进行预测的局外人。”因此,有时候最有可能的博弈结果不是一个纳什均衡。

  但为什么不是呢,如果一个纳什均衡代表一个稳定的结果,即在没有人有改变想法的动机的情况下。好像人们会总是变换着他们的策略指导他们不想这么做为止。但是当博弈论放在关于最大熵值的信息…假设等式中时,答案是明确的。等式中的一个符号代表了计算出最优策略的成本,并且在一场复杂的博弈中,这个成本可能会非常高。换个说法,一个参与者想得到最大回报就必须将一个成本考虑在内,那就是计算出得到这个回报他必须付出什么。参与者得到的收益并不是期望收益,而是期望收益减去计算出它所需的成本。

  另外,个人的差异能够影响该计算。最大无知法(就是最大化不确定性)的数学推导中包含了另一个因素,它可以被理解为一个参与者的热度。热度将无知(或不确定性)与计算策略的成本联系起来——对要做的事情具有更多的不确定性就意味着搞清楚这些事需要更高的代价。较低的热度表明一个专注于寻找最优策略的参与者不关注其计算成本;而高热度的参与者将对可能的策略进行更多的探索。

  “那么这个意思,”沃尔波特又解释,“就是,字面上真的会存在纯理性的人,他们总是做那些最可行的事情,他们是冰冷的——是冷酷的。反之一些人做任何事都是满世界的转,期望尝试各种可能的方法,他们是火热的。这个恰巧不在
返回目录 上一页 下一页 回到顶部 0 0
未阅读完?加入书签已便下次继续阅读!
温馨提示: 温看小说的同时发表评论,说出自己的看法和其它小伙伴们分享也不错哦!发表书评还可以获得积分和经验奖励,认真写原创书评 被采纳为精评可以获得大量金币、积分和经验奖励哦!