以下文章来源于新东方智慧学堂 ,作者大神团·张通
为优秀的中小学生和父母提供有价值的学习方法、学习信息及有趣的科普内容。
本篇文章,将讨论动态博弈里一类有趣的游戏策略——必胜/败策略。
首先,动态博弈是指参与人的行动有先后顺序,而且行动在后者可以观察到行动在先者的选择,并据此作出相应的选择。
典型的例子是下棋(如象棋、围棋、跳棋等)。下棋有两个博弈参与者,一人一步,游戏规则和每一步的信息都是完全公开的,且无任何运气成分,游戏的所有可能局面有限且游戏规则已决定游戏会在有限步内结束。然后,策梅洛定理(Zermelo's theorem)告诉我们:这类游戏先行或后行方当中必有一方有必胜或必不败的策略。
下面简单证明策梅洛定理。为方便计,对游戏的所有可能状态(是指游戏进行到某一步时的局面,包括下一步轮到谁)染色,如果某一状态已经判定先手胜则该状态染黑,同理先手负则该状态染白。
如果某一状态是先手方行动且它的所有后继状态(即下一步的状态)都是白色,则这一状态染白。——你的回合但当你所有可能的下一步都会走到必败情形时,你已经输了。
如果某一状态是先手方行动且存在它的某一个后继状态是黑色,则这一状态染黑。——你的回合且当你有一种方法能走到必胜情形时,你已经赢了。
如果是后手方行动,同上。
此局先手(红)下一步无论怎么走,后继状态都是白色(输)
当以上染色结束后,考虑哪些未被染色的状态。如果该状态是先手方行动,根据以上染色规则,因为该状态胜负未分,必存在后继状态,且不能有一个黑色,且不能都是白色。所以它的所有后继状态中必存在一个未染色的状态。先手为了不输,故会选择从一个未染色状态转移到另一个未染色状态。对于后手同理。
所以,初始状态要么染黑要么染白,若未染色,则先后手都会选择从一个未染色状态转移到另一个未染色状态,从而在未染色状态之间循环直到有限步内结束。
总结一下:
1. 没有平局,每个游戏局面要么是必胜态,要么是必败态;
2. 一个状态是必败态,当且仅当它的所有后继状态都是必胜态;
3. 一个状态是必胜态,当且仅当它的后继状态存在一个必败态。
必胜策略的核心本质是:理清必胜态和必败态,并构造必胜态与必败态之间的状态转移。
下面选取一些著名游戏的例子来说明如何构建必胜/败策略。为了方便,去掉可能出现平局的游戏。
Bash Game
有
当
当
当
当
递推规律已经很明显了,当
如果把问题改为“谁拿到最后一枚棋子算输”,其他均不变。同样分析不难得到当
该问题很常见,也可以用“取余制胜法”解决,但理清必胜态与必败态之间的状态转移能更直达本质,且能分析更广泛的问题,比如下一个问题。
有
因为不能拿2枚,常用的方法失效了,故我们继续考虑状态转移。
当
当
当
当
当
当
递推规律还不太明显,大家可以自己再多写几个看看规律,最后的结论是,当
如果把问题改为“谁拿到最后一枚棋子算输”,其他均不变。同样分析不难得到当
该问题无法用“取余制胜法”解决,但仍可以用状态转移解决,而下一个动态取子问题则更能说明状态转移这种研究方法的适用广泛性。
有
当
当
当
当
当
当
递推规律仍不太明显,大家可以自己再多写几个看看规律,最后的结论是,当
下一个问题将更加复杂。
甲乙二人进行如下游戏:在桌子上放着一堆石子,二人轮流执步,甲先行,执步者每步必须将每堆颗数多余1颗的石子都分成两个较小的堆。
若谁在执步后能使得每堆石子都仅有1颗谁就获胜.若开始时有
为方便叙述,以下的必胜态和必败态只针对于先手。
枚举发现2枚必胜,3枚必败。
4可分成1、3,后继3枚是必败态,则4枚必胜。
5可分成2、3,因为每个堆数大于1的堆都要分,所以后继只能分成1、1、1、2(不考虑次序,下同),这个状态是必胜态,所以2、3是必败态,则5枚必胜。
6可分成3、3,后继只能分成1、2、1、2,这个状态是必胜态,所以3、3是必败态,则6枚必胜。
7有3种分法:
若分成1、6,后继6枚是必胜态,则该分法7枚败;
若分成2、5,后继为1、1、2、3时是必败态,所以2、5是必胜态,则该分法7枚败;
若分成3、4,后继为1、2、1、3时是必败态,所以3、4是必胜态,则该分法7枚败。
综上,7枚必败。
8可分成1、7,后继7枚是必败态,则8枚必胜……
于是发现两点:
1、
2、只需要考虑每个状态中最多棋子个数。
记每个状态中最多棋子个数为该状态名。
思考状态转移:因为
该过程分为两步,第一步是必败态的后继,需要考虑所有分法,第二步是必胜态的后继,只需考虑存在一种分法。即对于
首先因为每堆都会被分,所以其实除了最大的堆,其余小堆怎么分对后续的过程往往没有影响。因为每次分割,所有不为1的堆数都会减小,不妨设最大堆的
第一步无论怎么分,
即
所以一回合后,一定有方法保证小堆分完后的最大堆也不超过最大堆分完后的最大堆。
结论:只需要考虑每次分完后最大堆的棋子数。
对于
于是先手再次拿到
直到
综上,当
可见,在没有规则补偿的情况下,此类游戏(大多数),先手具有先发优势。
作者介绍:张通,新东方智慧学堂授课老师,北京大学力学系理论与应用力学专业学士。新东方智慧学堂(ID:zhihuixuetang_xdf),与精英为伍,成就未来精英。