重复囚徒困境寻找策略
摘要 对于研究如何权衡个人利益和团体利益的多agent系统而言,囚徒困境是一个十分有用的模型。迄今为止人们已经发现了很多策略,这些策略各不相同。但是到底哪种类型的策略更加优秀,一般而言应该如何寻找比较好的策略呢?在这篇文章中,我介绍了一些寻找策略的普遍方法,并将我的试图合作策略与一些经典策略进行比较。首先,进行理论分析,说明试图合作策略既能在对手有意合作的时候积极响应,又能在对手恶意背叛的时候施以惩罚。其次,通过试图合作策略和其他不同策略竞赛的实验数据来证明:试图合作的确是一个优秀的策略。
目录
1绪论 1. 1囚徒困境介绍
1950年,Merrill Flood和Melvin Dresher提出囚徒困境(Prisoner’s dilemma,简称PD),并进行研究,将之归为搏弈论的领域。尽管当时他们并没有大力宣传自己的研究成果,囚徒困境难题仍然吸引了大量不同学科研究者的关注。从此以后,众多领域,各界人士都对此难题产生了极大兴趣,并因此衍生了许多囚徒困境难题的变种。下面先介绍一下经典的囚徒困境难题。
两个囚犯分别被关在不同的屋子里审讯。警察告诉他们:如果两人都坦白,各得2分;如果两个人都抵赖,各得6分;如果其中一人坦白另一人抵赖,坦白的得10分,不坦白的得0分。这些分数由一个支付矩阵决定,见图一。这里,每个囚徒都有两种选择:坦白(即背叛对方)或抵赖(即与对方合作)。如果只进行一次游戏,每个人都会选择坦白,因为不管对方选择什么,坦白总不会吃亏,因此各得2分。
(A的得分,B的得分) Agent B的选择 合作 背叛 Agnet A的选择 合作 (6,6) (0,10) 背叛 (10,0) (2,2) 图一:囚徒困境的典型支配矩阵无忧论文 【http://www.uklunwen.com】 |
|