← 返回首页

🔒 囚徒困境

为什么「理性」的选择,反而导致双输?

经典场景:你和同伙被警察抓了,分开审讯。
如果你们都沉默(合作),各判1年;
如果你揭发对方而他沉默,你无罪释放,他判10年;
如果你们都揭发对方,各判5年。

问题:你会怎么选?
对方的选择
沉默(合作) 揭发(背叛)
你的选择 沉默(合作)
-1年 / -1年
双赢
-10年 / 0年
你被坑
揭发(背叛)
0年 / -10年
你坑他
-5年 / -5年
纳什均衡 ⚠️

红色 = 你的刑期 | 绿色 = 对方刑期

🎮 单局博弈:你会怎么选?

👤
等待选择...
🤖
对方
等待选择...
结果

你的选择

-

对方选择

-

🔄 重复博弈:策略对决

如果这个游戏要玩很多轮呢?选择一个策略,和电脑对战100轮,看看谁的总刑期更短。

选择你的策略

👁️ 以牙还牙 (Tit for Tat)
第一轮合作,之后模仿对方上一轮的选择
😇 永远合作
无论对方怎么选,我都选择合作
😈 永远背叛
无论对方怎么选,我都选择背叛
🎲 随机选择
50%概率合作,50%概率背叛
😤 记仇者
一开始合作,一旦被背叛就永远背叛
🐕 巴甫洛夫
上轮结果好就重复,结果差就改变

对手策略

👁️ 以牙还牙
经典策略
😈 永远背叛
最自私的对手
🎲 随机选择
不可预测
😤 记仇者
别惹他

📐 为什么「理性」导致双输?

1. 占优策略分析

不管对方怎么选,「背叛」对你来说都是更好的选择:

如果对方合作:背叛得0年 > 合作得1年
如果对方背叛:背叛得5年 > 合作得10年

所以「背叛」是你的占优策略
问题是:对方也会这么想。于是你们都选择背叛,各判5年。

2. 纳什均衡 ≠ 最优解

「双方都背叛」是纳什均衡——没有人能通过单方面改变策略获益。
但这不是帕累托最优——明明双方都合作只需各判1年。

这就是囚徒困境的核心矛盾:
个体理性 → 集体非理性

3. 重复博弈改变一切

如果只玩一次,背叛是理性选择。
但如果要玩很多次,情况就不同了——你的选择会影响对方未来的行为。

1984年,政治学家 Robert Axelrod 举办了一场计算机锦标赛,
让各种策略互相对战。结果最简单的策略「以牙还牙」赢了:

以牙还牙 (Tit for Tat):
第一轮合作,之后模仿对方上一轮的选择

这个策略有四个特点:善良(先合作)、可激怒(被背叛就报复)、宽容(对方改过就原谅)、简单(对方能理解你的逻辑)。

🌍 现实中的囚徒困境

1. 军备竞赛

两个国家都知道裁军对双方都好(省钱、更安全)。
但每个国家都担心:如果我裁军,对方不裁,我就危险了。
结果:双方都疯狂扩军,陷入安全困境

2. 价格战

两家公司都知道维持高价对双方都有利。
但每家都想:如果我降价抢市场,对方不降,我就赢了。
结果:双方都降价,利润都下降。

3. 公地悲剧

每个牧民都知道过度放牧会毁掉草地。
但每个人都想:如果我不多放,别人多放,我就亏了。
结果:草地被毁,所有人都受损。

4. 气候变化

每个国家都知道减排对全球有利。
但每个国家都想:如果我减排,别人不减,我就吃亏了。
结果:全球变暖加剧。

💡 囚徒困境的启示

囚徒困境揭示了一个残酷的真相:
个体的「理性」选择,可能导致集体的「非理性」结果。

但它也告诉我们解决之道:
建立信任、重复博弈、制度约束。

当博弈从「一次性」变成「重复」,
当「背叛」会被记住和惩罚,
合作就变得可能。

这就是为什么社会需要法律、契约、声誉系统——
它们把「一次性博弈」变成「重复博弈」,让合作成为理性选择。