囚徒困境 - 为什么理性导致双输

经典场景：你和同伙被警察抓了，分开审讯。
如果你们都沉默（合作），各判1年；
如果你揭发对方而他沉默，你无罪释放，他判10年；
如果你们都揭发对方，各判5年。

问题：你会怎么选？

		对方的选择
		沉默（合作）	揭发（背叛）
你的选择	沉默（合作）	-1年 / -1年双赢	-10年 / 0年你被坑
你的选择	揭发（背叛）	0年 / -10年你坑他	-5年 / -5年纳什均衡 ⚠️

红色 = 你的刑期 | 绿色 = 对方刑期

🎮 单局博弈：你会怎么选？

👤

你

等待选择...

🤖

对方

等待选择...

结果

你的选择

-

对方选择

-

🔄 重复博弈：策略对决

如果这个游戏要玩很多轮呢？选择一个策略，和电脑对战100轮，看看谁的总刑期更短。

选择你的策略

👁️ 以牙还牙 (Tit for Tat)

第一轮合作，之后模仿对方上一轮的选择

😇 永远合作

无论对方怎么选，我都选择合作

😈 永远背叛

无论对方怎么选，我都选择背叛

🎲 随机选择

50%概率合作，50%概率背叛

😤 记仇者

一开始合作，一旦被背叛就永远背叛

🐕 巴甫洛夫

上轮结果好就重复，结果差就改变

对手策略

👁️ 以牙还牙

经典策略

😈 永远背叛

最自私的对手

🎲 随机选择

不可预测

😤 记仇者

别惹他

📐 为什么「理性」导致双输？

1. 占优策略分析

不管对方怎么选，「背叛」对你来说都是更好的选择：

如果对方合作：背叛得0年 > 合作得1年
如果对方背叛：背叛得5年 > 合作得10年

所以「背叛」是你的占优策略。
问题是：对方也会这么想。于是你们都选择背叛，各判5年。

2. 纳什均衡 ≠ 最优解

「双方都背叛」是纳什均衡——没有人能通过单方面改变策略获益。
但这不是帕累托最优——明明双方都合作只需各判1年。

这就是囚徒困境的核心矛盾：
个体理性 → 集体非理性

3. 重复博弈改变一切

如果只玩一次，背叛是理性选择。
但如果要玩很多次，情况就不同了——你的选择会影响对方未来的行为。

1984年，政治学家 Robert Axelrod 举办了一场计算机锦标赛，
让各种策略互相对战。结果最简单的策略「以牙还牙」赢了：

以牙还牙 (Tit for Tat)：
第一轮合作，之后模仿对方上一轮的选择

这个策略有四个特点：善良（先合作）、可激怒（被背叛就报复）、宽容（对方改过就原谅）、简单（对方能理解你的逻辑）。

🌍 现实中的囚徒困境

1. 军备竞赛

两个国家都知道裁军对双方都好（省钱、更安全）。
但每个国家都担心：如果我裁军，对方不裁，我就危险了。
结果：双方都疯狂扩军，陷入安全困境。

2. 价格战

两家公司都知道维持高价对双方都有利。
但每家都想：如果我降价抢市场，对方不降，我就赢了。
结果：双方都降价，利润都下降。

3. 公地悲剧

每个牧民都知道过度放牧会毁掉草地。
但每个人都想：如果我不多放，别人多放，我就亏了。
结果：草地被毁，所有人都受损。

4. 气候变化

每个国家都知道减排对全球有利。
但每个国家都想：如果我减排，别人不减，我就吃亏了。
结果：全球变暖加剧。

💡 囚徒困境的启示

囚徒困境揭示了一个残酷的真相：
个体的「理性」选择，可能导致集体的「非理性」结果。

但它也告诉我们解决之道：
建立信任、重复博弈、制度约束。

当博弈从「一次性」变成「重复」，
当「背叛」会被记住和惩罚，
合作就变得可能。

这就是为什么社会需要法律、契约、声誉系统——
它们把「一次性博弈」变成「重复博弈」，让合作成为理性选择。

🔒 囚徒困境