← 返回首页
🎲 反直觉概率论
那些让数学家都曾困惑的概率悖论
每一个都配有交互式模拟,眼见为实
🎂 生日悖论
💰 圣彼得堡悖论
✉️ 两信封悖论
📊 辛普森悖论
📐 贝特朗悖论
⏱️ 等待时间悖论
问题:一个房间里需要多少人,才能使至少两人生日相同的概率超过 50%?
直觉答案:一年365天,应该要180多人吧?
真实答案:只需要 23人!
23
🤔 为什么这么反直觉?
人们容易犯的错误是:把「某人和我同生日」与「任意两人同生日」混淆。
23人中,可能的配对数是:
C(23,2) = 23 × 22 / 2 = 253 对
每一对不同生日的概率是 364/365,253对都不同的概率是:
(364/365)^253 ≈ 0.4995 → 至少有一对相同 ≈ 50.05%
关键洞察:配对数随人数平方增长,而不是线性增长!
游戏规则:抛硬币,第一次正面得2元,第二次才正面得4元,第三次才正面得8元...第n次才正面得 2^n 元。
期望收益:E = 1/2×2 + 1/4×4 + 1/8×8 + ... = 1 + 1 + 1 + ... = ∞
悖论:期望值无穷大,但你愿意花100元玩一次吗?
🤔 为什么期望值无穷大却没人愿意花大钱玩?
1. 边际效用递减:赢100万和赢200万的快乐差距,远小于赢0和赢100万。
2. 大数需要真的大:期望值收敛极慢,需要玩 2^n 次才能稳定获得 n 元/次。
玩 1000 次,平均收益约 10 元/次
玩 100万 次,平均收益约 20 元/次
玩 10亿 次,平均收益约 30 元/次
3. 现实约束:没有赌场有无限资金支付 2^100 元的奖金。
这个悖论促使伯努利提出了「效用函数」的概念,奠定了现代决策理论的基础。
问题:两个信封,一个装的钱是另一个的两倍。你随机选了一个,打开看到 100元。
换的期望:另一个要么是50元(概率1/2),要么是200元(概率1/2)
期望 = 0.5×50 + 0.5×200 = 125元 > 100元
悖论:按这个逻辑,无论看到多少钱都应该换。但如果不打开呢?换来换去有意义吗?
🤔 悖论在哪里?
错误的假设:「另一个信封是50或200的概率各50%」是错的!
如果小信封是X,大信封是2X,那么:
看到100元时:
- 如果你拿的是小信封(X=100),另一个是200
- 如果你拿的是大信封(2X=100),另一个是50
这两种情况的概率不一定相等!
关键在于:X的分布是什么?如果X均匀分布在[1,100],看到100元更可能是大信封。
正确结论:在没有先验信息时,换与不换的期望收益相同。
真实案例:1973年伯克利大学招生被控性别歧视。
总体数据:男性录取率 44%,女性录取率 35% → 歧视女性?
分系数据:大多数系女性录取率更高!
悖论:每个子群体中A都比B好,但合并后B却比A好。
🏥 模拟:两种药物的疗效对比
| 患者类型 |
药物A治愈率 |
药物B治愈率 |
更优 |
| 轻症患者 |
93% (93/100) |
87% (87/100) |
A |
| 重症患者 |
73% (73/100) |
69% (69/100) |
A |
| 总体 |
78% (156/200) |
83% (166/200) |
B ! |
关键:分组比例不同!
药物A:轻症100人 + 重症100人 = 200人
药物B:轻症20人 + 重症180人 = 200人
药物B主要用于重症患者(基数大),而重症本身治愈率低,拉低了总体数据。
这就是「混杂变量」的威力!
🤔 为什么会这样?
辛普森悖论的本质是混杂变量(Confounding Variable)的影响。
在上面的例子中,「病情严重程度」是混杂变量:
1. 病情影响治愈率(重症更难治)
2. 病情影响药物选择(重症更多用B)
→ 导致总体数据产生误导
现实启示:
• 看到「XX产品用户满意度更高」时,要问:用户群体一样吗?
• 看到「XX学校升学率更高」时,要问:生源质量一样吗?
• 相关性 ≠ 因果性,数据会骗人!
问题:在圆内随机画一条弦,弦长超过内接等边三角形边长的概率是多少?
答案1:1/3(随机选两点)
答案2:1/2(随机选半径上的点)
答案3:1/4(随机选圆内的点作为弦中点)
悖论:三个答案都「正确」,取决于「随机」的定义!
🤔 为什么会有三个答案?
这个悖论揭示了一个深刻的问题:「随机」本身需要定义。
方法1: 在圆周上均匀选点 → P = 1/3
方法2: 在半径上均匀选点 → P = 1/2
方法3: 在圆面上均匀选点 → P = 1/4
三种方法对应三种不同的「均匀分布」,都是合理的。
启示:在概率问题中,必须明确定义样本空间和概率测度。「随机」不是一个自明的概念!
问题:公交车平均每10分钟一班。你随机到达车站,平均要等多久?
直觉答案:5分钟(10分钟的一半)
真实答案:如果发车间隔有波动,平均等待时间 > 5分钟!
极端情况:如果间隔服从指数分布,平均等待时间 = 10分钟!
🤔 为什么等待时间会超过一半?
这叫做「检验悖论」或「长度偏差抽样」。
关键洞察:你更可能落在较长的间隔中!
假设有两种间隔:5分钟和15分钟各占一半
平均间隔 = (5+15)/2 = 10分钟
但你落在15分钟间隔的概率是 15/(5+15) = 75%
落在5分钟间隔的概率只有 25%
平均等待 = 0.25×2.5 + 0.75×7.5 = 6.25分钟 > 5分钟
数学公式:
E[等待时间] = E[间隔]/2 + Var[间隔]/(2×E[间隔])
只有当方差为0(固定间隔)时,等待时间才等于间隔的一半。
💡 概率论的反直觉本质
这些悖论告诉我们:
1. 直觉是不可靠的 — 人脑不擅长处理概率
2. 定义很重要 — 「随机」「公平」需要精确定义
3. 数据会骗人 — 相关性≠因果性,要警惕混杂变量
4. 期望值不是一切 — 还要考虑方差、效用、现实约束
概率论的魅力,正在于它不断挑战我们的直觉。