← 返回首页

🎲 反直觉概率论

那些让数学家都曾困惑的概率悖论
每一个都配有交互式模拟，眼见为实

🎂 生日悖论

💰 圣彼得堡悖论

✉️ 两信封悖论

📊 辛普森悖论

📐 贝特朗悖论

⏱️ 等待时间悖论

🎂

生日悖论

23人中有两人同生日的概率超过50%

问题：一个房间里需要多少人，才能使至少两人生日相同的概率超过 50%？

直觉答案：一年365天，应该要180多人吧？
真实答案：只需要 23人！

房间人数： 23

50.7%

理论概率

模拟概率

本次结果

🤔 为什么这么反直觉？

人们容易犯的错误是：把「某人和我同生日」与「任意两人同生日」混淆。

23人中，可能的配对数是：

C(23,2) = 23 × 22 / 2 = 253 对

每一对不同生日的概率是 364/365，253对都不同的概率是：

(364/365)^253 ≈ 0.4995 → 至少有一对相同 ≈ 50.05%

关键洞察：配对数随人数平方增长，而不是线性增长！

💰

圣彼得堡悖论

期望值无穷大的游戏，你愿意花多少钱玩？

游戏规则：抛硬币，第一次正面得2元，第二次才正面得4元，第三次才正面得8元...第n次才正面得 2^n 元。

期望收益：E = 1/2×2 + 1/4×4 + 1/8×8 + ... = 1 + 1 + 1 + ... = ∞

悖论：期望值无穷大，但你愿意花100元玩一次吗？

🪙

点击开始游戏

已抛: 0 次

游戏次数

¥0

总收益

¥0

平均收益

¥0

最大单次

🤔 为什么期望值无穷大却没人愿意花大钱玩？

1. 边际效用递减：赢100万和赢200万的快乐差距，远小于赢0和赢100万。

2. 大数需要真的大：期望值收敛极慢，需要玩 2^n 次才能稳定获得 n 元/次。

玩 1000 次，平均收益约 10 元/次
玩 100万次，平均收益约 20 元/次
玩 10亿次，平均收益约 30 元/次

3. 现实约束：没有赌场有无限资金支付 2^100 元的奖金。

这个悖论促使伯努利提出了「效用函数」的概念，奠定了现代决策理论的基础。

✉️

两信封悖论

换还是不换？逻辑告诉你永远要换

问题：两个信封，一个装的钱是另一个的两倍。你随机选了一个，打开看到 100元。

换的期望：另一个要么是50元(概率1/2)，要么是200元(概率1/2)
期望 = 0.5×50 + 0.5×200 = 125元 > 100元

悖论：按这个逻辑，无论看到多少钱都应该换。但如果不打开呢？换来换去有意义吗？

点击选择一个信封

游戏次数

换的平均收益

不换平均收益

🤔 悖论在哪里？

错误的假设：「另一个信封是50或200的概率各50%」是错的！

如果小信封是X，大信封是2X，那么：

看到100元时：
- 如果你拿的是小信封(X=100)，另一个是200
- 如果你拿的是大信封(2X=100)，另一个是50
这两种情况的概率不一定相等！

关键在于：X的分布是什么？如果X均匀分布在[1,100]，看到100元更可能是大信封。

正确结论：在没有先验信息时，换与不换的期望收益相同。

📊

辛普森悖论

分组都赢，合并却输？

真实案例：1973年伯克利大学招生被控性别歧视。

总体数据：男性录取率 44%，女性录取率 35% → 歧视女性？
分系数据：大多数系女性录取率更高！

悖论：每个子群体中A都比B好，但合并后B却比A好。

🏥 模拟：两种药物的疗效对比

患者类型	药物A治愈率	药物B治愈率	更优
轻症患者	93% (93/100)	87% (87/100)	A
重症患者	73% (73/100)	69% (69/100)	A
总体	78% (156/200)	83% (166/200)	B !

🤔 为什么会这样？

辛普森悖论的本质是混杂变量（Confounding Variable）的影响。

在上面的例子中，「病情严重程度」是混杂变量：

1. 病情影响治愈率（重症更难治）
2. 病情影响药物选择（重症更多用B）
→ 导致总体数据产生误导

现实启示：

• 看到「XX产品用户满意度更高」时，要问：用户群体一样吗？

• 看到「XX学校升学率更高」时，要问：生源质量一样吗？

• 相关性 ≠ 因果性，数据会骗人！

📐

贝特朗悖论

同一个问题，三种「正确」答案

问题：在圆内随机画一条弦，弦长超过内接等边三角形边长的概率是多少？

答案1：1/3（随机选两点）
答案2：1/2（随机选半径上的点）
答案3：1/4（随机选圆内的点作为弦中点）

悖论：三个答案都「正确」，取决于「随机」的定义！

选择随机方法：

总弦数

长弦数

长弦概率

1/3

理论值

🤔 为什么会有三个答案？

这个悖论揭示了一个深刻的问题：「随机」本身需要定义。

方法1: 在圆周上均匀选点 → P = 1/3
方法2: 在半径上均匀选点 → P = 1/2
方法3: 在圆面上均匀选点 → P = 1/4

三种方法对应三种不同的「均匀分布」，都是合理的。

启示：在概率问题中，必须明确定义样本空间和概率测度。「随机」不是一个自明的概念！

⏱️

等待时间悖论（检验悖论）

公交车平均10分钟一班，你平均要等多久？

问题：公交车平均每10分钟一班。你随机到达车站，平均要等多久？

直觉答案：5分钟（10分钟的一半）
真实答案：如果发车间隔有波动，平均等待时间 > 5分钟！

极端情况：如果间隔服从指数分布，平均等待时间 = 10分钟！

发车间隔分布：

等待时间分布模拟中...

模拟次数

平均等待

5分钟

理论值

最长等待

🤔 为什么等待时间会超过一半？

这叫做「检验悖论」或「长度偏差抽样」。

关键洞察：你更可能落在较长的间隔中！

假设有两种间隔：5分钟和15分钟各占一半
平均间隔 = (5+15)/2 = 10分钟

但你落在15分钟间隔的概率是 15/(5+15) = 75%
落在5分钟间隔的概率只有 25%

平均等待 = 0.25×2.5 + 0.75×7.5 = 6.25分钟 > 5分钟

数学公式：

E[等待时间] = E[间隔]/2 + Var[间隔]/(2×E[间隔])

只有当方差为0（固定间隔）时，等待时间才等于间隔的一半。

💡 概率论的反直觉本质

这些悖论告诉我们：

1. 直觉是不可靠的 — 人脑不擅长处理概率
2. 定义很重要 — 「随机」「公平」需要精确定义
3. 数据会骗人 — 相关性≠因果性，要警惕混杂变量
4. 期望值不是一切 — 还要考虑方差、效用、现实约束

概率论的魅力，正在于它不断挑战我们的直觉。