← 返回首页

🎲 反直觉概率论

那些让数学家都曾困惑的概率悖论
每一个都配有交互式模拟,眼见为实

🎂
生日悖论
23人中有两人同生日的概率超过50%
问题:一个房间里需要多少人,才能使至少两人生日相同的概率超过 50%

直觉答案:一年365天,应该要180多人吧?
真实答案:只需要 23人
23
50.7%
理论概率
-
模拟概率
-
本次结果

🤔 为什么这么反直觉?

人们容易犯的错误是:把「某人和我同生日」与「任意两人同生日」混淆。

23人中,可能的配对数是:

C(23,2) = 23 × 22 / 2 = 253 对

每一对不同生日的概率是 364/365,253对都不同的概率是:

(364/365)^253 ≈ 0.4995 → 至少有一对相同 ≈ 50.05%

关键洞察:配对数随人数平方增长,而不是线性增长!

💰
圣彼得堡悖论
期望值无穷大的游戏,你愿意花多少钱玩?
游戏规则:抛硬币,第一次正面得2元,第二次才正面得4元,第三次才正面得8元...第n次才正面得 2^n 元。

期望收益:E = 1/2×2 + 1/4×4 + 1/8×8 + ... = 1 + 1 + 1 + ... =

悖论:期望值无穷大,但你愿意花100元玩一次吗?
🪙
点击开始游戏
已抛: 0 次
0
游戏次数
¥0
总收益
¥0
平均收益
¥0
最大单次

🤔 为什么期望值无穷大却没人愿意花大钱玩?

1. 边际效用递减:赢100万和赢200万的快乐差距,远小于赢0和赢100万。

2. 大数需要真的大:期望值收敛极慢,需要玩 2^n 次才能稳定获得 n 元/次。

玩 1000 次,平均收益约 10 元/次
玩 100万 次,平均收益约 20 元/次
玩 10亿 次,平均收益约 30 元/次

3. 现实约束:没有赌场有无限资金支付 2^100 元的奖金。

这个悖论促使伯努利提出了「效用函数」的概念,奠定了现代决策理论的基础。

✉️
两信封悖论
换还是不换?逻辑告诉你永远要换
问题:两个信封,一个装的钱是另一个的两倍。你随机选了一个,打开看到 100元

换的期望:另一个要么是50元(概率1/2),要么是200元(概率1/2)
期望 = 0.5×50 + 0.5×200 = 125元 > 100元

悖论:按这个逻辑,无论看到多少钱都应该换。但如果不打开呢?换来换去有意义吗?
A
B
点击选择一个信封
0
游戏次数
-
换的平均收益
-
不换平均收益

🤔 悖论在哪里?

错误的假设:「另一个信封是50或200的概率各50%」是错的!

如果小信封是X,大信封是2X,那么:

看到100元时:
- 如果你拿的是小信封(X=100),另一个是200
- 如果你拿的是大信封(2X=100),另一个是50
这两种情况的概率不一定相等

关键在于:X的分布是什么?如果X均匀分布在[1,100],看到100元更可能是大信封。

正确结论:在没有先验信息时,换与不换的期望收益相同。

📊
辛普森悖论
分组都赢,合并却输?
真实案例:1973年伯克利大学招生被控性别歧视。

总体数据:男性录取率 44%,女性录取率 35% → 歧视女性?
分系数据:大多数系女性录取率更高

悖论:每个子群体中A都比B好,但合并后B却比A好。

🏥 模拟:两种药物的疗效对比

患者类型 药物A治愈率 药物B治愈率 更优
轻症患者 93% (93/100) 87% (87/100) A
重症患者 73% (73/100) 69% (69/100) A
总体 78% (156/200) 83% (166/200) B !

🤔 为什么会这样?

辛普森悖论的本质是混杂变量(Confounding Variable)的影响。

在上面的例子中,「病情严重程度」是混杂变量:

1. 病情影响治愈率(重症更难治)
2. 病情影响药物选择(重症更多用B)
→ 导致总体数据产生误导

现实启示:

• 看到「XX产品用户满意度更高」时,要问:用户群体一样吗?

• 看到「XX学校升学率更高」时,要问:生源质量一样吗?

相关性 ≠ 因果性,数据会骗人!

📐
贝特朗悖论
同一个问题,三种「正确」答案
问题:在圆内随机画一条弦,弦长超过内接等边三角形边长的概率是多少?

答案1:1/3(随机选两点)
答案2:1/2(随机选半径上的点)
答案3:1/4(随机选圆内的点作为弦中点)

悖论:三个答案都「正确」,取决于「随机」的定义!
0
总弦数
0
长弦数
-
长弦概率
1/3
理论值

🤔 为什么会有三个答案?

这个悖论揭示了一个深刻的问题:「随机」本身需要定义

方法1: 在圆周上均匀选点 → P = 1/3
方法2: 在半径上均匀选点 → P = 1/2
方法3: 在圆面上均匀选点 → P = 1/4

三种方法对应三种不同的「均匀分布」,都是合理的。

启示:在概率问题中,必须明确定义样本空间和概率测度。「随机」不是一个自明的概念!

⏱️
等待时间悖论(检验悖论)
公交车平均10分钟一班,你平均要等多久?
问题:公交车平均每10分钟一班。你随机到达车站,平均要等多久?

直觉答案:5分钟(10分钟的一半)
真实答案:如果发车间隔有波动,平均等待时间 > 5分钟

极端情况:如果间隔服从指数分布,平均等待时间 = 10分钟
等待时间分布 模拟中...
0
模拟次数
-
平均等待
5分钟
理论值
-
最长等待

🤔 为什么等待时间会超过一半?

这叫做「检验悖论」「长度偏差抽样」

关键洞察:你更可能落在较长的间隔中!

假设有两种间隔:5分钟和15分钟各占一半
平均间隔 = (5+15)/2 = 10分钟

但你落在15分钟间隔的概率是 15/(5+15) = 75%
落在5分钟间隔的概率只有 25%

平均等待 = 0.25×2.5 + 0.75×7.5 = 6.25分钟 > 5分钟

数学公式:

E[等待时间] = E[间隔]/2 + Var[间隔]/(2×E[间隔])

只有当方差为0(固定间隔)时,等待时间才等于间隔的一半。

💡 概率论的反直觉本质

这些悖论告诉我们:

1. 直觉是不可靠的 — 人脑不擅长处理概率
2. 定义很重要 — 「随机」「公平」需要精确定义
3. 数据会骗人 — 相关性≠因果性,要警惕混杂变量
4. 期望值不是一切 — 还要考虑方差、效用、现实约束

概率论的魅力,正在于它不断挑战我们的直觉。