概率论有两个「压轴」的极限定理,它们解释了两件日常都能感受到的事:
- 大数定律:试验做得越多,频率越稳定于概率、样本均值越稳定于期望。赌场之所以稳赚不赔,靠的就是它。
- 中心极限定理:大量独立随机变量之和,无论原分布长什么样,叠加起来都 近似正态分布。这是钟形曲线无处不在的根源。
它们一起赋予了「用样本反推总体」的合法性,是 数理统计 的理论基石。
切比雪夫不等式(Chebyshev's Inequality):对任意 ε>0,
P(∣X−E(X)∣≥ε)≤ε2D(X)
它给出「X 偏离期望超过 ε」这件事的概率上界。换个角度,取 ε=kσ 就是「偏离超过 k 个标准差的概率不超过 k21」——比如偏离 3 个标准差以上的概率至多 91≈11%。
含义:方差越小,X 越集中在 E(X) 附近。方差直接量化了「数据离重心有多近」。
例(切比雪夫估概率):某零件长度 X 期望 E(X)=10、方差 D(X)=0.04(分布未知),估计「长度偏离 10 超过 0.5」的概率上界。取 ε=0.5:
P(∣X−10∣≥0.5)≤0.520.04=0.250.04=0.16
即不合格率至多 16%。反过来也常用:「落在 μ±ε 内」的概率至少 1−ε2D(X)=0.84。这个界很宽松,但 不需要知道分布 就能给出保底。
例(用切比雪夫定样本量):要用 n 次独立测量的均值 Xˉ 估计真值 μ,每次方差 σ2=4,问 n 多大能保证 P(∣Xˉ−μ∣<0.5)≥0.95。Xˉ 的方差是 nσ2=n4,由切比雪夫
P(∣Xˉ−μ∣≥0.5)≤0.524/n=n16≤0.05 ⇒ n≥320
至少测 320 次。切比雪夫给的样本量偏保守,若已知正态可用更紧的正态分位数大幅降低 n。
切比雪夫不等式的价值在于它 不依赖具体分布——只要知道期望和方差,就能给出概率的保底估计。代价是这个界相当宽松(比如它说偏离 3σ 至多 11%,而正态分布实际只有 0.27%)。已知分布时,应当用更紧的估计;不知道分布、只想要一个保险的上界时,它才大显身手。它也是证明大数定律最趁手的工具。
随机变量列 Xn 依概率收敛(Convergence in Probability)于 X,记为 XnPX,定义为:
∀ε>0,n→∞limP(∣Xn−X∣≥ε)=0
它的意思不是「Xn 一定会等于 X」,而是「当 n 很大时,Xn 偏离 X 超过任意小量 ε 的 概率 趋于 0」——偏差仍可能发生,只是越来越罕见。大数定律本质上就是各种「样本均值依概率收敛于期望」的命题。
设 X1,X2,… 两两不相关,方差有共同上界 D(Xi)≤c,则:
n1i=1∑nXi−n1i=1∑nE(Xi)P0
它不要求同分布,只要方差被统一控制住,样本均值就会贴近「期望的平均」。证明正是把切比雪夫不等式用在 Xˉn 上:Xˉn 的方差随 n 增大而趋于 0,于是它被牢牢钉在期望附近。
n 次独立重复试验中事件 A 发生的频率记为 fn,每次发生概率为 p,则:
fnPp
含义:频率收敛于概率。这是「用频率估计概率」的理论依据,也是概率「频率解释」的源头——抛一万次硬币,正面比例必然贴近 0.5。它是切比雪夫大数定律在 0-1 分布上的特例。
例(频率稳定到什么程度):抛 n=10000 次均匀硬币,估计「正面频率偏离 0.5 超过 0.01」的概率上界。正面数 X∼B(n,p),p=0.5,频率 fn=nX 的方差 np(1−p)=100000.25=2.5×10−5。由切比雪夫
P(∣fn−0.5∣≥0.01)≤0.0122.5×10−5=0.25
随 n 增大这个界趋于 0,这正是伯努利大数定律「频率钉在概率上」的定量体现。n 越大,频率越难偏离。
设 X1,X2,… 独立同分布(independent and identically distributed,i.i.d.),E(Xi)=μ,则:
Xˉn=n1i=1∑nXiPμ
辛钦大数定律 只要求期望存在,连方差有限都不需要,是最贴近统计实践的版本。
含义:样本均值收敛于总体期望。这正是「多测几次取平均,结果就接近真值」的严格保证——也是一切用样本均值估计期望的方法的底气所在。
三个版本可以这样区分记忆:伯努利 管「频率 → 概率」(0-1 试验的特例);辛钦 管「样本均值 → 期望」(独立同分布,最常用);切比雪夫 最一般(不必同分布,但要方差有界)。它们都在说同一件事——大量重复会把随机性「平均掉」,露出背后稳定的常数。
大数定律告诉我们 Xˉn 收敛到 μ,但没说「它围绕 μ 的波动长什么样」。中心极限定理(Central Limit Theorem,CLT)补上了这一块:波动近似 正态。
设 X1,X2,… i.i.d.,E(Xi)=μ,D(Xi)=σ2>0,则当 n 充分大时,标准化后的和近似标准正态:
nσ∑i=1nXi−nμdN(0,1)
等价地,样本均值近似服从
XˉndN(μ,nσ2)
这里 d 表示 依分布收敛(Convergence in Distribution):是 Xn 的 分布函数 趋于极限分布的分布函数,而非数值本身收敛。
例(独立同分布之和落某区间):某零件重量独立同分布,均值 μ=50 克、标准差 σ=5 克。取 n=100 个装箱,求总重 S=∑Xi 落在 [4900,5100] 克的概率。由 CLT,S 近似 N(nμ,nσ2)=N(5000,2500),标准差 2500=50。标准化:
P(4900≤S≤5100)≈Φ(505100−5000)−Φ(504900−5000)=Φ(2)−Φ(−2)
=2Φ(2)−1≈2×0.9772−1=0.9544。无论单个零件重量分布如何,100 个之和都已经近似正态——这就是中心极限定理的威力。
中心极限定理是 正态分布无处不在 的根本原因:身高、考试成绩、测量误差……只要一个量是大量 独立小因素的累加,哪怕每个小因素分布古怪,叠加的结果都近似正态。这也解释了为什么实践中遇到「成因复杂、来源众多」的数据,先假设它服从正态往往八九不离十。注意前提是「大量、独立、每项贡献都不占主导」,若有个别因素一家独大,结论就会失效。
历史上最早的中心极限定理,是它的二项分布特例。棣莫弗-拉普拉斯定理(De Moivre–Laplace Theorem):X∼B(n,p),则当 n 充分大时
np(1−p)X−npdN(0,1)
这正是「二项分布的正态近似」:因为 B(n,p) 本身就是 n 个独立 0-1 变量之和,套用独立同分布 CLT 即得。工程上通常以 np(1−p)≥5 作为可用近似的阈值。
例(棣莫弗-拉普拉斯近似):抛均匀硬币 n=100 次,求正面出现 40 到 60 次的概率。X∼B(100,0.5),np=50、np(1−p)=25=5。直接标准化:
P(40≤X≤60)≈Φ(560−50)−Φ(540−50)=Φ(2)−Φ(−2)≈0.9544
连续性修正(Continuity Correction):用连续的正态去近似离散的二项时,把整数 k 的概率看成区间 [k−0.5,k+0.5] 更准。续上例,若问的是「恰好 55 次」,离散点本身概率被正态算成 0,必须修正成
P(X=55)≈Φ(555.5−50)−Φ(554.5−50)=Φ(1.1)−Φ(0.9)≈0.8643−0.8159=0.0484求 P(a≤X≤b) 时则把上下界各外扩 0.5:算成 Φ(np(1−p)b+0.5−np)−Φ(np(1−p)a−0.5−np)。n 不太大时这半个单位的修正能明显提精度。
二项分布有 两种 近似,别用混了:n 大、p 小(np 适中)时用 泊松 近似(参见 随机变量与分布);n 大、p 不太极端(np(1−p) 足够大)时用 正态 近似。一个抓「稀有事件计数」,一个抓「大量试验的总体波动」。
随机变量列的几种收敛,强弱有别:
几乎处处收敛⇒依概率收敛⇒依分布收敛
反向一般不成立——依分布收敛最弱(只管分布形状),依概率收敛居中(管数值贴近的概率),几乎处处收敛最强(管几乎每条样本路径都收敛)。本科阶段重点掌握中间这两层:依概率收敛 对应大数定律,依分布收敛 对应中心极限定理。