跳到主要内容

大数定律与中心极限定理

参考资料

引入

概率论有两个「压轴」的极限定理,它们解释了两件日常都能感受到的事:

  • 大数定律:试验做得越多,频率越稳定于概率样本均值越稳定于期望。赌场之所以稳赚不赔,靠的就是它。
  • 中心极限定理:大量独立随机变量之和,无论原分布长什么样,叠加起来都 近似正态分布。这是钟形曲线无处不在的根源。

它们一起赋予了「用样本反推总体」的合法性,是 数理统计 的理论基石。

切比雪夫不等式

切比雪夫不等式(Chebyshev's Inequality):对任意 ε>0\varepsilon>0

P(XE(X)ε)D(X)ε2P\big(|X-E(X)|\ge \varepsilon\big)\le\frac{D(X)}{\varepsilon^2}

它给出「XX 偏离期望超过 ε\varepsilon」这件事的概率上界。换个角度,取 ε=kσ\varepsilon=k\sigma 就是「偏离超过 kk 个标准差的概率不超过 1k2\frac{1}{k^2}」——比如偏离 33 个标准差以上的概率至多 1911%\frac{1}{9}\approx 11\%

含义:方差越小,XX 越集中在 E(X)E(X) 附近。方差直接量化了「数据离重心有多近」。

例(切比雪夫估概率):某零件长度 XX 期望 E(X)=10E(X)=10、方差 D(X)=0.04D(X)=0.04(分布未知),估计「长度偏离 1010 超过 0.50.5」的概率上界。取 ε=0.5\varepsilon=0.5

P(X100.5)0.040.52=0.040.25=0.16P\big(|X-10|\ge 0.5\big)\le\frac{0.04}{0.5^2}=\frac{0.04}{0.25}=0.16

即不合格率至多 16%16\%。反过来也常用:「落在 μ±ε\mu\pm\varepsilon 内」的概率至少 1D(X)ε2=0.841-\frac{D(X)}{\varepsilon^2}=0.84。这个界很宽松,但 不需要知道分布 就能给出保底。

例(用切比雪夫定样本量):要用 nn 次独立测量的均值 Xˉ\bar X 估计真值 μ\mu,每次方差 σ2=4\sigma^2=4,问 nn 多大能保证 P(Xˉμ<0.5)0.95P(|\bar X-\mu|<0.5)\ge 0.95Xˉ\bar X 的方差是 σ2n=4n\frac{\sigma^2}{n}=\frac4n,由切比雪夫

P(Xˉμ0.5)4/n0.52=16n0.05  n320P\big(|\bar X-\mu|\ge 0.5\big)\le\frac{4/n}{0.5^2}=\frac{16}{n}\le 0.05\ \Rightarrow\ n\ge 320

至少测 320320 次。切比雪夫给的样本量偏保守,若已知正态可用更紧的正态分位数大幅降低 nn

提示

切比雪夫不等式的价值在于它 不依赖具体分布——只要知道期望和方差,就能给出概率的保底估计。代价是这个界相当宽松(比如它说偏离 3σ3\sigma 至多 11%11\%,而正态分布实际只有 0.27%0.27\%)。已知分布时,应当用更紧的估计;不知道分布、只想要一个保险的上界时,它才大显身手。它也是证明大数定律最趁手的工具。

大数定律

依概率收敛

随机变量列 XnX_n 依概率收敛(Convergence in Probability)于 XX,记为 XnPXX_n\xrightarrow{P}X,定义为:

ε>0,limnP(XnXε)=0\forall \varepsilon>0,\quad \lim_{n\to\infty}P\big(|X_n-X|\ge\varepsilon\big)=0

它的意思不是「XnX_n 一定会等于 XX」,而是「当 nn 很大时,XnX_n 偏离 XX 超过任意小量 ε\varepsilon概率 趋于 00」——偏差仍可能发生,只是越来越罕见。大数定律本质上就是各种「样本均值依概率收敛于期望」的命题。

切比雪夫大数定律

X1,X2,X_1,X_2,\dots 两两不相关,方差有共同上界 D(Xi)cD(X_i)\le c,则:

1ni=1nXi1ni=1nE(Xi)P0\frac{1}{n}\sum_{i=1}^{n}X_i-\frac{1}{n}\sum_{i=1}^{n}E(X_i)\xrightarrow{P}0

它不要求同分布,只要方差被统一控制住,样本均值就会贴近「期望的平均」。证明正是把切比雪夫不等式用在 Xˉn\bar X_n 上:Xˉn\bar X_n 的方差随 nn 增大而趋于 00,于是它被牢牢钉在期望附近。

伯努利大数定律

nn 次独立重复试验中事件 AA 发生的频率记为 fnf_n,每次发生概率为 pp,则:

fnPpf_n\xrightarrow{P}p

含义:频率收敛于概率。这是「用频率估计概率」的理论依据,也是概率「频率解释」的源头——抛一万次硬币,正面比例必然贴近 0.50.5。它是切比雪夫大数定律在 0-10\text{-}1 分布上的特例。

例(频率稳定到什么程度):抛 n=10000n=10000 次均匀硬币,估计「正面频率偏离 0.50.5 超过 0.010.01」的概率上界。正面数 XB(n,p)X\sim B(n,p)p=0.5p=0.5,频率 fn=Xnf_n=\frac Xn 的方差 p(1p)n=0.2510000=2.5×105\frac{p(1-p)}{n}=\frac{0.25}{10000}=2.5\times 10^{-5}。由切比雪夫

P(fn0.50.01)2.5×1050.012=0.25P\big(|f_n-0.5|\ge 0.01\big)\le\frac{2.5\times 10^{-5}}{0.01^2}=0.25

nn 增大这个界趋于 00,这正是伯努利大数定律「频率钉在概率上」的定量体现。nn 越大,频率越难偏离。

辛钦大数定律

X1,X2,X_1,X_2,\dots 独立同分布(independent and identically distributed,i.i.d.),E(Xi)=μE(X_i)=\mu,则:

Xˉn=1ni=1nXiPμ\bar X_n=\frac{1}{n}\sum_{i=1}^{n}X_i\xrightarrow{P}\mu

辛钦大数定律 只要求期望存在,连方差有限都不需要,是最贴近统计实践的版本。

含义:样本均值收敛于总体期望。这正是「多测几次取平均,结果就接近真值」的严格保证——也是一切用样本均值估计期望的方法的底气所在。

提示

三个版本可以这样区分记忆:伯努利 管「频率 → 概率」(0-10\text{-}1 试验的特例);辛钦 管「样本均值 → 期望」(独立同分布,最常用);切比雪夫 最一般(不必同分布,但要方差有界)。它们都在说同一件事——大量重复会把随机性「平均掉」,露出背后稳定的常数

中心极限定理

大数定律告诉我们 Xˉn\bar X_n 收敛到 μ\mu,但没说「它围绕 μ\mu 的波动长什么样」。中心极限定理(Central Limit Theorem,CLT)补上了这一块:波动近似 正态

独立同分布的中心极限定理(林德伯格-列维)

X1,X2,X_1,X_2,\dots i.i.d.,E(Xi)=μE(X_i)=\muD(Xi)=σ2>0D(X_i)=\sigma^2>0,则当 nn 充分大时,标准化后的和近似标准正态:

i=1nXinμnσdN(0,1)\frac{\sum_{i=1}^{n}X_i-n\mu}{\sqrt n\,\sigma}\xrightarrow{d}N(0,1)

等价地,样本均值近似服从

XˉndN ⁣(μ,σ2n)\bar X_n\xrightarrow{d}N\!\left(\mu,\frac{\sigma^2}{n}\right)

这里 d\xrightarrow{d} 表示 依分布收敛(Convergence in Distribution):是 XnX_n分布函数 趋于极限分布的分布函数,而非数值本身收敛。

例(独立同分布之和落某区间):某零件重量独立同分布,均值 μ=50\mu=50 克、标准差 σ=5\sigma=5 克。取 n=100n=100 个装箱,求总重 S=XiS=\sum X_i 落在 [4900,5100][4900,5100] 克的概率。由 CLT,SS 近似 N(nμ,nσ2)=N(5000,2500)N(n\mu,n\sigma^2)=N(5000,2500),标准差 2500=50\sqrt{2500}=50。标准化:

P(4900S5100)Φ ⁣(5100500050)Φ ⁣(4900500050)=Φ(2)Φ(2)P(4900\le S\le 5100)\approx\Phi\!\left(\frac{5100-5000}{50}\right)-\Phi\!\left(\frac{4900-5000}{50}\right)=\Phi(2)-\Phi(-2)

=2Φ(2)12×0.97721=0.9544=2\Phi(2)-1\approx 2\times 0.9772-1=0.9544。无论单个零件重量分布如何,100100 个之和都已经近似正态——这就是中心极限定理的威力。

提示

中心极限定理是 正态分布无处不在 的根本原因:身高、考试成绩、测量误差……只要一个量是大量 独立小因素的累加,哪怕每个小因素分布古怪,叠加的结果都近似正态。这也解释了为什么实践中遇到「成因复杂、来源众多」的数据,先假设它服从正态往往八九不离十。注意前提是「大量、独立、每项贡献都不占主导」,若有个别因素一家独大,结论就会失效。

棣莫弗-拉普拉斯定理

历史上最早的中心极限定理,是它的二项分布特例。棣莫弗-拉普拉斯定理(De Moivre–Laplace Theorem):XB(n,p)X\sim B(n,p),则当 nn 充分大时

Xnpnp(1p)dN(0,1)\frac{X-np}{\sqrt{np(1-p)}}\xrightarrow{d}N(0,1)

这正是「二项分布的正态近似」:因为 B(n,p)B(n,p) 本身就是 nn 个独立 0-10\text{-}1 变量之和,套用独立同分布 CLT 即得。工程上通常以 np(1p)5np(1-p)\ge 5 作为可用近似的阈值。

例(棣莫弗-拉普拉斯近似):抛均匀硬币 n=100n=100 次,求正面出现 40406060 次的概率。XB(100,0.5)X\sim B(100,0.5)np=50np=50np(1p)=25=5\sqrt{np(1-p)}=\sqrt{25}=5。直接标准化:

P(40X60)Φ ⁣(60505)Φ ⁣(40505)=Φ(2)Φ(2)0.9544P(40\le X\le 60)\approx\Phi\!\left(\frac{60-50}{5}\right)-\Phi\!\left(\frac{40-50}{5}\right)=\Phi(2)-\Phi(-2)\approx 0.9544
提示

连续性修正(Continuity Correction):用连续的正态去近似离散的二项时,把整数 kk 的概率看成区间 [k0.5,k+0.5][k-0.5,\,k+0.5] 更准。续上例,若问的是「恰好 5555 次」,离散点本身概率被正态算成 00,必须修正成

P(X=55)Φ ⁣(55.5505)Φ ⁣(54.5505)=Φ(1.1)Φ(0.9)0.86430.8159=0.0484P(X=55)\approx\Phi\!\left(\frac{55.5-50}{5}\right)-\Phi\!\left(\frac{54.5-50}{5}\right)=\Phi(1.1)-\Phi(0.9)\approx 0.8643-0.8159=0.0484

P(aXb)P(a\le X\le b) 时则把上下界各外扩 0.50.5:算成 Φ ⁣(b+0.5npnp(1p))Φ ⁣(a0.5npnp(1p))\Phi\!\big(\frac{b+0.5-np}{\sqrt{np(1-p)}}\big)-\Phi\!\big(\frac{a-0.5-np}{\sqrt{np(1-p)}}\big)nn 不太大时这半个单位的修正能明显提精度。

提示

二项分布有 两种 近似,别用混了:nn 大、pp 小(npnp 适中)时用 泊松 近似(参见 随机变量与分布);nn 大、pp 不太极端(np(1p)np(1-p) 足够大)时用 正态 近似。一个抓「稀有事件计数」,一个抓「大量试验的总体波动」。

收敛关系

随机变量列的几种收敛,强弱有别:

几乎处处收敛依概率收敛依分布收敛\text{几乎处处收敛}\Rightarrow\text{依概率收敛}\Rightarrow\text{依分布收敛}

反向一般不成立——依分布收敛最弱(只管分布形状),依概率收敛居中(管数值贴近的概率),几乎处处收敛最强(管几乎每条样本路径都收敛)。本科阶段重点掌握中间这两层:依概率收敛 对应大数定律,依分布收敛 对应中心极限定理。