大数定律与中心极限定理

参考资料

引入

概率论有两个「压轴」的极限定理，它们解释了两件日常都能感受到的事：

大数定律：试验做得越多，频率越稳定于概率、样本均值越稳定于期望。赌场之所以稳赚不赔，靠的就是它。
中心极限定理：大量独立随机变量之和，无论原分布长什么样，叠加起来都 近似正态分布。这是钟形曲线无处不在的根源。

它们一起赋予了「用样本反推总体」的合法性，是数理统计的理论基石。

切比雪夫不等式

切比雪夫不等式（Chebyshev's Inequality）：对任意 $\varepsilon>0$ ：

P\big(|X-E(X)|\ge\varepsilon\big)\le\frac{D(X)}{\varepsilon^2}

它给出「 $X$ 偏离期望超过 $\varepsilon$ 」这件事的概率上界。换个角度，取 $\varepsilon=k\sigma$ 就是「偏离超过 $k$ 个标准差的概率不超过 $\frac{1}{k^2}$ 」——比如偏离 $3$ 个标准差以上的概率至多 $\frac{1}{9}\approx 11\%$ 。

含义：方差越小， $X$ 越集中在 $E(X)$ 附近。方差直接量化了「数据离重心有多近」。

例（切比雪夫估概率）：某零件长度 $X$ 期望 $E(X)=10$ 、方差 $D(X)=0.04$ （分布未知），估计「长度偏离 $10$ 超过 $0.5$ 」的概率上界。取 $\varepsilon=0.5$ ：

P\big(|X-10|\ge 0.5\big)\le\frac{0.04}{0.5^2}=\frac{0.04}{0.25}=0.16

即不合格率至多 $16\%$ 。反过来也常用：「落在 $\mu\pm\varepsilon$ 内」的概率至少 $1-\frac{D(X)}{\varepsilon^2}=0.84$ 。这个界很宽松，但 不需要知道分布 就能给出保底。

例（用切比雪夫定样本量）：要用 $n$ 次独立测量的均值 $\bar X$ 估计真值 $\mu$ ，每次方差 $\sigma^2=4$ ，问 $n$ 多大能保证 $P(|\bar X-\mu|<0.5)\ge 0.95$ 。 $\bar X$ 的方差是 $\frac{\sigma^2}{n}=\frac{4}{n}$ ，由切比雪夫：

P\big(|\bar X-\mu|\ge 0.5\big)\le\frac{4/n}{0.5^2}=\frac{16}{n}\le 0.05\implies n\ge 320

至少测 $320$ 次。切比雪夫给的样本量偏保守，若已知正态可用更紧的正态分位数大幅降低 $n$ 。

tip

切比雪夫不等式的价值在于它 不依赖具体分布——只要知道期望和方差，就能给出概率的保底估计。代价是这个界相当宽松（比如它说偏离 $3\sigma$ 至多 $11\%$ ，而正态分布实际只有 $0.27\%$ ）。已知分布时，应当用更紧的估计；不知道分布、只想要一个保险的上界时，它才大显身手。它也是证明大数定律最趁手的工具。

大数定律

依概率收敛

随机变量列 $X_n$ 依概率收敛（Convergence in Probability）于 $X$ ，记为 $X_n\xrightarrow{P}X$ ，定义为：

\forall\varepsilon>0,\lim_{n\to\infty}P\big(|X_n-X|\ge\varepsilon\big)=0

它的意思不是「 $X_n$ 一定会等于 $X$ 」，而是「当 $n$ 很大时， $X_n$ 偏离 $X$ 超过任意小量 $\varepsilon$ 的概率趋于 $0$ 」——偏差仍可能发生，只是越来越罕见。大数定律本质上就是各种「样本均值依概率收敛于期望」的命题。

切比雪夫大数定律

设 $X_1,X_2,\dots$ 两两不相关，方差有共同上界 $D(X_i)\le c$ ，则：

\frac{1}{n}\sum_{i=1}^nX_i-\frac{1}{n}\sum_{i=1}^nE(X_i)\xrightarrow{P}0

它不要求同分布，只要方差被统一控制住，样本均值就会贴近「期望的平均」。证明正是把切比雪夫不等式用在 $\bar X_n$ 上： $\bar X_n$ 的方差随 $n$ 增大而趋于 $0$ ，于是它被牢牢钉在期望附近。

伯努利大数定律

$n$ 次独立重复试验中事件 $A$ 发生的频率记为 $f_n$ ，每次发生概率为 $p$ ，则：

f_n\xrightarrow{P}p

含义：频率收敛于概率。这是「用频率估计概率」的理论依据，也是概率「频率解释」的源头——抛一万次硬币，正面比例必然贴近 $0.5$ 。它是切比雪夫大数定律在 $0\text{-}1$ 分布上的特例。

例（频率稳定到什么程度）：抛 $n=10000$ 次均匀硬币，估计「正面频率偏离 $0.5$ 超过 $0.01$ 」的概率上界。正面数 $X\sim B(n,p)$ ， $p=0.5$ ，频率 $f_n=\frac{X}{n}$ 的方差 $\frac{p(1-p)}{n}=\frac{0.25}{10000}=2.5\times 10^{-5}$ 。由切比雪夫：

P\big(|f_n-0.5|\ge 0.01\big)\le\frac{2.5\times 10^{-5}}{0.01^2}=0.25

随 $n$ 增大这个界趋于 $0$ ，这正是伯努利大数定律「频率钉在概率上」的定量体现。 $n$ 越大，频率越难偏离。

辛钦大数定律

设 $X_1,X_2,\dots$ 独立同分布（independent and identically distributed，i.i.d.）， $E(X_i)=\mu$ ，则：

\bar X_n=\frac{1}{n}\sum_{i=1}^nX_i\xrightarrow{P}\mu

辛钦大数定律 只要求期望存在，连方差有限都不需要，是最贴近统计实践的版本。

含义：样本均值收敛于总体期望。这正是「多测几次取平均，结果就接近真值」的严格保证——也是一切用样本均值估计期望的方法的底气所在。

tip

三个版本可以这样区分记忆：伯努利 管「频率 → 概率」（ $0\text{-}1$ 试验的特例）；辛钦管「样本均值 → 期望」（独立同分布，最常用）；切比雪夫 最一般（不必同分布，但要方差有界）。它们都在说同一件事——大量重复会把随机性「平均掉」，露出背后稳定的常数。

中心极限定理

大数定律告诉我们 $\bar X_n$ 收敛到 $\mu$ ，但没说「它围绕 $\mu$ 的波动长什么样」。中心极限定理（Central Limit Theorem，CLT）补上了这一块：波动近似正态。

独立同分布的中心极限定理（林德伯格-列维）

设 $X_1,X_2,\dots$ i.i.d.， $E(X_i)=\mu$ ， $D(X_i)=\sigma^2>0$ ，则当 $n$ 充分大时，标准化后的和近似标准正态：

\frac{\sum_{i=1}^nX_i-n\mu}{\sqrt n\sigma}\xrightarrow{d}N(0,1)

等价地，样本均值近似服从：

\bar X_n\xrightarrow{d}N\left(\mu,\frac{\sigma^2}{n}\right)

这里 $\xrightarrow{d}$ 表示 依分布收敛（Convergence in Distribution）：是 $X_n$ 的 分布函数 趋于极限分布的分布函数，而非数值本身收敛。

例（独立同分布之和落某区间）：某零件重量独立同分布，均值 $\mu=50$ 克、标准差 $\sigma=5$ 克。取 $n=100$ 个装箱，求总重 $S=\sum X_i$ 落在 $[4900,5100]$ 克的概率。由 CLT， $S$ 近似 $N(n\mu,n\sigma^2)=N(5000,2500)$ ，标准差 $\sqrt{2500}=50$ 。标准化：

P(4900\le S\le 5100)\approx\Phi\left(\frac{5100-5000}{50}\right)-\Phi\left(\frac{4900-5000}{50}\right)=\Phi(2)-\Phi(-2)

$=2\Phi(2)-1\approx 2\times 0.9772-1=0.9544$ 。无论单个零件重量分布如何， $100$ 个之和都已经近似正态——这就是中心极限定理的威力。

tip

中心极限定理是 正态分布无处不在 的根本原因：身高、考试成绩、测量误差……只要一个量是大量 独立小因素的累加，哪怕每个小因素分布古怪，叠加的结果都近似正态。这也解释了为什么实践中遇到「成因复杂、来源众多」的数据，先假设它服从正态往往八九不离十。注意前提是「大量、独立、每项贡献都不占主导」，若有个别因素一家独大，结论就会失效。

棣莫弗-拉普拉斯定理

历史上最早的中心极限定理，是它的二项分布特例。棣莫弗-拉普拉斯定理（De Moivre–Laplace Theorem）： $X\sim B(n,p)$ ，则当 $n$ 充分大时：

\frac{X-np}{\sqrt{np(1-p)}}\xrightarrow{d}N(0,1)

这正是「二项分布的正态近似」：因为 $B(n,p)$ 本身就是 $n$ 个独立 $0\text{-}1$ 变量之和，套用独立同分布 CLT 即得。工程上通常以 $np(1-p)\ge 5$ 作为可用近似的阈值。

例（棣莫弗-拉普拉斯近似）：抛均匀硬币 $n=100$ 次，求正面出现 $40$ 到 $60$ 次的概率。 $X\sim B(100,0.5)$ ， $np=50$ 、 $\sqrt{np(1-p)}=\sqrt{25}=5$ 。直接标准化：

P(40\le X\le 60)\approx\Phi\left(\frac{60-50}{5}\right)-\Phi\left(\frac{40-50}{5}\right)=\Phi(2)-\Phi(-2)\approx 0.9544

tip

连续性修正（Continuity Correction）：用连续的正态去近似离散的二项时，把整数 $k$ 的概率看成区间 $[k-0.5,k+0.5]$ 更准。续上例，若问的是「恰好 $55$ 次」，离散点本身概率被正态算成 $0$ ，必须修正成：

P(X=55)\approx\Phi\left(\frac{55.5-50}{5}\right)-\Phi\left(\frac{54.5-50}{5}\right)=\Phi(1.1)-\Phi(0.9)\approx 0.8643-0.8159=0.0484

求 $P(a\le X\le b)$ 时则把上下界各外扩 $0.5$ ：算成 $\Phi\big(\frac{b+0.5-np}{\sqrt{np(1-p)}}\big)-\Phi\big(\frac{a-0.5-np}{\sqrt{np(1-p)}}\big)$ 。 $n$ 不太大时这半个单位的修正能明显提精度。

tip

二项分布有两种近似，别用混了： $n$ 大、 $p$ 小（ $np$ 适中）时用泊松近似（参见随机变量与分布）； $n$ 大、 $p$ 不太极端（ $np(1-p)$ 足够大）时用正态近似。一个抓「稀有事件计数」，一个抓「大量试验的总体波动」。

收敛关系

随机变量列的几种收敛，强弱有别：

\text{几乎处处收敛}\implies\text{依概率收敛}\implies\text{依分布收敛}

反向一般不成立——依分布收敛最弱（只管分布形状），依概率收敛居中（管数值贴近的概率），几乎处处收敛最强（管几乎每条样本路径都收敛）。本科阶段重点掌握中间这两层：依概率收敛 对应大数定律，依分布收敛 对应中心极限定理。

参考资料​

引入​

切比雪夫不等式​

大数定律​

依概率收敛​

切比雪夫大数定律​

伯努利大数定律​

辛钦大数定律​

中心极限定理​

独立同分布的中心极限定理（林德伯格-列维）​

棣莫弗-拉普拉斯定理​

收敛关系​