概率论 是「已知分布、推断样本」;数理统计(Mathematical Statistics)反过来,是「已知样本、推断分布」。现实里总体的真实分布往往未知,我们只握有有限的观测数据,要靠它们去猜测背后的规律。
两大基本任务:
- 参数估计(Parameter Estimation):用样本估计未知参数(分布的形状已知、只缺几个参数)。
- 假设检验(Hypothesis Testing):用样本判断关于总体的某个命题是否成立。
把它们和概率论连起来的,是 大数定律与中心极限定理——前者保证「样本均值会收敛于总体期望」,后者给出统计量的近似分布,估计与检验才有据可依。
- 总体(Population)X:研究对象的全体,由其分布描述。这里把「总体」直接等同于它的分布。
- 样本(Sample)X1,…,Xn:从总体中 独立同分布 抽取的 n 个观测,每个 Xi 都与总体 X 同分布、彼此独立(即 简单随机样本)。
- 样本容量:n。
抽样前 X1,…,Xn 是随机变量,抽样后得到的具体数值 x1,…,xn 称为 样本观测值。
把样本观测值按「不超过 x 的比例」累计,得到 经验分布函数(Empirical Distribution Function):
Fn(x)=n1#{i:Xi≤x}
它是用样本「画」出来的阶梯状分布函数。格利文科定理保证:n→∞ 时 Fn(x) 一致逼近真实分布函数 F(x)——这是「用样本代替总体」的最根本依据。
样本的 函数 T(X1,…,Xn),且 不含未知参数(这样才能由数据直接算出)。常见统计量:
| 名称 | 定义 |
|---|
| 样本均值 | Xˉ=n1∑i=1nXi |
| 样本方差 | S2=n−11∑i=1n(Xi−Xˉ)2 |
| 样本标准差 | S=S2 |
| k 阶样本原点矩 | Ak=n1∑i=1nXik |
| k 阶样本中心矩 | Bk=n1∑i=1n(Xi−Xˉ)k |
样本方差的分母是 n−1 而不是 n,这叫 贝塞尔校正。原因是:用样本均值 Xˉ 代替真实均值 μ 时,Xˉ 是「贴着样本」算出来的,会让偏差平方和偏小;除以 n−1(而非 n)恰好补偿了这一点,使 S2 成为 σ2 的 无偏估计:E(S2)=σ2。还有一种解释是「估计 Xˉ 用掉了一个自由度,只剩 n−1 个独立的偏差」。
正态总体下,几个统计量服从特定分布,它们是区间估计和假设检验的工具。设 X1,…,Xn 来自 N(0,1)。
把若干个独立标准正态变量 平方求和,就得到 卡方分布(Chi-squared Distribution):
χ2=i=1∑nXi2∼χ2(n)
n 为 自由度(Degrees of Freedom)。直觉上它度量「一组标准正态数据偏离原点的总平方」,因此恒为非负、右偏。其期望方差为 E(χ2)=n,D(χ2)=2n。它天然适合刻画「方差」类的量。
设 X∼N(0,1),Y∼χ2(n),X,Y 独立,则 t 分布(Student's t-distribution)定义为:
T=Y/nX∼t(n)
它形如标准正态,但 尾部更厚——因为分母 Y/n 本身带随机波动,制造了额外的不确定性。t 分布关于 0 对称,自由度 n→∞ 时分母趋于常数 1,于是 t(n) 趋于 N(0,1)。它的用途是「方差未知、用 S 顶替 σ」时的均值推断。
设 U∼χ2(m),V∼χ2(n),独立,则 F 分布(F-distribution)是两个卡方各除自由度后的比值:
F=V/nU/m∼F(m,n)
它本质上是「两个方差的比」,因此专门用来 比较两个总体的方差。由定义可知 F(m,n) 与 F(n,m) 互为倒数关系。
做区间估计和假设检验,都要从这三张分布表里 反查分位数:给定上侧概率 α,找临界值。约定 上侧分位数 zα 满足 P(Z>zα)=α,其余同理。
- 标准正态:常用 z0.05=1.645、z0.025=1.96、z0.01=2.326。双侧 95% 取 z0.025=1.96 是最该背下来的一个。
- t 分布:tα(n) 随自由度变化,自由度越大越接近正态。如 t0.025(9)≈2.262,比正态的 1.96 大(尾厚)。
- χ2 与 F:不对称,两侧分位数要 分别查,不能用对称性。如 χ0.0252(9)≈19.02、χ0.9752(9)≈2.700。
t 与正态对称,所以 t1−α(n)=−tα(n),左尾可由右尾取负得到。但 χ2 和 F 恒非负、左右不对称,左尾分位数必须单独查,这是初学最容易出错的地方。F 的左尾可用倒数关系 F1−α(m,n)=Fα(n,m)1 换算。
设 X1,…,Xn i.i.d. ∼N(μ,σ2),则有以下核心结论:
Xˉ∼N(μ,nσ2),σ2(n−1)S2∼χ2(n−1)
其中样本均值 Xˉ 与样本方差 S2 相互独立(这是正态总体特有的优良性质)。把上面两式组合、消去未知的 σ,便得到方差未知时均值推断的「主力统计量」:
S/nXˉ−μ∼t(n−1)
这正是 t 分布的用武之地:用 S 替换了 σ,代价是分布从正态变成自由度 n−1 的 t。
例(抽样分布定理的应用):从 N(μ,σ2) 中抽 n=16 个样本,已知 σ=2,求 P(∣Xˉ−μ∣<1)。Xˉ∼N(μ,nσ2)=N(μ,164),即标准差 nσ=42=0.5。标准化:
P(∣Xˉ−μ∣<1)=P(0.5Xˉ−μ<2)=2Φ(2)−1≈0.9544
样本均值的标准差是单次的 n1,n 越大 Xˉ 越贴近 μ——这正是后面区间估计「样本越多区间越窄」的来源。
用一个数(统计量的取值)去估计未知参数 θ,得到的统计量 θ^ 称为 估计量。两大方法:
矩估计法(Method of Moments)的思想极朴素:用样本矩去估计总体矩。总体的各阶矩是 θ 的函数,令「总体矩 = 样本矩」列方程,解出 θ 即可。
要估几个参数,就用到几阶矩。比如估正态的 μ,σ2:令一阶矩 E(X)=Xˉ、二阶中心矩 D(X)=B2,立刻得到 μ^=Xˉ、σ^2=B2。它的底气来自 大数定律——样本矩依概率收敛于总体矩。
例(单参数矩估计):总体 X∼U(0,θ),由样本 X1,…,Xn 估 θ。一阶总体矩 E(X)=2θ,令它等于样本一阶矩 Xˉ:
2θ=Xˉ ⇒ θ^=2Xˉ
例(两参数矩估计):总体 X 期望 μ、方差 σ2 均未知。两个参数用前两阶矩:令 E(X)=Xˉ 得 μ^=Xˉ;令 E(X2)=A2(样本二阶原点矩),结合 E(X2)=σ2+μ2 得
σ^2=A2−Xˉ2=n1i=1∑nXi2−Xˉ2=n1i=1∑n(Xi−Xˉ)2
注意矩估计的方差分母是 n(即 B2),与无偏的样本方差 S2(分母 n−1)略有差别——矩估计不保证无偏。
极大似然估计(Maximum Likelihood Estimation,MLE)的思想是:哪个参数值能让「现在观测到的这组样本」出现的概率最大,就选它。
把样本联合概率(密度)看成参数 θ 的函数,称为 似然函数:
L(θ)=i=1∏nf(xi;θ)
使 L(θ) 最大的 θ^ 就是极大似然估计。实际操作中,因连乘求导麻烦,常取对数把乘积变成求和,再令导数为零:
dθdlnL(θ)=0
这步称为 对数似然方程。
极大似然的直觉可以这样体会:硬币抛 10 次出现 7 次正面,问 p 多少最合理?显然是「让这个结果最不意外」的那个 p,算出来恰是 p^=0.7。MLE 把这种「眼见为实、选最匹配观测的参数」的朴素想法形式化了,是现代统计与机器学习里使用最广的估计方法。
例(离散 MLE,伯努利 / 二项):n 次独立伯努利试验,观测到 k 次成功,估成功率 p。似然是
L(p)=pk(1−p)n−k
取对数 lnL=klnp+(n−k)ln(1−p),对 p 求导令零:
dpdlnL=pk−1−pn−k=0 ⇒ k(1−p)=(n−k)p ⇒ p^=nk
成功率的极大似然估计就是「样本频率」nk,与直觉完全吻合(抛 10 次 7 次正面,p^=0.7)。
例(连续 MLE,指数分布):样本 X1,…,Xn 来自 E(λ),密度 f(x;λ)=λe−λx,估 λ。似然与对数似然:
L(λ)=i=1∏nλe−λxi=λne−λ∑xi,lnL=nlnλ−λi=1∑nxi
求导令零:
dλdlnL=λn−i=1∑nxi=0 ⇒ λ^=∑xin=Xˉ1
由于指数分布均值是 λ1,估计「λ^=Xˉ1」恰是「用样本均值估总体均值」的倒数,矩估计也给出同样结果。
例(连续 MLE,正态):样本来自 N(μ,σ2),对数似然
lnL=−2nln(2πσ2)−2σ21i=1∑n(xi−μ)2
分别对 μ、σ2 求偏导令零,得 μ^=Xˉ、σ^2=n1∑(xi−Xˉ)2。这里 σ^2 的分母仍是 n,所以 MLE 的方差估计 有偏(同矩估计),要无偏需手动改用 n−1。
同一个参数可以有多个估计量,好坏由三条标准衡量:
- 无偏性(Unbiasedness):E(θ^)=θ。估计量「平均而言不偏不倚」,没有系统性偏差。样本方差用 n−1 作分母正是为了无偏。
- 有效性(Efficiency):在所有无偏估计中 方差最小。同样不偏,谁波动小谁更可靠。
- 一致性(Consistency):θ^Pθ(依概率收敛)。样本越多,估计越准,最终收敛到真值。
点估计给一个数,却不知道有多准。区间估计(Interval Estimation)改给一个 置信区间 [θ^1,θ^2],并附上「有多大把握」:
P(θ^1≤θ≤θ^2)=1−α
1−α 称为 置信水平(Confidence Level),常取 0.95 或 0.99。
「95% 置信区间」的正确含义容易被误解:不是 「θ 有 95% 的概率落在这个区间里」(θ 是固定常数,要么在要么不在)。正确的说法是——这套构造区间的方法,重复用很多次,约有 95% 的区间会盖住真值 θ。随机的是区间的两个端点,而非 θ。
构造区间的套路是「找一个含 θ、分布已知的 枢轴量,反解出 θ 的范围」。正态总体均值 μ 的置信区间(方差未知,用 S/nXˉ−μ∼t(n−1)):
[Xˉ−nStα/2(n−1), Xˉ+nStα/2(n−1)]
方差已知时把 S、t 分位数换成 σ、标准正态分位数 zα/2 即可。
例(方差已知,求 μ 的置信区间):从 N(μ,σ2) 抽 n=16,已知 σ=2,算得 Xˉ=10,求 μ 的 95% 置信区间。枢轴量 σ/nXˉ−μ∼N(0,1),z0.025=1.96,半宽
nσz0.025=42×1.96=0.98
区间为 [10−0.98, 10+0.98]=[9.02, 10.98]。
例(方差未知,求 μ 的置信区间):抽 n=9,算得 Xˉ=20、S=3,求 μ 的 95% 置信区间。方差未知改用 t,自由度 n−1=8,t0.025(8)≈2.306,半宽
nSt0.025(8)=33×2.306=2.306
区间为 [20−2.306, 20+2.306]=[17.69, 22.31]。同样置信水平下 t 区间比正态略宽,这是「方差未知」付出的代价。
例(求 σ2 的置信区间):续上 n=9、S2=9,求 σ2 的 95% 置信区间。枢轴量 σ2(n−1)S2∼χ2(8),查 χ0.0252(8)≈17.53、χ0.9752(8)≈2.180。由 χ0.9752≤σ2(n−1)S2≤χ0.0252 反解 σ2(注意大分位数对应区间下限):
[χ0.0252(8)(n−1)S2, χ0.9752(8)(n−1)S2]=[17.5372, 2.18072]≈[4.11, 33.0]
χ2 不对称,所以方差的置信区间也不对称,且两个分位数必须分别查。
假设检验的逻辑是 「概率反证法」:先假定要质疑的命题 H0 成立,在此前提下算出「观测到当前(或更极端)数据」的概率;如果这个概率小到几乎不可能发生,就认为「假设与事实矛盾」,从而 拒绝 H0——这就是 小概率事件在一次试验中几乎不会发生 原理。
操作步骤:
- 提出 原假设 H0 与 备择假设 H1。
- 在 H0 成立的前提下,构造分布已知的 检验统计量。
- 给定 显著性水平 α,确定 拒绝域(小概率区域)。
- 由样本计算统计量,看是否落入拒绝域;落入则拒绝 H0,否则不拒绝。
判断难免出错,且两类错误此消彼长:
| H0 为真 | H0 为假 |
|---|
| 拒绝 H0 | 第一类错误(弃真),概率 α | 判断正确 |
| 接受 H0 | 判断正确 | 第二类错误(取伪),概率 β |
- 第一类错误(弃真):H0 本来对,却被错误地拒绝,概率恰是显著性水平 α。
- 第二类错误(取伪):H0 本来错,却没能拒绝,概率为 β。
在样本量固定时,α 和 β 不能同时变小——α 取得越小(越「保守」、越不轻易拒绝 H0),拒绝域越窄,β 就越大。检验设计上通常 优先控制第一类错误(把 α 定死在 0.05 等),因为「错杀」往往代价更高;想同时压低 β,唯一的办法是 加大样本量。这也是为什么不轻易说「接受 H0」,而说「没有足够证据拒绝 H0」。
检验 H0:μ=μ0,按方差是否已知选统计量:
| 条件 | 统计量 | 服从 |
|---|
| Z 检验 | σ2 已知 | Z=σ/nXˉ−μ0 | N(0,1) |
| t 检验 | σ2 未知 | T=S/nXˉ−μ0 | t(n−1) |
二者的区别只在「σ 已知就用 σ、Z 检验,未知就用 S 顶替、t 检验」,与区间估计完全呼应。
例(Z 检验完整流程):某品牌灯泡标称平均寿命 μ0=1000 小时,已知 σ=50。抽 n=25 只测得 Xˉ=980,问寿命是否显著低于标称(α=0.05)。
- 假设:H0:μ=1000,H1:μ<1000(单侧)。
- 统计量:Z=σ/nXˉ−μ0=50/5980−1000=10−20=−2。
- 拒绝域:单侧,Z<−z0.05=−1.645。
- 结论:−2<−1.645,落入拒绝域,拒绝 H0,认为寿命显著低于 1000 小时。
例(t 检验完整流程):某零件直径标准值 μ0=10,方差未知。抽 n=9 测得 Xˉ=10.3、S=0.3,问直径是否与标准有显著差异(α=0.05,双侧)。
- 假设:H0:μ=10,H1:μ=10。
- 统计量:T=S/nXˉ−μ0=0.3/310.3−10=0.10.3=3,服从 t(8)。
- 拒绝域:双侧,∣T∣>t0.025(8)≈2.306。
- 结论:3>2.306,拒绝 H0,直径与标准值有显著差异。
检验 H0:σ2=σ02,用卡方统计量:
χ2=σ02(n−1)S2∼χ2(n−1)
比较两个正态总体的方差是否相等,则用 F 检验,统计量取两样本方差之比 S22S12∼F(n1−1,n2−1)。可以看到,三大抽样分布在这里各司其职:均值看正态 / t,方差看 χ2,两方差之比看 F。
例(χ2 检验完整流程):某工艺要求零件长度方差不超过 σ02=0.04。抽 n=10 测得 S2=0.08,问方差是否显著偏大(α=0.05,单侧)。
- 假设:H0:σ2=0.04,H1:σ2>0.04。
- 统计量:χ2=σ02(n−1)S2=0.049×0.08=18,服从 χ2(9)。
- 拒绝域:右单侧,χ2>χ0.052(9)≈16.92。
- 结论:18>16.92,拒绝 H0,方差显著偏大,工艺需检修。
整套流程都是同一个模板——写假设、构造在 H0 下分布已知的统计量、由 α 划定拒绝域、代入数据看是否落入。换检验只是换统计量和分布,骨架不变。