Skip to main content

数理统计

参考资料

引入

概率论 是「已知分布、推断样本」;数理统计(Mathematical Statistics)反过来,是「已知样本、推断分布」。现实里总体的真实分布往往未知,我们只握有有限的观测数据,要靠它们去猜测背后的规律。

两大基本任务:

  • 参数估计(Parameter Estimation):用样本估计未知参数(分布的形状已知、只缺几个参数)。
  • 假设检验(Hypothesis Testing):用样本判断关于总体的某个命题是否成立。

把它们和概率论连起来的,是 大数定律与中心极限定理——前者保证「样本均值会收敛于总体期望」,后者给出统计量的近似分布,估计与检验才有据可依。

基本概念

总体与样本

  • 总体(Population)XX:研究对象的全体,由其分布描述。这里把「总体」直接等同于它的分布。
  • 样本(Sample)X1,,XnX_1,\dots,X_n:从总体中 独立同分布 抽取的 nn 个观测,每个 XiX_i 都与总体 XX 同分布、彼此独立(即 简单随机样本)。
  • 样本容量nn

抽样前 X1,,XnX_1,\dots,X_n 是随机变量,抽样后得到的具体数值 x1,,xnx_1,\dots,x_n 称为 样本观测值

经验分布函数

把样本观测值按「不超过 xx 的比例」累计,得到 经验分布函数(Empirical Distribution Function):

Fn(x)=1n#{i:Xix}F_n(x)=\frac{1}{n}\#\set{i:X_i\le x}

它是用样本「画」出来的阶梯状分布函数。格利文科定理保证:nn\to\inftyFn(x)F_n(x) 一致逼近真实分布函数 F(x)F(x)——这是「用样本代替总体」的最根本依据。

统计量

样本的 函数 T(X1,,Xn)T(X_1,\dots,X_n),且 不含未知参数(这样才能由数据直接算出)。常见统计量:

名称定义
样本均值Xˉ=1ni=1nXi\bar X=\dfrac{1}{n}\sum_{i=1}^{n}X_i
样本方差S2=1n1i=1n(XiXˉ)2S^2=\dfrac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar X)^2
样本标准差S=S2S=\sqrt{S^2}
kk 阶样本原点矩Ak=1ni=1nXikA_k=\dfrac{1}{n}\sum_{i=1}^{n}X_i^k
kk 阶样本中心矩Bk=1ni=1n(XiXˉ)kB_k=\dfrac{1}{n}\sum_{i=1}^{n}(X_i-\bar X)^k
tip

样本方差的分母是 n1n-1 而不是 nn,这叫 贝塞尔校正。原因是:用样本均值 Xˉ\bar X 代替真实均值 μ\mu 时,Xˉ\bar X 是「贴着样本」算出来的,会让偏差平方和偏小;除以 n1n-1(而非 nn)恰好补偿了这一点,使 S2S^2 成为 σ2\sigma^2无偏估计E(S2)=σ2E(S^2)=\sigma^2。还有一种解释是「估计 Xˉ\bar X 用掉了一个自由度,只剩 n1n-1 个独立的偏差」。

三大抽样分布

正态总体下,几个统计量服从特定分布,它们是区间估计和假设检验的工具。设 X1,,XnX_1,\dots,X_n 来自 N(0,1)N(0,1)

χ2\chi^2 分布

把若干个独立标准正态变量 平方求和,就得到 卡方分布(Chi-squared Distribution):

χ2=i=1nXi2χ2(n)\chi^2=\sum_{i=1}^{n}X_i^2\sim\chi^2(n)

nn自由度(Degrees of Freedom)。直觉上它度量「一组标准正态数据偏离原点的总平方」,因此恒为非负、右偏。其期望方差为 E(χ2)=nE(\chi^2)=nD(χ2)=2nD(\chi^2)=2n。它天然适合刻画「方差」类的量。

tt 分布(学生氏分布)

XN(0,1)X\sim N(0,1)Yχ2(n)Y\sim\chi^2(n)X,YX,Y 独立,则 tt 分布(Student's t-distribution)定义为:

T=XY/nt(n)T=\frac{X}{\sqrt{Y/n}}\sim t(n)

它形如标准正态,但 尾部更厚——因为分母 Y/n\sqrt{Y/n} 本身带随机波动,制造了额外的不确定性。tt 分布关于 00 对称,自由度 nn\to\infty 时分母趋于常数 11,于是 t(n)t(n) 趋于 N(0,1)N(0,1)。它的用途是「方差未知、用 SS 顶替 σ\sigma」时的均值推断。

FF 分布

Uχ2(m)U\sim\chi^2(m)Vχ2(n)V\sim\chi^2(n),独立,则 FF 分布(F-distribution)是两个卡方各除自由度后的比值:

F=U/mV/nF(m,n)F=\frac{U/m}{V/n}\sim F(m,n)

它本质上是「两个方差的比」,因此专门用来 比较两个总体的方差。由定义可知 F(m,n)F(m,n)F(n,m)F(n,m) 互为倒数关系。

分位数与查表

做区间估计和假设检验,都要从这三张分布表里 反查分位数:给定上侧概率 α\alpha,找临界值。约定 上侧分位数 zαz_\alpha 满足 P(Z>zα)=αP(Z>z_\alpha)=\alpha,其余同理。

  • 标准正态:常用 z0.05=1.645z_{0.05}=1.645z0.025=1.96z_{0.025}=1.96z0.01=2.326z_{0.01}=2.326。双侧 95%95\%z0.025=1.96z_{0.025}=1.96 是最该背下来的一个。
  • tt 分布tα(n)t_\alpha(n) 随自由度变化,自由度越大越接近正态。如 t0.025(9)2.262t_{0.025}(9)\approx 2.262,比正态的 1.961.96 大(尾厚)。
  • χ2\chi^2FF:不对称,两侧分位数要 分别查,不能用对称性。如 χ0.0252(9)19.02\chi^2_{0.025}(9)\approx 19.02χ0.9752(9)2.700\chi^2_{0.975}(9)\approx 2.700
tip

tt 与正态对称,所以 t1α(n)=tα(n)t_{1-\alpha}(n)=-t_\alpha(n),左尾可由右尾取负得到。但 χ2\chi^2FF 恒非负、左右不对称,左尾分位数必须单独查,这是初学最容易出错的地方。FF 的左尾可用倒数关系 F1α(m,n)=1Fα(n,m)F_{1-\alpha}(m,n)=\dfrac{1}{F_\alpha(n,m)} 换算。

正态总体的抽样分布

X1,,XnX_1,\dots,X_n i.i.d. N(μ,σ2)\sim N(\mu,\sigma^2),则有以下核心结论:

XˉN ⁣(μ,σ2n),(n1)S2σ2χ2(n1)\bar X\sim N\!\left(\mu,\frac{\sigma^2}{n}\right),\quad \frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)

其中样本均值 Xˉ\bar X 与样本方差 S2S^2 相互独立(这是正态总体特有的优良性质)。把上面两式组合、消去未知的 σ\sigma,便得到方差未知时均值推断的「主力统计量」:

XˉμS/nt(n1)\frac{\bar X-\mu}{S/\sqrt n}\sim t(n-1)

这正是 tt 分布的用武之地:用 SS 替换了 σ\sigma,代价是分布从正态变成自由度 n1n-1tt

例(抽样分布定理的应用):从 N(μ,σ2)N(\mu,\sigma^2) 中抽 n=16n=16 个样本,已知 σ=2\sigma=2,求 P(Xˉμ<1)P(|\bar X-\mu|<1)XˉN(μ,σ2n)=N(μ,416)\bar X\sim N(\mu,\frac{\sigma^2}{n})=N(\mu,\frac{4}{16}),即标准差 σn=24=0.5\frac{\sigma}{\sqrt n}=\frac{2}{4}=0.5。标准化:

P(Xˉμ<1)=P ⁣(Xˉμ0.5<2)=2Φ(2)10.9544P(|\bar X-\mu|<1)=P\!\left(\left|\frac{\bar X-\mu}{0.5}\right|<2\right)=2\Phi(2)-1\approx 0.9544

样本均值的标准差是单次的 1n\frac{1}{\sqrt n}nn 越大 Xˉ\bar X 越贴近 μ\mu——这正是后面区间估计「样本越多区间越窄」的来源。

参数估计

点估计

用一个数(统计量的取值)去估计未知参数 θ\theta,得到的统计量 θ^\hat\theta 称为 估计量。两大方法:

矩估计法

矩估计法(Method of Moments)的思想极朴素:用样本矩去估计总体矩。总体的各阶矩是 θ\theta 的函数,令「总体矩 = 样本矩」列方程,解出 θ\theta 即可。

要估几个参数,就用到几阶矩。比如估正态的 μ,σ2\mu,\sigma^2:令一阶矩 E(X)=XˉE(X)=\bar X、二阶中心矩 D(X)=B2D(X)=B_2,立刻得到 μ^=Xˉ\hat\mu=\bar Xσ^2=B2\hat\sigma^2=B_2。它的底气来自 大数定律——样本矩依概率收敛于总体矩。

例(单参数矩估计):总体 XU(0,θ)X\sim U(0,\theta),由样本 X1,,XnX_1,\dots,X_nθ\theta。一阶总体矩 E(X)=θ2E(X)=\frac\theta2,令它等于样本一阶矩 Xˉ\bar X

θ2=Xˉ  θ^=2Xˉ\frac\theta2=\bar X\ \Rightarrow\ \hat\theta=2\bar X

例(两参数矩估计):总体 XX 期望 μ\mu、方差 σ2\sigma^2 均未知。两个参数用前两阶矩:令 E(X)=XˉE(X)=\bar Xμ^=Xˉ\hat\mu=\bar X;令 E(X2)=A2E(X^2)=A_2(样本二阶原点矩),结合 E(X2)=σ2+μ2E(X^2)=\sigma^2+\mu^2

σ^2=A2Xˉ2=1ni=1nXi2Xˉ2=1ni=1n(XiXˉ)2\hat\sigma^2=A_2-\bar X^2=\frac1n\sum_{i=1}^n X_i^2-\bar X^2=\frac1n\sum_{i=1}^n(X_i-\bar X)^2

注意矩估计的方差分母是 nn(即 B2B_2),与无偏的样本方差 S2S^2(分母 n1n-1)略有差别——矩估计不保证无偏。

极大似然估计

极大似然估计(Maximum Likelihood Estimation,MLE)的思想是:哪个参数值能让「现在观测到的这组样本」出现的概率最大,就选它

把样本联合概率(密度)看成参数 θ\theta 的函数,称为 似然函数

L(θ)=i=1nf(xi;θ)L(\theta)=\prod_{i=1}^{n}f(x_i;\theta)

使 L(θ)L(\theta) 最大的 θ^\hat\theta 就是极大似然估计。实际操作中,因连乘求导麻烦,常取对数把乘积变成求和,再令导数为零:

ddθlnL(θ)=0\frac{\mathrm{d}}{\mathrm{d}\theta}\ln L(\theta)=0

这步称为 对数似然方程

tip

极大似然的直觉可以这样体会:硬币抛 1010 次出现 77 次正面,问 pp 多少最合理?显然是「让这个结果最不意外」的那个 pp,算出来恰是 p^=0.7\hat p=0.7。MLE 把这种「眼见为实、选最匹配观测的参数」的朴素想法形式化了,是现代统计与机器学习里使用最广的估计方法。

例(离散 MLE,伯努利 / 二项):nn 次独立伯努利试验,观测到 kk 次成功,估成功率 pp。似然是

L(p)=pk(1p)nkL(p)=p^k(1-p)^{n-k}

取对数 lnL=klnp+(nk)ln(1p)\ln L=k\ln p+(n-k)\ln(1-p),对 pp 求导令零:

dlnLdp=kpnk1p=0  k(1p)=(nk)p  p^=kn\frac{\mathrm{d}\ln L}{\mathrm{d}p}=\frac kp-\frac{n-k}{1-p}=0\ \Rightarrow\ k(1-p)=(n-k)p\ \Rightarrow\ \hat p=\frac kn

成功率的极大似然估计就是「样本频率」kn\frac kn,与直觉完全吻合(抛 101077 次正面,p^=0.7\hat p=0.7)。

例(连续 MLE,指数分布):样本 X1,,XnX_1,\dots,X_n 来自 E(λ)E(\lambda),密度 f(x;λ)=λeλxf(x;\lambda)=\lambda e^{-\lambda x},估 λ\lambda。似然与对数似然:

L(λ)=i=1nλeλxi=λneλxi,lnL=nlnλλi=1nxiL(\lambda)=\prod_{i=1}^n\lambda e^{-\lambda x_i}=\lambda^n e^{-\lambda\sum x_i},\qquad \ln L=n\ln\lambda-\lambda\sum_{i=1}^n x_i

求导令零:

dlnLdλ=nλi=1nxi=0  λ^=nxi=1Xˉ\frac{\mathrm{d}\ln L}{\mathrm{d}\lambda}=\frac n\lambda-\sum_{i=1}^n x_i=0\ \Rightarrow\ \hat\lambda=\frac{n}{\sum x_i}=\frac1{\bar X}

由于指数分布均值是 1λ\frac1\lambda,估计「λ^=1Xˉ\hat\lambda=\frac1{\bar X}」恰是「用样本均值估总体均值」的倒数,矩估计也给出同样结果。

例(连续 MLE,正态):样本来自 N(μ,σ2)N(\mu,\sigma^2),对数似然

lnL=n2ln(2πσ2)12σ2i=1n(xiμ)2\ln L=-\frac n2\ln(2\pi\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2

分别对 μ\muσ2\sigma^2 求偏导令零,得 μ^=Xˉ\hat\mu=\bar Xσ^2=1n(xiXˉ)2\hat\sigma^2=\frac1n\sum(x_i-\bar X)^2。这里 σ^2\hat\sigma^2 的分母仍是 nn,所以 MLE 的方差估计 有偏(同矩估计),要无偏需手动改用 n1n-1

估计量的评价

同一个参数可以有多个估计量,好坏由三条标准衡量:

  • 无偏性(Unbiasedness):E(θ^)=θE(\hat\theta)=\theta。估计量「平均而言不偏不倚」,没有系统性偏差。样本方差用 n1n-1 作分母正是为了无偏。
  • 有效性(Efficiency):在所有无偏估计中 方差最小。同样不偏,谁波动小谁更可靠。
  • 一致性(Consistency):θ^Pθ\hat\theta\xrightarrow{P}\theta(依概率收敛)。样本越多,估计越准,最终收敛到真值。

区间估计

点估计给一个数,却不知道有多准。区间估计(Interval Estimation)改给一个 置信区间 [θ^1,θ^2][\hat\theta_1,\hat\theta_2],并附上「有多大把握」:

P(θ^1θθ^2)=1αP(\hat\theta_1\le\theta\le\hat\theta_2)=1-\alpha

1α1-\alpha 称为 置信水平(Confidence Level),常取 0.950.950.990.99

tip

95%95\% 置信区间」的正确含义容易被误解:不是θ\theta95%95\% 的概率落在这个区间里」(θ\theta 是固定常数,要么在要么不在)。正确的说法是——这套构造区间的方法,重复用很多次,约有 95%95\% 的区间会盖住真值 θ\theta。随机的是区间的两个端点,而非 θ\theta

构造区间的套路是「找一个含 θ\theta、分布已知的 枢轴量,反解出 θ\theta 的范围」。正态总体均值 μ\mu 的置信区间(方差未知,用 XˉμS/nt(n1)\frac{\bar X-\mu}{S/\sqrt n}\sim t(n-1)):

[XˉSntα/2(n1), Xˉ+Sntα/2(n1)]\left[\bar X-\frac{S}{\sqrt n}t_{\alpha/2}(n-1),\ \bar X+\frac{S}{\sqrt n}t_{\alpha/2}(n-1)\right]

方差已知时把 SStt 分位数换成 σ\sigma、标准正态分位数 zα/2z_{\alpha/2} 即可。

例(方差已知,求 μ\mu 的置信区间):从 N(μ,σ2)N(\mu,\sigma^2)n=16n=16,已知 σ=2\sigma=2,算得 Xˉ=10\bar X=10,求 μ\mu95%95\% 置信区间。枢轴量 Xˉμσ/nN(0,1)\frac{\bar X-\mu}{\sigma/\sqrt n}\sim N(0,1)z0.025=1.96z_{0.025}=1.96,半宽

σnz0.025=24×1.96=0.98\frac{\sigma}{\sqrt n}z_{0.025}=\frac{2}{4}\times 1.96=0.98

区间为 [100.98, 10+0.98]=[9.02, 10.98][10-0.98,\ 10+0.98]=[9.02,\ 10.98]

例(方差未知,求 μ\mu 的置信区间):抽 n=9n=9,算得 Xˉ=20\bar X=20S=3S=3,求 μ\mu95%95\% 置信区间。方差未知改用 tt,自由度 n1=8n-1=8t0.025(8)2.306t_{0.025}(8)\approx 2.306,半宽

Snt0.025(8)=33×2.306=2.306\frac{S}{\sqrt n}t_{0.025}(8)=\frac{3}{3}\times 2.306=2.306

区间为 [202.306, 20+2.306]=[17.69, 22.31][20-2.306,\ 20+2.306]=[17.69,\ 22.31]。同样置信水平下 tt 区间比正态略宽,这是「方差未知」付出的代价。

例(求 σ2\sigma^2 的置信区间):续上 n=9n=9S2=9S^2=9,求 σ2\sigma^295%95\% 置信区间。枢轴量 (n1)S2σ2χ2(8)\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(8),查 χ0.0252(8)17.53\chi^2_{0.025}(8)\approx 17.53χ0.9752(8)2.180\chi^2_{0.975}(8)\approx 2.180。由 χ0.9752(n1)S2σ2χ0.0252\chi^2_{0.975}\le\frac{(n-1)S^2}{\sigma^2}\le\chi^2_{0.025} 反解 σ2\sigma^2(注意大分位数对应区间下限):

[(n1)S2χ0.0252(8), (n1)S2χ0.9752(8)]=[7217.53, 722.180][4.11, 33.0]\left[\frac{(n-1)S^2}{\chi^2_{0.025}(8)},\ \frac{(n-1)S^2}{\chi^2_{0.975}(8)}\right]=\left[\frac{72}{17.53},\ \frac{72}{2.180}\right]\approx[4.11,\ 33.0]

χ2\chi^2 不对称,所以方差的置信区间也不对称,且两个分位数必须分别查。

假设检验

基本思想

假设检验的逻辑是 「概率反证法」:先假定要质疑的命题 H0H_0 成立,在此前提下算出「观测到当前(或更极端)数据」的概率;如果这个概率小到几乎不可能发生,就认为「假设与事实矛盾」,从而 拒绝 H0H_0——这就是 小概率事件在一次试验中几乎不会发生 原理。

操作步骤:

  1. 提出 原假设 H0H_0备择假设 H1H_1
  2. H0H_0 成立的前提下,构造分布已知的 检验统计量
  3. 给定 显著性水平 α\alpha,确定 拒绝域(小概率区域)。
  4. 由样本计算统计量,看是否落入拒绝域;落入则拒绝 H0H_0,否则不拒绝。

两类错误

判断难免出错,且两类错误此消彼长:

H0H_0 为真H0H_0 为假
拒绝 H0H_0第一类错误(弃真),概率 α\alpha判断正确
接受 H0H_0判断正确第二类错误(取伪),概率 β\beta
  • 第一类错误(弃真)H0H_0 本来对,却被错误地拒绝,概率恰是显著性水平 α\alpha
  • 第二类错误(取伪)H0H_0 本来错,却没能拒绝,概率为 β\beta
tip

在样本量固定时,α\alphaβ\beta 不能同时变小——α\alpha 取得越小(越「保守」、越不轻易拒绝 H0H_0),拒绝域越窄,β\beta 就越大。检验设计上通常 优先控制第一类错误(把 α\alpha 定死在 0.050.05 等),因为「错杀」往往代价更高;想同时压低 β\beta,唯一的办法是 加大样本量。这也是为什么不轻易说「接受 H0H_0」,而说「没有足够证据拒绝 H0H_0」。

正态总体均值检验

检验 H0:μ=μ0H_0:\mu=\mu_0,按方差是否已知选统计量:

条件统计量服从
ZZ 检验σ2\sigma^2 已知Z=Xˉμ0σ/nZ=\dfrac{\bar X-\mu_0}{\sigma/\sqrt n}N(0,1)N(0,1)
tt 检验σ2\sigma^2 未知T=Xˉμ0S/nT=\dfrac{\bar X-\mu_0}{S/\sqrt n}t(n1)t(n-1)

二者的区别只在「σ\sigma 已知就用 σ\sigmaZZ 检验,未知就用 SS 顶替、tt 检验」,与区间估计完全呼应。

例(ZZ 检验完整流程):某品牌灯泡标称平均寿命 μ0=1000\mu_0=1000 小时,已知 σ=50\sigma=50。抽 n=25n=25 只测得 Xˉ=980\bar X=980,问寿命是否显著低于标称(α=0.05\alpha=0.05)。

  1. 假设H0:μ=1000H_0:\mu=1000H1:μ<1000H_1:\mu<1000(单侧)。
  2. 统计量Z=Xˉμ0σ/n=980100050/5=2010=2Z=\dfrac{\bar X-\mu_0}{\sigma/\sqrt n}=\dfrac{980-1000}{50/5}=\dfrac{-20}{10}=-2
  3. 拒绝域:单侧,Z<z0.05=1.645Z<-z_{0.05}=-1.645
  4. 结论2<1.645-2<-1.645,落入拒绝域,拒绝 H0H_0,认为寿命显著低于 10001000 小时。

例(tt 检验完整流程):某零件直径标准值 μ0=10\mu_0=10,方差未知。抽 n=9n=9 测得 Xˉ=10.3\bar X=10.3S=0.3S=0.3,问直径是否与标准有显著差异(α=0.05\alpha=0.05,双侧)。

  1. 假设H0:μ=10H_0:\mu=10H1:μ10H_1:\mu\ne 10
  2. 统计量T=Xˉμ0S/n=10.3100.3/3=0.30.1=3T=\dfrac{\bar X-\mu_0}{S/\sqrt n}=\dfrac{10.3-10}{0.3/3}=\dfrac{0.3}{0.1}=3,服从 t(8)t(8)
  3. 拒绝域:双侧,T>t0.025(8)2.306|T|>t_{0.025}(8)\approx 2.306
  4. 结论3>2.3063>2.306拒绝 H0H_0,直径与标准值有显著差异。

正态总体方差检验

检验 H0:σ2=σ02H_0:\sigma^2=\sigma_0^2,用卡方统计量:

χ2=(n1)S2σ02χ2(n1)\chi^2=\frac{(n-1)S^2}{\sigma_0^2}\sim\chi^2(n-1)

比较两个正态总体的方差是否相等,则用 FF 检验,统计量取两样本方差之比 S12S22F(n11,n21)\dfrac{S_1^2}{S_2^2}\sim F(n_1-1,n_2-1)。可以看到,三大抽样分布在这里各司其职:均值看正态 / tt,方差看 χ2\chi^2,两方差之比看 FF

例(χ2\chi^2 检验完整流程):某工艺要求零件长度方差不超过 σ02=0.04\sigma_0^2=0.04。抽 n=10n=10 测得 S2=0.08S^2=0.08,问方差是否显著偏大(α=0.05\alpha=0.05,单侧)。

  1. 假设H0:σ2=0.04H_0:\sigma^2=0.04H1:σ2>0.04H_1:\sigma^2>0.04
  2. 统计量χ2=(n1)S2σ02=9×0.080.04=18\chi^2=\dfrac{(n-1)S^2}{\sigma_0^2}=\dfrac{9\times 0.08}{0.04}=18,服从 χ2(9)\chi^2(9)
  3. 拒绝域:右单侧,χ2>χ0.052(9)16.92\chi^2>\chi^2_{0.05}(9)\approx 16.92
  4. 结论18>16.9218>16.92拒绝 H0H_0,方差显著偏大,工艺需检修。

整套流程都是同一个模板——写假设、构造在 H0H_0 下分布已知的统计量、由 α\alpha 划定拒绝域、代入数据看是否落入。换检验只是换统计量和分布,骨架不变。