数理统计

参考资料

引入

概率论是「已知分布、推断样本」；数理统计（Mathematical Statistics）反过来，是「已知样本、推断分布」。现实里总体的真实分布往往未知，我们只握有有限的观测数据，要靠它们去猜测背后的规律。

两大基本任务：

参数估计（Parameter Estimation）：用样本估计未知参数（分布的形状已知、只缺几个参数）。
假设检验（Hypothesis Testing）：用样本判断关于总体的某个命题是否成立。

把它们和概率论连起来的，是大数定律与中心极限定理——前者保证「样本均值会收敛于总体期望」，后者给出统计量的近似分布，估计与检验才有据可依。

基本概念

总体与样本

总体（Population） $X$ ：研究对象的全体，由其分布描述。这里把「总体」直接等同于它的分布。
样本（Sample） $X_1,\dots,X_n$ ：从总体中 独立同分布 抽取的 $n$ 个观测，每个 $X_i$ 都与总体 $X$ 同分布、彼此独立（即 简单随机样本）。
样本容量： $n$ 。

抽样前 $X_1,\dots,X_n$ 是随机变量，抽样后得到的具体数值 $x_1,\dots,x_n$ 称为 样本观测值。

经验分布函数

把样本观测值按「不超过 $x$ 的比例」累计，得到 经验分布函数（Empirical Distribution Function）：

F_n(x)=\frac{1}{n}\#\set{i:X_i\le x}

它是用样本「画」出来的阶梯状分布函数。格利文科定理保证： $n\to\infty$ 时 $F_n(x)$ 一致逼近真实分布函数 $F(x)$ ——这是「用样本代替总体」的最根本依据。

统计量

样本的函数 $T(X_1,\dots,X_n)$ ，且 不含未知参数（这样才能由数据直接算出）。常见统计量：

名称	定义
样本均值	$\bar X=\dfrac{1}{n}\sum_{i=1}^nX_i$
样本方差	$S^2=\dfrac{1}{n-1}\sum_{i=1}^n(X_i-\bar X)^2$
样本标准差	$S=\sqrt{S^2}$
$k$ 阶样本原点矩	$A_k=\dfrac{1}{n}\sum_{i=1}^nX_i^k$
$k$ 阶样本中心矩	$B_k=\dfrac{1}{n}\sum_{i=1}^n(X_i-\bar X)^k$

tip

样本方差的分母是 $n-1$ 而不是 $n$ ，这叫 贝塞尔校正。原因是：用样本均值 $\bar X$ 代替真实均值 $\mu$ 时， $\bar X$ 是「贴着样本」算出来的，会让偏差平方和偏小；除以 $n-1$ （而非 $n$ ）恰好补偿了这一点，使 $S^2$ 成为 $\sigma^2$ 的 无偏估计： $E(S^2)=\sigma^2$ 。还有一种解释是「估计 $\bar X$ 用掉了一个自由度，只剩 $n-1$ 个独立的偏差」。

三大抽样分布

正态总体下，几个统计量服从特定分布，它们是区间估计和假设检验的工具。设 $X_1,\dots,X_n$ 来自 $N(0,1)$ 。

$\chi^2$ 分布

把若干个独立标准正态变量 平方求和，就得到 卡方分布（Chi-squared Distribution）：

\chi^2=\sum_{i=1}^nX_i^2\sim\chi^2(n)

$n$ 为 自由度（Degrees of Freedom）。直觉上它度量「一组标准正态数据偏离原点的总平方」，因此恒为非负、右偏。其期望方差为 $E(\chi^2)=n$ ， $D(\chi^2)=2n$ 。它天然适合刻画「方差」类的量。

$t$ 分布（学生氏分布）

设 $X\sim N(0,1)$ ， $Y\sim\chi^2(n)$ ， $X,Y$ 独立，则 $t$ 分布（Student's t-distribution）定义为：

T=\frac{X}{\sqrt{Y/n}}\sim t(n)

它形如标准正态，但 尾部更厚——因为分母 $\sqrt{Y/n}$ 本身带随机波动，制造了额外的不确定性。 $t$ 分布关于 $0$ 对称，自由度 $n\to\infty$ 时分母趋于常数 $1$ ，于是 $t(n)$ 趋于 $N(0,1)$ 。它的用途是「方差未知、用 $S$ 顶替 $\sigma$ 」时的均值推断。

$F$ 分布

设 $U\sim\chi^2(m)$ ， $V\sim\chi^2(n)$ ，独立，则 $F$ 分布（F-distribution）是两个卡方各除自由度后的比值：

F=\frac{U/m}{V/n}\sim F(m,n)

它本质上是「两个方差的比」，因此专门用来 比较两个总体的方差。由定义可知 $F(m,n)$ 与 $F(n,m)$ 互为倒数关系。

分位数与查表

做区间估计和假设检验，都要从这三张分布表里 反查分位数：给定上侧概率 $\alpha$ ，找临界值。约定 上侧分位数 $z_\alpha$ 满足 $P(Z>z_\alpha)=\alpha$ ，其余同理。

标准正态：常用 $z_{0.05}=1.645$ 、 $z_{0.025}=1.96$ 、 $z_{0.01}=2.326$ 。双侧 $95\%$ 取 $z_{0.025}=1.96$ 是最该背下来的一个。
$t$ 分布： $t_\alpha(n)$ 随自由度变化，自由度越大越接近正态。如 $t_{0.025}(9)\approx 2.262$ ，比正态的 $1.96$ 大（尾厚）。
$\chi^2$ 与 $F$ ：不对称，两侧分位数要 分别查，不能用对称性。如 $\chi_{0.025}^2(9)\approx 19.02$ 、 $\chi_{0.975}^2(9)\approx 2.700$ 。

tip

$t$ 与正态对称，所以 $t_{1-\alpha}(n)=-t_\alpha(n)$ ，左尾可由右尾取负得到。但 $\chi^2$ 和 $F$ 恒非负、左右不对称，左尾分位数必须单独查，这是初学最容易出错的地方。 $F$ 的左尾可用倒数关系 $F_{1-\alpha}(m,n)=\dfrac{1}{F_\alpha(n,m)}$ 换算。

正态总体的抽样分布

设 $X_1,\dots,X_n$ i.i.d. $\sim N(\mu,\sigma^2)$ ，则有以下核心结论：

\bar X\sim N\left(\mu,\frac{\sigma^2}{n}\right),\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)

其中样本均值 $\bar X$ 与样本方差 $S^2$ 相互独立（这是正态总体特有的优良性质）。把上面两式组合、消去未知的 $\sigma$ ，便得到方差未知时均值推断的「主力统计量」：

\frac{\bar X-\mu}{S/\sqrt n}\sim t(n-1)

这正是 $t$ 分布的用武之地：用 $S$ 替换了 $\sigma$ ，代价是分布从正态变成自由度 $n-1$ 的 $t$ 。

例（抽样分布定理的应用）：从 $N(\mu,\sigma^2)$ 中抽 $n=16$ 个样本，已知 $\sigma=2$ ，求 $P(|\bar X-\mu|<1)$ 。 $\bar X\sim N(\mu,\frac{\sigma^2}{n})=N(\mu,\frac{4}{16})$ ，即标准差 $\frac{\sigma}{\sqrt n}=\frac{2}{4}=0.5$ 。标准化：

P(|\bar X-\mu|<1)=P\left(\left|\frac{\bar X-\mu}{0.5}\right|<2\right)=2\Phi(2)-1\approx 0.9544

样本均值的标准差是单次的 $\frac{1}{\sqrt n}$ ， $n$ 越大 $\bar X$ 越贴近 $\mu$ ——这正是后面区间估计「样本越多区间越窄」的来源。

参数估计

点估计

用一个数（统计量的取值）去估计未知参数 $\theta$ ，得到的统计量 $\hat\theta$ 称为 估计量。两大方法：

矩估计法

矩估计法（Method of Moments）的思想极朴素：用样本矩去估计总体矩。总体的各阶矩是 $\theta$ 的函数，令「总体矩 = 样本矩」列方程，解出 $\theta$ 即可。

要估几个参数，就用到几阶矩。比如估正态的 $\mu,\sigma^2$ ：令一阶矩 $E(X)=\bar X$ 、二阶中心矩 $D(X)=B_2$ ，立刻得到 $\hat\mu=\bar X$ 、 $\hat\sigma^2=B_2$ 。它的底气来自大数定律——样本矩依概率收敛于总体矩。

例（单参数矩估计）：总体 $X\sim U(0,\theta)$ ，由样本 $X_1,\dots,X_n$ 估 $\theta$ 。一阶总体矩 $E(X)=\frac{\theta}{2}$ ，令它等于样本一阶矩 $\bar X$ ：

\frac{\theta}{2}=\bar X\implies\hat\theta=2\bar X

例（两参数矩估计）：总体 $X$ 期望 $\mu$ 、方差 $\sigma^2$ 均未知。两个参数用前两阶矩：令 $E(X)=\bar X$ 得 $\hat\mu=\bar X$ ；令 $E(X^2)=A_2$ （样本二阶原点矩），结合 $E(X^2)=\sigma^2+\mu^2$ 得：

\hat\sigma^2=A_2-\bar X^2=\frac{1}{n}\sum_{i=1}^n X_i^2-\bar X^2=\frac{1}{n}\sum_{i=1}^n(X_i-\bar X)^2

注意矩估计的方差分母是 $n$ （即 $B_2$ ），与无偏的样本方差 $S^2$ （分母 $n-1$ ）略有差别——矩估计不保证无偏。

极大似然估计

极大似然估计（Maximum Likelihood Estimation，MLE）的思想是：哪个参数值能让「现在观测到的这组样本」出现的概率最大，就选它。

把样本联合概率（密度）看成参数 $\theta$ 的函数，称为 似然函数：

L(\theta)=\prod_{i=1}^nf(x_i;\theta)

使 $L(\theta)$ 最大的 $\hat\theta$ 就是极大似然估计。实际操作中，因连乘求导麻烦，常取对数把乘积变成求和，再令导数为零：

\frac{\mathrm{d}}{\mathrm{d}\theta}\ln L(\theta)=0

这步称为 对数似然方程。

tip

极大似然的直觉可以这样体会：硬币抛 $10$ 次出现 $7$ 次正面，问 $p$ 多少最合理？显然是「让这个结果最不意外」的那个 $p$ ，算出来恰是 $\hat p=0.7$ 。MLE 把这种「眼见为实、选最匹配观测的参数」的朴素想法形式化了，是现代统计与机器学习里使用最广的估计方法。

例（离散 MLE，伯努利 / 二项）： $n$ 次独立伯努利试验，观测到 $k$ 次成功，估成功率 $p$ 。似然是：

L(p)=p^k(1-p)^{n-k}

取对数 $\ln L=k\ln p+(n-k)\ln(1-p)$ ，对 $p$ 求导令零：

\frac{\mathrm{d}\ln L}{\mathrm{d}p}=\frac{k}{p}-\frac{n-k}{1-p}=0\implies k(1-p)=(n-k)p\implies\hat p=\frac{k}{n}

成功率的极大似然估计就是「样本频率」 $\frac{k}{n}$ ，与直觉完全吻合（抛 $10$ 次 $7$ 次正面， $\hat p=0.7$ ）。

例（连续 MLE，指数分布）：样本 $X_1,\dots,X_n$ 来自 $E(\lambda)$ ，密度 $f(x;\lambda)=\lambda e^{-\lambda x}$ ，估 $\lambda$ 。似然与对数似然：

L(\lambda)=\prod_{i=1}^n\lambda e^{-\lambda x_i}=\lambda^n e^{-\lambda\sum x_i},\ln L=n\ln\lambda-\lambda\sum_{i=1}^n x_i

求导令零：

\frac{\mathrm{d}\ln L}{\mathrm{d}\lambda}=\frac{n}{\lambda}-\sum_{i=1}^n x_i=0\implies\hat\lambda=\frac{n}{\sum x_i}=\frac{1}{\bar X}

由于指数分布均值是 $\frac{1}{\lambda}$ ，估计「 $\hat\lambda=\frac{1}{\bar X}$ 」恰是「用样本均值估总体均值」的倒数，矩估计也给出同样结果。

例（连续 MLE，正态）：样本来自 $N(\mu,\sigma^2)$ ，对数似然：

\ln L=-\frac{n}{2}\ln(2\pi\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2

分别对 $\mu$ 、 $\sigma^2$ 求偏导令零，得 $\hat\mu=\bar X$ 、 $\hat\sigma^2=\frac{1}{n}\sum(x_i-\bar X)^2$ 。这里 $\hat\sigma^2$ 的分母仍是 $n$ ，所以 MLE 的方差估计有偏（同矩估计），要无偏需手动改用 $n-1$ 。

估计量的评价

同一个参数可以有多个估计量，好坏由三条标准衡量：

无偏性（Unbiasedness）： $E(\hat\theta)=\theta$ 。估计量「平均而言不偏不倚」，没有系统性偏差。样本方差用 $n-1$ 作分母正是为了无偏。
有效性（Efficiency）：在所有无偏估计中 方差最小。同样不偏，谁波动小谁更可靠。
一致性（Consistency）： $\hat\theta\xrightarrow{P}\theta$ （依概率收敛）。样本越多，估计越准，最终收敛到真值。

区间估计

点估计给一个数，却不知道有多准。区间估计（Interval Estimation）改给一个 置信区间 $[\hat\theta_1,\hat\theta_2]$ ，并附上「有多大把握」：

P(\hat\theta_1\le\theta\le\hat\theta_2)=1-\alpha

$1-\alpha$ 称为 置信水平（Confidence Level），常取 $0.95$ 或 $0.99$ 。

tip

「 $95\%$ 置信区间」的正确含义容易被误解：不是「 $\theta$ 有 $95\%$ 的概率落在这个区间里」（ $\theta$ 是固定常数，要么在要么不在）。正确的说法是——这套构造区间的方法，重复用很多次，约有 $95\%$ 的区间会盖住真值 $\theta$ 。随机的是区间的两个端点，而非 $\theta$ 。

构造区间的套路是「找一个含 $\theta$ 、分布已知的 枢轴量，反解出 $\theta$ 的范围」。正态总体均值 $\mu$ 的置信区间（方差未知，用 $\frac{\bar X-\mu}{S/\sqrt n}\sim t(n-1)$ ）：

\left[\bar X-\frac{S}{\sqrt n}t_{\alpha/2}(n-1),\bar X+\frac{S}{\sqrt n}t_{\alpha/2}(n-1)\right]

方差已知时把 $S$ 、 $t$ 分位数换成 $\sigma$ 、标准正态分位数 $z_{\alpha/2}$ 即可。

例（方差已知，求 $\mu$ 的置信区间）：从 $N(\mu,\sigma^2)$ 抽 $n=16$ ，已知 $\sigma=2$ ，算得 $\bar X=10$ ，求 $\mu$ 的 $95\%$ 置信区间。枢轴量 $\frac{\bar X-\mu}{\sigma/\sqrt n}\sim N(0,1)$ ， $z_{0.025}=1.96$ ，半宽：

\frac{\sigma}{\sqrt n}z_{0.025}=\frac{2}{4}\times 1.96=0.98

区间为 $[10-0.98,10+0.98]=[9.02,10.98]$ 。

例（方差未知，求 $\mu$ 的置信区间）：抽 $n=9$ ，算得 $\bar X=20$ 、 $S=3$ ，求 $\mu$ 的 $95\%$ 置信区间。方差未知改用 $t$ ，自由度 $n-1=8$ ， $t_{0.025}(8)\approx 2.306$ ，半宽：

\frac{S}{\sqrt n}t_{0.025}(8)=\frac{3}{3}\times 2.306=2.306

区间为 $[20-2.306,20+2.306]=[17.69,22.31]$ 。同样置信水平下 $t$ 区间比正态略宽，这是「方差未知」付出的代价。

例（求 $\sigma^2$ 的置信区间）：续上 $n=9$ 、 $S^2=9$ ，求 $\sigma^2$ 的 $95\%$ 置信区间。枢轴量 $\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(8)$ ，查 $\chi_{0.025}^2(8)\approx 17.53$ 、 $\chi_{0.975}^2(8)\approx 2.180$ 。由 $\chi_{0.975}^2\le\frac{(n-1)S^2}{\sigma^2}\le\chi_{0.025}^2$ 反解 $\sigma^2$ （注意大分位数对应区间下限）：

\left[\frac{(n-1)S^2}{\chi_{0.025}^2(8)},\frac{(n-1)S^2}{\chi_{0.975}^2(8)}\right]=\left[\frac{72}{17.53},\frac{72}{2.180}\right]\approx[4.11,33.0]

$\chi^2$ 不对称，所以方差的置信区间也不对称，且两个分位数必须分别查。

假设检验

基本思想

假设检验的逻辑是 「概率反证法」：先假定要质疑的命题 $H_0$ 成立，在此前提下算出「观测到当前（或更极端）数据」的概率；如果这个概率小到几乎不可能发生，就认为「假设与事实矛盾」，从而拒绝 $H_0$ ——这就是 小概率事件在一次试验中几乎不会发生 原理。

操作步骤：

提出 原假设 $H_0$ 与 备择假设 $H_1$ 。
在 $H_0$ 成立的前提下，构造分布已知的 检验统计量。
给定 显著性水平 $\alpha$ ，确定 拒绝域（小概率区域）。
由样本计算统计量，看是否落入拒绝域；落入则拒绝 $H_0$ ，否则不拒绝。

两类错误

判断难免出错，且两类错误此消彼长：

	$H_0$ 为真	$H_0$ 为假
拒绝 $H_0$	第一类错误（弃真），概率 $\alpha$	判断正确
接受 $H_0$	判断正确	第二类错误（取伪），概率 $\beta$

第一类错误（弃真）： $H_0$ 本来对，却被错误地拒绝，概率恰是显著性水平 $\alpha$ 。
第二类错误（取伪）： $H_0$ 本来错，却没能拒绝，概率为 $\beta$ 。

tip

在样本量固定时， $\alpha$ 和 $\beta$ 不能同时变小—— $\alpha$ 取得越小（越「保守」、越不轻易拒绝 $H_0$ ），拒绝域越窄， $\beta$ 就越大。检验设计上通常 优先控制第一类错误（把 $\alpha$ 定死在 $0.05$ 等），因为「错杀」往往代价更高；想同时压低 $\beta$ ，唯一的办法是 加大样本量。这也是为什么不轻易说「接受 $H_0$ 」，而说「没有足够证据拒绝 $H_0$ 」。

正态总体均值检验

检验 $H_0:\mu=\mu_0$ ，按方差是否已知选统计量：

	条件	统计量	服从
$Z$ 检验	$\sigma^2$ 已知	$Z=\dfrac{\bar X-\mu_0}{\sigma/\sqrt n}$	$N(0,1)$
$t$ 检验	$\sigma^2$ 未知	$T=\dfrac{\bar X-\mu_0}{S/\sqrt n}$	$t(n-1)$

二者的区别只在「 $\sigma$ 已知就用 $\sigma$ 、 $Z$ 检验，未知就用 $S$ 顶替、 $t$ 检验」，与区间估计完全呼应。

例（ $Z$ 检验完整流程）：某品牌灯泡标称平均寿命 $\mu_0=1000$ 小时，已知 $\sigma=50$ 。抽 $n=25$ 只测得 $\bar X=980$ ，问寿命是否显著低于标称（ $\alpha=0.05$ ）。

假设： $H_0:\mu=1000$ ， $H_1:\mu<1000$ （单侧）。
统计量： $Z=\dfrac{\bar X-\mu_0}{\sigma/\sqrt n}=\dfrac{980-1000}{50/5}=\dfrac{-20}{10}=-2$ 。
拒绝域：单侧， $Z<-z_{0.05}=-1.645$ 。
结论： $-2<-1.645$ ，落入拒绝域，拒绝 $H_0$ ，认为寿命显著低于 $1000$ 小时。

例（ $t$ 检验完整流程）：某零件直径标准值 $\mu_0=10$ ，方差未知。抽 $n=9$ 测得 $\bar X=10.3$ 、 $S=0.3$ ，问直径是否与标准有显著差异（ $\alpha=0.05$ ，双侧）。

假设： $H_0:\mu=10$ ， $H_1:\mu\ne 10$ 。
统计量： $T=\dfrac{\bar X-\mu_0}{S/\sqrt n}=\dfrac{10.3-10}{0.3/3}=\dfrac{0.3}{0.1}=3$ ，服从 $t(8)$ 。
拒绝域：双侧， $|T|>t_{0.025}(8)\approx 2.306$ 。
结论： $3>2.306$ ，拒绝 $H_0$ ，直径与标准值有显著差异。

正态总体方差检验

检验 $H_0:\sigma^2=\sigma_0^2$ ，用卡方统计量：

\chi^2=\frac{(n-1)S^2}{\sigma_0^2}\sim\chi^2(n-1)

比较两个正态总体的方差是否相等，则用 $F$ 检验，统计量取两样本方差之比 $\dfrac{S_1^2}{S_2^2}\sim F(n_1-1,n_2-1)$ 。可以看到，三大抽样分布在这里各司其职：均值看正态 / $t$ ，方差看 $\chi^2$ ，两方差之比看 $F$ 。

例（ $\chi^2$ 检验完整流程）：某工艺要求零件长度方差不超过 $\sigma_0^2=0.04$ 。抽 $n=10$ 测得 $S^2=0.08$ ，问方差是否显著偏大（ $\alpha=0.05$ ，单侧）。

假设： $H_0:\sigma^2=0.04$ ， $H_1:\sigma^2>0.04$ 。
统计量： $\chi^2=\dfrac{(n-1)S^2}{\sigma_0^2}=\dfrac{9\times 0.08}{0.04}=18$ ，服从 $\chi^2(9)$ 。
拒绝域：右单侧， $\chi^2>\chi_{0.05}^2(9)\approx 16.92$ 。
结论： $18>16.92$ ，拒绝 $H_0$ ，方差显著偏大，工艺需检修。

整套流程都是同一个模板——写假设、构造在 $H_0$ 下分布已知的统计量、由 $\alpha$ 划定拒绝域、代入数据看是否落入。换检验只是换统计量和分布，骨架不变。

参考资料​

引入​

基本概念​

总体与样本​

经验分布函数​

统计量​

三大抽样分布​

χ2\chi^2χ2 分布​

ttt 分布（学生氏分布）​

FFF 分布​

分位数与查表​

正态总体的抽样分布​

参数估计​

点估计​

矩估计法​

极大似然估计​

估计量的评价​

区间估计​

假设检验​

基本思想​

两类错误​

正态总体均值检验​

正态总体方差检验​