数字特征

参考资料

引入

完整的分布信息往往太繁，数字特征 用少量数字抓住分布的本质：

期望：分布的「中心」，重心落在哪。
方差：分布的「离散程度」，数据散得有多开。
协方差 / 相关系数：两个变量的「联动程度」，一个变大时另一个倾向于怎么变。

这些数字不需要知道完整分布也能比较、能运算，是连接概率论与数理统计的关键。

数学期望

定义

数学期望（Mathematical Expectation）就是「按概率加权的平均值」，是分布的重心。

离散： $E(X)=\sum_i x_i p_i$ （要求级数 绝对收敛）。

连续： $E(X)=\displaystyle\int_{-\infty}^{+\infty}xf(x)\mathrm{d}x$ （要求积分 绝对收敛）。

直觉上，把每个取值乘以它出现的「权重」（概率 / 密度）再累加，得到的就是大量重复试验后样本均值会稳定到的那个值——这正是大数定律保证的。

tip

要求 绝对收敛 不是吹毛求疵：若不绝对收敛，求和 / 积分的结果会依赖累加顺序，「期望」就失去了意义。柯西分布就是一个 期望不存在 的著名例子。

随机变量函数的期望（LOTUS）

要算 $g(X)$ 的期望，不必先求出 $Y=g(X)$ 的分布，直接对 $g$ 加权即可：

E\big(g(X)\big)=\sum_i g(x_i)p_i=\int_{-\infty}^{+\infty}g(x)f(x)\mathrm{d}x

这条「偷懒」的结论被戏称为 无意识统计学家定律（Law of the Unconscious Statistician，LOTUS）。二维情形同理：

E\big(g(X,Y)\big)=\iint g(x,y)f(x,y)\mathrm{d}x\mathrm{d}y

例（LOTUS）： $X\sim U(0,1)$ ，求 $E(X^2)$ 与 $E(e^X)$ 。不必先求 $X^2$ 、 $e^X$ 的分布，直接加权积分：

E(X^2)=\int_0^1 x^2\mathrm{d}x=\frac{1}{3},E(e^X)=\int_0^1 e^x\mathrm{d}x=e-1

顺带可得 $D(X)=E(X^2)-[E(X)]^2=\frac{1}{3}-\frac{1}{4}=\frac{1}{12}$ ，与表中 $U(0,1)$ 的方差 $\frac{(1-0)^2}{12}$ 吻合。

性质

期望是线性的，这是它最好用的性质：

E(c)=c,E(cX)=cE(X),E(X+Y)=E(X)+E(Y)

注意 $E(X+Y)=E(X)+E(Y)$ 不要求 $X,Y$ 独立——加法的线性永远成立。只有乘法才需要独立性： $X,Y$ 独立时：

E(XY)=E(X)E(Y)

方差与标准差

定义

方差（Variance）度量 $X$ 围绕期望的平均「偏离平方」，越大越分散：

D(X)=\operatorname{Var}(X)=E\big((X-E(X))^2\big)=E(X^2)-[E(X)]^2

右边的 $D(X)=E(X^2)-[E(X)]^2$ 是 最常用的计算公式——「平方的期望减去期望的平方」，比按定义展开省事得多。它也顺带说明 $E(X^2)\ge[E(X)]^2$ 恒成立。

标准差（Standard Deviation） $\sigma(X)=\sqrt{D(X)}$ ，与 $X$ 同量纲，比方差更适合做「典型偏离幅度」的直观尺度。

性质

D(c)=0,D(cX)=c^2 D(X),D(X\pm c)=D(X)

平移（加常数 $c$ ）不改变离散程度，所以 $D(X\pm c)=D(X)$ ；缩放则把方差按平方放大，所以是 $c^2$ 而非 $c$ 。

$X,Y$ 独立时，方差可加：

D(X\pm Y)=D(X)+D(Y)

注意即便是减法 $X-Y$ ，方差仍是相加——不确定性不会因相减而抵消。一般情形（不独立）的公式见下方协方差部分。

例（用性质简化）：设 $X,Y$ 独立， $E(X)=1,D(X)=2,E(Y)=2,D(Y)=3$ ，求 $E(2X-3Y+1)$ 与 $D(2X-3Y+1)$ 。期望按线性逐项算：

E(2X-3Y+1)=2\times 1-3\times 2+1=-3

方差里常数项被吞掉、系数平方提出、独立则交叉项为零：

D(2X-3Y+1)=2^2 D(X)+3^2 D(Y)=4\times 2+9\times 3=35

注意 $-3Y$ 的系数也是平方成 $9$ ，符号不影响方差。

标准化变量

X^*=\frac{X-E(X)}{\sigma(X)}\implies E(X^*)=0,D(X^*)=1

「减期望、除标准差」把任何随机变量都拉到「中心为 $0$ 、散度为 $1$ 」的标准刻度上，便于横向比较。这正是正态标准化背后的统一操作。

常见分布的期望与方差

分布	记号	$E(X)$	$D(X)$
$0\text{-}1$ 分布	$B(1,p)$	$p$	$p(1-p)$
二项分布	$B(n,p)$	$np$	$np(1-p)$
泊松分布	$P(\lambda)$	$\lambda$	$\lambda$
几何分布	$G(p)$	$\dfrac{1}{p}$	$\dfrac{1-p}{p^2}$
均匀分布	$U(a,b)$	$\dfrac{a+b}{2}$	$\dfrac{(b-a)^2}{12}$
指数分布	$E(\lambda)$	$\dfrac{1}{\lambda}$	$\dfrac{1}{\lambda^2}$
正态分布	$N(\mu,\sigma^2)$	$\mu$	$\sigma^2$

tip

几个值得记住的标志性结论：

泊松分布的期望和方差都等于 $\lambda$ ——这是它最显著的特征，也是判断「数据是否近似泊松」的快捷检验（看看样本均值和样本方差是否接近）。
正态分布的两个参数就是它的期望和方差，记号 $N(\mu,\sigma^2)$ 直接把答案写在脸上。
二项分布是 $n$ 个独立 $0\text{-}1$ 分布之和，所以期望、方差都是单次的 $n$ 倍： $np$ 与 $np(1-p)$ 。用期望的线性和独立方差可加，可以瞬间推出，不必硬背。

几个典型推导

表里的结果都能推出来，掌握下面几条会比死记更牢靠。

二项分布（拆成独立和）：设 $X=\sum_{i=1}^n X_i$ ，每个 $X_i\sim B(1,p)$ 独立。单次 $E(X_i)=p$ 、 $D(X_i)=E(X_i^2)-p^2=p-p^2=p(1-p)$ 。由期望线性与独立方差可加：

E(X)=np,D(X)=np(1-p)

泊松分布（级数求和）： $E(X)=\sum_{k=0}^\infty k\dfrac{\lambda^k}{k!}e^{-\lambda}$ ，去掉 $k=0$ 项并提出 $\lambda$ ：

E(X)=\lambda e^{-\lambda}\sum_{k=1}^\infty\frac{\lambda^{k-1}}{(k-1)!}=\lambda e^{-\lambda}\cdot e^\lambda=\lambda

再算 $E(X^2)$ ，技巧是用 $E\big(X(X-1)\big)=\sum k(k-1)\dfrac{\lambda^k}{k!}e^{-\lambda}=\lambda^2$ ，于是 $E(X^2)=\lambda^2+\lambda$ ，故 $D(X)=\lambda^2+\lambda-\lambda^2=\lambda$ 。期望方差同为 $\lambda$ 由此而来。

指数分布（分部积分）： $E(X)=\int_0^\infty x\lambda e^{-\lambda x}\mathrm{d}x$ ，分部积分得 $\frac{1}{\lambda}$ 。同法 $E(X^2)=\int_0^\infty x^2\lambda e^{-\lambda x}\mathrm{d}x=\frac{2}{\lambda^2}$ ，于是：

D(X)=\frac{2}{\lambda^2}-\frac{1}{\lambda^2}=\frac{1}{\lambda^2}

正态分布（标准化 + 对称）：先看 $Z\sim N(0,1)$ 。被积函数 $z\varphi(z)$ 是奇函数，故 $E(Z)=0$ ； $D(Z)=E(Z^2)=\int_{-\infty}^\infty z^2\varphi(z)\mathrm{d}z$ 分部积分得 $1$ 。对一般 $X=\mu+\sigma Z$ ，由期望线性 $E(X)=\mu$ ，由 $D(cX)=c^2D(X)$ 得 $D(X)=\sigma^2$ ——记号 $N(\mu,\sigma^2)$ 里两个参数正是期望和方差。

协方差与相关系数

协方差

协方差（Covariance）度量两个变量「同向波动」的程度：

\operatorname{Cov}(X,Y)=E\big((X-E(X))(Y-E(Y))\big)=E(XY)-E(X)E(Y)

直觉是：当 $X$ 比平均大的时候 $Y$ 也倾向于比平均大，乘积 $(X-E(X))(Y-E(Y))$ 多为正，协方差为正（正相关）；若一个偏大时另一个偏小，乘积多为负，协方差为负（负相关）。

性质：

\operatorname{Cov}(X,X)=D(X),\operatorname{Cov}(X,Y)=\operatorname{Cov}(Y,X)

\operatorname{Cov}(aX+b,cY+d)=ac\operatorname{Cov}(X,Y)

D(X\pm Y)=D(X)+D(Y)\pm 2\operatorname{Cov}(X,Y)

最后这条是方差可加性的 一般版本：只有当 $\operatorname{Cov}(X,Y)=0$ （如独立）时交叉项才消失，退回到 $D(X)+D(Y)$ 。

例（协方差与相关系数计算）： $(X,Y)$ 联合分布列为 $P(0,0)=P(1,1)=0.4$ 、 $P(0,1)=P(1,0)=0.1$ 。先求各数字特征。边缘上 $P(X=1)=0.4+0.1=0.5$ ，故 $E(X)=0.5$ 、 $D(X)=0.5\times 0.5=0.25$ ；由对称 $E(Y)=0.5$ 、 $D(Y)=0.25$ 。乘积期望只有 $(1,1)$ 项非零： $E(XY)=1\times 0.4=0.4$ 。于是：

\operatorname{Cov}(X,Y)=E(XY)-E(X)E(Y)=0.4-0.25=0.15

\rho_{XY}=\frac{0.15}{\sqrt{0.25\times 0.25}}=\frac{0.15}{0.25}=0.6

$\rho=0.6>0$ 说明 $X,Y$ 正相关——它们同取 $0$ 或同取 $1$ 的概率更大，符合直觉。

独立与不相关

X,Y\text{独立}\implies\text{不相关}(\operatorname{Cov}=0),\text{但反之不成立}

「独立」是 任何形式 的无关，「不相关」只排除了线性关系——两者完全可以有很强的非线性依赖却仍不相关（如 $Y=X^2$ 在对称分布下 $\operatorname{Cov}(X,Y)=0$ 但显然不独立）。

例（不相关但不独立）：设 $X\sim N(0,1)$ ，令 $Y=X^2$ 。 $Y$ 完全由 $X$ 决定，谈不上独立。但算协方差：由对称性 $E(X)=0$ 、 $E(X^3)=0$ （奇函数），故：

\operatorname{Cov}(X,Y)=E(XY)-E(X)E(Y)=E(X^3)-0\cdot E(X^2)=0

于是 $\rho_{XY}=0$ ， $X$ 与 $Y$ 不相关。这正说明「不相关」只管线性： $Y$ 随 $X$ 增大并不单调（ $X$ 正负都让 $Y$ 变大），线性度量捕捉不到这种「抛物线式」的强依赖。

tip

唯一的例外是 二维正态分布：此时「不相关」与「独立」等价。所以做正态题时，看到 $\rho=0$ 就可以直接断定独立——但这是正态的特权，换成别的分布就不成立了。

矩

矩（Moment）是期望、方差的统一推广，用来刻画分布更精细的形状。

$X$ 的 $k$ 阶原点矩： $E(X^k)$ 。
$X$ 的 $k$ 阶中心矩： $E\big((X-E(X))^k\big)$ 。

它们与前面的特征一脉相承：

一阶原点矩 $=$ 期望，刻画位置。
二阶中心矩 $=$ 方差，刻画散度。
三阶中心矩与偏度（Skewness）相关，刻画分布的 左右不对称。
四阶中心矩与峰度（Kurtosis）相关，刻画 尾部的厚薄。

矩是数理统计中 矩估计法 的理论出发点：用样本矩去估计总体矩。

协方差矩阵

对 $n$ 维随机向量 $\boldsymbol{X}=(X_1,\dots,X_n)^T$ ，把所有两两协方差排成矩阵，就是 协方差矩阵（Covariance Matrix）：

\boldsymbol{\Sigma}=\big(\operatorname{Cov}(X_i,X_j)\big)_{n\times n}

它的对角线是各分量的方差 $D(X_i)$ ，非对角是两两协方差。 $\boldsymbol{\Sigma}$ 是 对称、半正定 的，是多元正态分布、主成分分析（PCA）等的核心对象。

条件期望与全期望公式

固定 $X=x$ 时 $Y$ 的期望，称为 条件期望 $E(Y\mid X=x)$ 。把它看成 $X$ 的函数 $E(Y\mid X)$ ，再对 $X$ 求一次期望，就把条件去掉、还原成普通期望——这就是 全期望公式（Law of Total Expectation）：

E(Y)=E\big(E(Y\mid X)\big)=\sum_i E(Y\mid X=x_i)P(X=x_i)

它是全概率公式在期望上的翻版：先分情况算条件期望，再按各情况的概率加权平均。处理「分阶段、分类别」的期望问题时极为顺手。

例（按情况加权）：某商店每天来客数 $X$ 服从泊松分布、 $E(X)=20$ ，每位顾客的消费额独立同分布、均值 $E(Y)=50$ 元。求当天总营业额 $S$ 的期望。固定来客数 $X=n$ 时 $E(S\mid X=n)=50n$ ，即 $E(S\mid X)=50X$ ，再对 $X$ 求期望：

E(S)=E\big(E(S\mid X)\big)=E(50X)=50\times 20=1000\text{元}

这类「随机个随机变量之和」的期望有个干净结论： $E(S)=E(X)\cdot E(Y)$ ——先算每单的平均、再乘平均单数即可。

例（分阶段）：一道题第一步答对（概率 $0.6$ ）才进入第二步，第二步答对（概率 $0.5$ ）得 $10$ 分，只对第一步得 $5$ 分，全错得 $0$ 分。求得分期望。按三种情形加权：全对概率 $0.6\times 0.5=0.3$ 得 $10$ 分，仅第一步对概率 $0.6\times 0.5=0.3$ 得 $5$ 分，第一步错概率 $0.4$ 得 $0$ 分，故 $E=10\times 0.3+5\times 0.3+0=4.5$ 分。

参考资料​

引入​

数学期望​

定义​

随机变量函数的期望（LOTUS）​

性质​

方差与标准差​

定义​

性质​

标准化变量​

常见分布的期望与方差​

几个典型推导​

协方差与相关系数​

协方差​

相关系数​

独立与不相关​

矩​

协方差矩阵​

条件期望与全期望公式​