Skip to main content

数字特征

参考资料

引入

完整的分布信息往往太繁,数字特征 用少量数字抓住分布的本质:

  • 期望:分布的「中心」,重心落在哪。
  • 方差:分布的「离散程度」,数据散得有多开。
  • 协方差 / 相关系数:两个变量的「联动程度」,一个变大时另一个倾向于怎么变。

这些数字不需要知道完整分布也能比较、能运算,是连接概率论与 数理统计 的关键。

数学期望

定义

数学期望(Mathematical Expectation)就是「按概率加权的平均值」,是分布的重心。

离散:E(X)=ixipiE(X)=\sum_i x_i p_i(要求级数 绝对收敛)。

连续:E(X)=+xf(x)dxE(X)=\displaystyle\int_{-\infty}^{+\infty}xf(x)\,\mathrm{d}x(要求积分 绝对收敛)。

直觉上,把每个取值乘以它出现的「权重」(概率 / 密度)再累加,得到的就是大量重复试验后样本均值会稳定到的那个值——这正是 大数定律 保证的。

tip

要求 绝对收敛 不是吹毛求疵:若不绝对收敛,求和 / 积分的结果会依赖累加顺序,「期望」就失去了意义。柯西分布就是一个 期望不存在 的著名例子。

随机变量函数的期望(LOTUS)

要算 g(X)g(X) 的期望,不必 先求出 Y=g(X)Y=g(X) 的分布,直接对 gg 加权即可:

E(g(X))=ig(xi)pi=+g(x)f(x)dxE\big(g(X)\big)=\sum_i g(x_i)p_i=\int_{-\infty}^{+\infty}g(x)f(x)\,\mathrm{d}x

这条「偷懒」的结论被戏称为 无意识统计学家定律(Law of the Unconscious Statistician,LOTUS)。二维情形同理:

E(g(X,Y))=g(x,y)f(x,y)dxdyE\big(g(X,Y)\big)=\iint g(x,y)f(x,y)\,\mathrm{d}x\,\mathrm{d}y

例(LOTUS):XU(0,1)X\sim U(0,1),求 E(X2)E(X^2)E(eX)E(e^X)。不必先求 X2X^2eXe^X 的分布,直接加权积分:

E(X2)=01x2dx=13,E(eX)=01exdx=e1E(X^2)=\int_0^1 x^2\,\mathrm{d}x=\frac13,\qquad E(e^X)=\int_0^1 e^x\,\mathrm{d}x=e-1

顺带可得 D(X)=E(X2)[E(X)]2=1314=112D(X)=E(X^2)-[E(X)]^2=\frac13-\frac14=\frac{1}{12},与表中 U(0,1)U(0,1) 的方差 (10)212\frac{(1-0)^2}{12} 吻合。

性质

期望是 线性 的,这是它最好用的性质:

E(c)=c,E(cX)=cE(X),E(X+Y)=E(X)+E(Y)E(c)=c,\quad E(cX)=cE(X),\quad E(X+Y)=E(X)+E(Y)

注意 E(X+Y)=E(X)+E(Y)E(X+Y)=E(X)+E(Y) 不要求 X,YX,Y 独立——加法的线性永远成立。只有 乘法 才需要独立性:X,YX,Y 独立

E(XY)=E(X)E(Y)E(XY)=E(X)E(Y)

方差与标准差

定义

方差(Variance)度量 XX 围绕期望的平均「偏离平方」,越大越分散:

D(X)=Var(X)=E((XE(X))2)=E(X2)[E(X)]2D(X)=\operatorname{Var}(X)=E\big((X-E(X))^2\big)=E(X^2)-[E(X)]^2

右边的 D(X)=E(X2)[E(X)]2D(X)=E(X^2)-[E(X)]^2最常用的计算公式——「平方的期望减去期望的平方」,比按定义展开省事得多。它也顺带说明 E(X2)[E(X)]2E(X^2)\ge[E(X)]^2 恒成立。

标准差(Standard Deviation)σ(X)=D(X)\sigma(X)=\sqrt{D(X)},与 XX 同量纲,比方差更适合做「典型偏离幅度」的直观尺度。

性质

D(c)=0,D(cX)=c2D(X),D(X±c)=D(X)D(c)=0,\quad D(cX)=c^2 D(X),\quad D(X\pm c)=D(X)

平移(加常数 cc)不改变离散程度,所以 D(X±c)=D(X)D(X\pm c)=D(X);缩放则把方差按 平方 放大,所以是 c2c^2 而非 cc

X,YX,Y 独立 时,方差可加:

D(X±Y)=D(X)+D(Y)D(X\pm Y)=D(X)+D(Y)

注意即便是减法 XYX-Y,方差仍是 相加——不确定性不会因相减而抵消。一般情形(不独立)的公式见下方协方差部分。

例(用性质简化):设 X,YX,Y 独立,E(X)=1,D(X)=2,E(Y)=2,D(Y)=3E(X)=1,D(X)=2,E(Y)=2,D(Y)=3,求 E(2X3Y+1)E(2X-3Y+1)D(2X3Y+1)D(2X-3Y+1)。期望按线性逐项算:

E(2X3Y+1)=2×13×2+1=3E(2X-3Y+1)=2\times 1-3\times 2+1=-3

方差里常数项被吞掉、系数平方提出、独立则交叉项为零:

D(2X3Y+1)=22D(X)+32D(Y)=4×2+9×3=35D(2X-3Y+1)=2^2 D(X)+3^2 D(Y)=4\times 2+9\times 3=35

注意 3Y-3Y 的系数也是 平方99,符号不影响方差。

标准化变量

X=XE(X)σ(X)  E(X)=0, D(X)=1X^*=\frac{X-E(X)}{\sigma(X)}\ \Rightarrow\ E(X^*)=0,\ D(X^*)=1

「减期望、除标准差」把任何随机变量都拉到「中心为 00、散度为 11」的标准刻度上,便于横向比较。这正是 正态标准化 背后的统一操作。

常见分布的期望与方差

分布记号E(X)E(X)D(X)D(X)
0-10\text{-}1 分布B(1,p)B(1,p)ppp(1p)p(1-p)
二项分布B(n,p)B(n,p)npnpnp(1p)np(1-p)
泊松分布P(λ)P(\lambda)λ\lambdaλ\lambda
几何分布G(p)G(p)1p\dfrac{1}{p}1pp2\dfrac{1-p}{p^2}
均匀分布U(a,b)U(a,b)a+b2\dfrac{a+b}{2}(ba)212\dfrac{(b-a)^2}{12}
指数分布E(λ)E(\lambda)1λ\dfrac{1}{\lambda}1λ2\dfrac{1}{\lambda^2}
正态分布N(μ,σ2)N(\mu,\sigma^2)μ\muσ2\sigma^2
tip

几个值得记住的标志性结论:

  • 泊松分布的期望和方差都等于 λ\lambda——这是它最显著的特征,也是判断「数据是否近似泊松」的快捷检验(看看样本均值和样本方差是否接近)。
  • 正态分布的两个参数就是它的期望和方差,记号 N(μ,σ2)N(\mu,\sigma^2) 直接把答案写在脸上。
  • 二项分布是 nn 个独立 0-10\text{-}1 分布之和,所以期望、方差都是单次的 nn 倍:npnpnp(1p)np(1-p)。用期望的线性和独立方差可加,可以瞬间推出,不必硬背。

几个典型推导

表里的结果都能推出来,掌握下面几条会比死记更牢靠。

二项分布(拆成独立和):设 X=i=1nXiX=\sum_{i=1}^n X_i,每个 XiB(1,p)X_i\sim B(1,p) 独立。单次 E(Xi)=pE(X_i)=pD(Xi)=E(Xi2)p2=pp2=p(1p)D(X_i)=E(X_i^2)-p^2=p-p^2=p(1-p)。由期望线性与独立方差可加:

E(X)=np,D(X)=np(1p)E(X)=np,\qquad D(X)=np(1-p)

泊松分布(级数求和):E(X)=k=0kλkk!eλE(X)=\sum_{k=0}^\infty k\dfrac{\lambda^k}{k!}e^{-\lambda},去掉 k=0k=0 项并提出 λ\lambda

E(X)=λeλk=1λk1(k1)!=λeλeλ=λE(X)=\lambda e^{-\lambda}\sum_{k=1}^{\infty}\frac{\lambda^{k-1}}{(k-1)!}=\lambda e^{-\lambda}\cdot e^{\lambda}=\lambda

再算 E(X2)E(X^2),技巧是用 E(X(X1))=k(k1)λkk!eλ=λ2E\big(X(X-1)\big)=\sum k(k-1)\dfrac{\lambda^k}{k!}e^{-\lambda}=\lambda^2,于是 E(X2)=λ2+λE(X^2)=\lambda^2+\lambda,故 D(X)=λ2+λλ2=λD(X)=\lambda^2+\lambda-\lambda^2=\lambda。期望方差同为 λ\lambda 由此而来。

指数分布(分部积分):E(X)=0xλeλxdxE(X)=\int_0^\infty x\lambda e^{-\lambda x}\,\mathrm{d}x,分部积分得 1λ\frac1\lambda。同法 E(X2)=0x2λeλxdx=2λ2E(X^2)=\int_0^\infty x^2\lambda e^{-\lambda x}\,\mathrm{d}x=\frac{2}{\lambda^2},于是

D(X)=2λ21λ2=1λ2D(X)=\frac{2}{\lambda^2}-\frac{1}{\lambda^2}=\frac{1}{\lambda^2}

正态分布(标准化 + 对称):先看 ZN(0,1)Z\sim N(0,1)。被积函数 zφ(z)z\varphi(z) 是奇函数,故 E(Z)=0E(Z)=0D(Z)=E(Z2)=z2φ(z)dzD(Z)=E(Z^2)=\int_{-\infty}^\infty z^2\varphi(z)\,\mathrm{d}z 分部积分得 11。对一般 X=μ+σZX=\mu+\sigma Z,由期望线性 E(X)=μE(X)=\mu,由 D(cX)=c2D(X)D(cX)=c^2D(X)D(X)=σ2D(X)=\sigma^2——记号 N(μ,σ2)N(\mu,\sigma^2) 里两个参数正是期望和方差。

协方差与相关系数

协方差

协方差(Covariance)度量两个变量「同向波动」的程度:

Cov(X,Y)=E((XE(X))(YE(Y)))=E(XY)E(X)E(Y)\operatorname{Cov}(X,Y)=E\big((X-E(X))(Y-E(Y))\big)=E(XY)-E(X)E(Y)

直觉是:当 XX 比平均大的时候 YY 也倾向于比平均大,乘积 (XE(X))(YE(Y))(X-E(X))(Y-E(Y)) 多为正,协方差为正(正相关);若一个偏大时另一个偏小,乘积多为负,协方差为负(负相关)。

性质:

Cov(X,X)=D(X),Cov(X,Y)=Cov(Y,X)\operatorname{Cov}(X,X)=D(X),\quad \operatorname{Cov}(X,Y)=\operatorname{Cov}(Y,X) Cov(aX+b,cY+d)=acCov(X,Y)\operatorname{Cov}(aX+b,cY+d)=ac\operatorname{Cov}(X,Y) D(X±Y)=D(X)+D(Y)±2Cov(X,Y)D(X\pm Y)=D(X)+D(Y)\pm 2\operatorname{Cov}(X,Y)

最后这条是方差可加性的 一般版本:只有当 Cov(X,Y)=0\operatorname{Cov}(X,Y)=0(如独立)时交叉项才消失,退回到 D(X)+D(Y)D(X)+D(Y)

例(协方差与相关系数计算):(X,Y)(X,Y) 联合分布列为 P(0,0)=P(1,1)=0.4P(0,0)=P(1,1)=0.4P(0,1)=P(1,0)=0.1P(0,1)=P(1,0)=0.1。先求各数字特征。边缘上 P(X=1)=0.4+0.1=0.5P(X=1)=0.4+0.1=0.5,故 E(X)=0.5E(X)=0.5D(X)=0.5×0.5=0.25D(X)=0.5\times 0.5=0.25;由对称 E(Y)=0.5E(Y)=0.5D(Y)=0.25D(Y)=0.25。乘积期望只有 (1,1)(1,1) 项非零:E(XY)=1×0.4=0.4E(XY)=1\times 0.4=0.4。于是

Cov(X,Y)=E(XY)E(X)E(Y)=0.40.25=0.15\operatorname{Cov}(X,Y)=E(XY)-E(X)E(Y)=0.4-0.25=0.15 ρXY=0.150.25×0.25=0.150.25=0.6\rho_{XY}=\frac{0.15}{\sqrt{0.25\times 0.25}}=\frac{0.15}{0.25}=0.6

ρ=0.6>0\rho=0.6>0 说明 X,YX,Y 正相关——它们同取 00 或同取 11 的概率更大,符合直觉。

相关系数

协方差的大小受量纲影响,不便比较。把它「标准化」就得到 相关系数(Correlation Coefficient):

ρXY=Cov(X,Y)D(X)D(Y)\rho_{XY}=\frac{\operatorname{Cov}(X,Y)}{\sqrt{D(X)D(Y)}}

ρXY[1,1]\rho_{XY}\in[-1,1],是一把无量纲的尺子,专门度量 线性相关程度

  • ρXY=1\rho_{XY}=1:完全正相关,Y=aX+b (a>0)Y=aX+b\ (a>0) 严格成立。
  • ρXY=1\rho_{XY}=-1:完全负相关,Y=aX+b (a<0)Y=aX+b\ (a<0)
  • ρXY=0\rho_{XY}=0线性不相关(注意这只说明没有「线性」关系,不等于「独立」)。

ρXY|\rho_{XY}| 越接近 11,散点越贴近一条直线;越接近 00,线性关系越弱。

独立与不相关

X,Y 独立  不相关 (Cov=0),但反之不成立X,Y\ \text{独立}\ \Rightarrow\ \text{不相关}\ (\operatorname{Cov}=0),\quad \text{但反之不成立}

「独立」是 任何形式 的无关,「不相关」只排除了 线性 关系——两者完全可以有很强的非线性依赖却仍不相关(如 Y=X2Y=X^2 在对称分布下 Cov(X,Y)=0\operatorname{Cov}(X,Y)=0 但显然不独立)。

例(不相关但不独立):设 XN(0,1)X\sim N(0,1),令 Y=X2Y=X^2YY 完全由 XX 决定,谈不上独立。但算协方差:由对称性 E(X)=0E(X)=0E(X3)=0E(X^3)=0(奇函数),故

Cov(X,Y)=E(XY)E(X)E(Y)=E(X3)0E(X2)=0\operatorname{Cov}(X,Y)=E(XY)-E(X)E(Y)=E(X^3)-0\cdot E(X^2)=0

于是 ρXY=0\rho_{XY}=0XXYY 不相关。这正说明「不相关」只管线性:YYXX 增大并不单调(XX 正负都让 YY 变大),线性度量捕捉不到这种「抛物线式」的强依赖。

tip

唯一的例外是 二维正态分布:此时「不相关」与「独立」等价。所以做正态题时,看到 ρ=0\rho=0 就可以直接断定独立——但这是正态的特权,换成别的分布就不成立了。

(Moment)是期望、方差的统一推广,用来刻画分布更精细的形状。

  • XXkk 阶原点矩E(Xk)E(X^k)
  • XXkk 阶中心矩E((XE(X))k)E\big((X-E(X))^k\big)

它们与前面的特征一脉相承:

  • 一阶原点矩 == 期望,刻画 位置
  • 二阶中心矩 == 方差,刻画 散度
  • 三阶中心矩与 偏度(Skewness)相关,刻画分布的 左右不对称
  • 四阶中心矩与 峰度(Kurtosis)相关,刻画 尾部的厚薄

矩是 数理统计矩估计法 的理论出发点:用样本矩去估计总体矩。

协方差矩阵

nn 维随机向量 X=(X1,,Xn)T\boldsymbol{X}=(X_1,\dots,X_n)^T,把所有两两协方差排成矩阵,就是 协方差矩阵(Covariance Matrix):

Σ=(Cov(Xi,Xj))n×n\boldsymbol{\Sigma}=\big(\operatorname{Cov}(X_i,X_j)\big)_{n\times n}

它的对角线是各分量的方差 D(Xi)D(X_i),非对角是两两协方差。Σ\boldsymbol{\Sigma}对称、半正定 的,是多元正态分布、主成分分析(PCA)等的核心对象。

条件期望与全期望公式

固定 X=xX=xYY 的期望,称为 条件期望 E(YX=x)E(Y\mid X=x)。把它看成 XX 的函数 E(YX)E(Y\mid X),再对 XX 求一次期望,就把条件去掉、还原成普通期望——这就是 全期望公式(Law of Total Expectation):

E(Y)=E(E(YX))=iE(YX=xi)P(X=xi)E(Y)=E\big(E(Y\mid X)\big)=\sum_i E(Y\mid X=x_i)P(X=x_i)

它是 全概率公式 在期望上的翻版:先分情况算条件期望,再按各情况的概率加权平均。处理「分阶段、分类别」的期望问题时极为顺手。

例(按情况加权):某商店每天来客数 XX 服从泊松分布、E(X)=20E(X)=20,每位顾客的消费额独立同分布、均值 E(Y)=50E(Y)=50 元。求当天总营业额 SS 的期望。固定来客数 X=nX=nE(SX=n)=50nE(S\mid X=n)=50n,即 E(SX)=50XE(S\mid X)=50X,再对 XX 求期望:

E(S)=E(E(SX))=E(50X)=50×20=1000 元E(S)=E\big(E(S\mid X)\big)=E(50X)=50\times 20=1000\ \text{元}

这类「随机个随机变量之和」的期望有个干净结论:E(S)=E(X)E(Y)E(S)=E(X)\cdot E(Y)——先算每单的平均、再乘平均单数即可。

例(分阶段):一道题第一步答对(概率 0.60.6)才进入第二步,第二步答对(概率 0.50.5)得 1010 分,只对第一步得 55 分,全错得 00 分。求得分期望。按三种情形加权:全对概率 0.6×0.5=0.30.6\times 0.5=0.31010 分,仅第一步对概率 0.6×0.5=0.30.6\times 0.5=0.355 分,第一步错概率 0.40.400 分,故 E=10×0.3+5×0.3+0=4.5E=10\times 0.3+5\times 0.3+0=4.5 分。