完整的分布信息往往太繁,数字特征 用少量数字抓住分布的本质:
- 期望:分布的「中心」,重心落在哪。
- 方差:分布的「离散程度」,数据散得有多开。
- 协方差 / 相关系数:两个变量的「联动程度」,一个变大时另一个倾向于怎么变。
这些数字不需要知道完整分布也能比较、能运算,是连接概率论与 数理统计 的关键。
数学期望(Mathematical Expectation)就是「按概率加权的平均值」,是分布的重心。
离散:E(X)=∑ixipi(要求级数 绝对收敛)。
连续:E(X)=∫−∞+∞xf(x)dx(要求积分 绝对收敛)。
直觉上,把每个取值乘以它出现的「权重」(概率 / 密度)再累加,得到的就是大量重复试验后样本均值会稳定到的那个值——这正是 大数定律 保证的。
要求 绝对收敛 不是吹毛求疵:若不绝对收敛,求和 / 积分的结果会依赖累加顺序,「期望」就失去了意义。柯西分布就是一个 期望不存在 的著名例子。
要算 g(X) 的期望,不必 先求出 Y=g(X) 的分布,直接对 g 加权即可:
E(g(X))=i∑g(xi)pi=∫−∞+∞g(x)f(x)dx
这条「偷懒」的结论被戏称为 无意识统计学家定律(Law of the Unconscious Statistician,LOTUS)。二维情形同理:
E(g(X,Y))=∬g(x,y)f(x,y)dxdy
例(LOTUS):X∼U(0,1),求 E(X2) 与 E(eX)。不必先求 X2、eX 的分布,直接加权积分:
E(X2)=∫01x2dx=31,E(eX)=∫01exdx=e−1
顺带可得 D(X)=E(X2)−[E(X)]2=31−41=121,与表中 U(0,1) 的方差 12(1−0)2 吻合。
期望是 线性 的,这是它最好用的性质:
E(c)=c,E(cX)=cE(X),E(X+Y)=E(X)+E(Y)
注意 E(X+Y)=E(X)+E(Y) 不要求 X,Y 独立——加法的线性永远成立。只有 乘法 才需要独立性:X,Y 独立 时
E(XY)=E(X)E(Y)
方差(Variance)度量 X 围绕期望的平均「偏离平方」,越大越分散:
D(X)=Var(X)=E((X−E(X))2)=E(X2)−[E(X)]2
右边的 D(X)=E(X2)−[E(X)]2 是 最常用的计算公式——「平方的期望减去期望的平方」,比按定义展开省事得多。它也顺带说明 E(X2)≥[E(X)]2 恒成立。
标准差(Standard Deviation)σ(X)=D(X),与 X 同量纲,比方差更适合做「典型偏离幅度」的直观尺度。
D(c)=0,D(cX)=c2D(X),D(X±c)=D(X)
平移(加常数 c)不改变离散程度,所以 D(X±c)=D(X);缩放则把方差按 平方 放大,所以是 c2 而非 c。
X,Y 独立 时,方差可加:
D(X±Y)=D(X)+D(Y)
注意即便是减法 X−Y,方差仍是 相加——不确定性不会因相减而抵消。一般情形(不独立)的公式见下方协方差部分。
例(用性质简化):设 X,Y 独立,E(X)=1,D(X)=2,E(Y)=2,D(Y)=3,求 E(2X−3Y+1) 与 D(2X−3Y+1)。期望按线性逐项算:
E(2X−3Y+1)=2×1−3×2+1=−3
方差里常数项被吞掉、系数平方提出、独立则交叉项为零:
D(2X−3Y+1)=22D(X)+32D(Y)=4×2+9×3=35
注意 −3Y 的系数也是 平方 成 9,符号不影响方差。
X∗=σ(X)X−E(X) ⇒ E(X∗)=0, D(X∗)=1
「减期望、除标准差」把任何随机变量都拉到「中心为 0、散度为 1」的标准刻度上,便于横向比较。这正是 正态标准化 背后的统一操作。
| 分布 | 记号 | E(X) | D(X) |
|---|
| 0-1 分布 | B(1,p) | p | p(1−p) |
| 二项分布 | B(n,p) | np | np(1−p) |
| 泊松分布 | P(λ) | λ | λ |
| 几何分布 | G(p) | p1 | p21−p |
| 均匀分布 | U(a,b) | 2a+b | 12(b−a)2 |
| 指数分布 | E(λ) | λ1 | λ21 |
| 正态分布 | N(μ,σ2) | μ | σ2 |
几个值得记住的标志性结论:
- 泊松分布的期望和方差都等于 λ——这是它最显著的特征,也是判断「数据是否近似泊松」的快捷检验(看看样本均值和样本方差是否接近)。
- 正态分布的两个参数就是它的期望和方差,记号 N(μ,σ2) 直接把答案写在脸上。
- 二项分布是 n 个独立 0-1 分布之和,所以期望、方差都是单次的 n 倍:np 与 np(1−p)。用期望的线性和独立方差可加,可以瞬间推出,不必硬背。
表里的结果都能推出来,掌握下面几条会比死记更牢靠。
二项分布(拆成独立和):设 X=∑i=1nXi,每个 Xi∼B(1,p) 独立。单次 E(Xi)=p、D(Xi)=E(Xi2)−p2=p−p2=p(1−p)。由期望线性与独立方差可加:
E(X)=np,D(X)=np(1−p)
泊松分布(级数求和):E(X)=∑k=0∞kk!λke−λ,去掉 k=0 项并提出 λ:
E(X)=λe−λk=1∑∞(k−1)!λk−1=λe−λ⋅eλ=λ
再算 E(X2),技巧是用 E(X(X−1))=∑k(k−1)k!λke−λ=λ2,于是 E(X2)=λ2+λ,故 D(X)=λ2+λ−λ2=λ。期望方差同为 λ 由此而来。
指数分布(分部积分):E(X)=∫0∞xλe−λxdx,分部积分得 λ1。同法 E(X2)=∫0∞x2λe−λxdx=λ22,于是
D(X)=λ22−λ21=λ21
正态分布(标准化 + 对称):先看 Z∼N(0,1)。被积函数 zφ(z) 是奇函数,故 E(Z)=0;D(Z)=E(Z2)=∫−∞∞z2φ(z)dz 分部积分得 1。对一般 X=μ+σZ,由期望线性 E(X)=μ,由 D(cX)=c2D(X) 得 D(X)=σ2——记号 N(μ,σ2) 里两个参数正是期望和方差。
协方差(Covariance)度量两个变量「同向波动」的程度:
Cov(X,Y)=E((X−E(X))(Y−E(Y)))=E(XY)−E(X)E(Y)
直觉是:当 X 比平均大的时候 Y 也倾向于比平均大,乘积 (X−E(X))(Y−E(Y)) 多为正,协方差为正(正相关);若一个偏大时另一个偏小,乘积多为负,协方差为负(负相关)。
性质:
Cov(X,X)=D(X),Cov(X,Y)=Cov(Y,X)
Cov(aX+b,cY+d)=acCov(X,Y)
D(X±Y)=D(X)+D(Y)±2Cov(X,Y)
最后这条是方差可加性的 一般版本:只有当 Cov(X,Y)=0(如独立)时交叉项才消失,退回到 D(X)+D(Y)。
例(协方差与相关系数计算):(X,Y) 联合分布列为 P(0,0)=P(1,1)=0.4、P(0,1)=P(1,0)=0.1。先求各数字特征。边缘上 P(X=1)=0.4+0.1=0.5,故 E(X)=0.5、D(X)=0.5×0.5=0.25;由对称 E(Y)=0.5、D(Y)=0.25。乘积期望只有 (1,1) 项非零:E(XY)=1×0.4=0.4。于是
Cov(X,Y)=E(XY)−E(X)E(Y)=0.4−0.25=0.15
ρXY=0.25×0.250.15=0.250.15=0.6
ρ=0.6>0 说明 X,Y 正相关——它们同取 0 或同取 1 的概率更大,符合直觉。
协方差的大小受量纲影响,不便比较。把它「标准化」就得到 相关系数(Correlation Coefficient):
ρXY=D(X)D(Y)Cov(X,Y)
ρXY∈[−1,1],是一把无量纲的尺子,专门度量 线性相关程度:
- ρXY=1:完全正相关,Y=aX+b (a>0) 严格成立。
- ρXY=−1:完全负相关,Y=aX+b (a<0)。
- ρXY=0:线性不相关(注意这只说明没有「线性」关系,不等于「独立」)。
∣ρXY∣ 越接近 1,散点越贴近一条直线;越接近 0,线性关系越弱。
X,Y 独立 ⇒ 不相关 (Cov=0),但反之不成立
「独立」是 任何形式 的无关,「不相关」只排除了 线性 关系——两者完全可以有很强的非线性依赖却仍不相关(如 Y=X2 在对称分布下 Cov(X,Y)=0 但显然不独立)。
例(不相关但不独立):设 X∼N(0,1),令 Y=X2。Y 完全由 X 决定,谈不上独立。但算协方差:由对称性 E(X)=0、E(X3)=0(奇函数),故
Cov(X,Y)=E(XY)−E(X)E(Y)=E(X3)−0⋅E(X2)=0
于是 ρXY=0,X 与 Y 不相关。这正说明「不相关」只管线性:Y 随 X 增大并不单调(X 正负都让 Y 变大),线性度量捕捉不到这种「抛物线式」的强依赖。
唯一的例外是 二维正态分布:此时「不相关」与「独立」等价。所以做正态题时,看到 ρ=0 就可以直接断定独立——但这是正态的特权,换成别的分布就不成立了。
矩(Moment)是期望、方差的统一推广,用来刻画分布更精细的形状。
- X 的 k 阶原点矩:E(Xk)。
- X 的 k 阶中心矩:E((X−E(X))k)。
它们与前面的特征一脉相承:
- 一阶原点矩 = 期望,刻画 位置。
- 二阶中心矩 = 方差,刻画 散度。
- 三阶中心矩与 偏度(Skewness)相关,刻画分布的 左右不对称。
- 四阶中心矩与 峰度(Kurtosis)相关,刻画 尾部的厚薄。
矩是 数理统计 中 矩估计法 的理论出发点:用样本矩去估计总体矩。
对 n 维随机向量 X=(X1,…,Xn)T,把所有两两协方差排成矩阵,就是 协方差矩阵(Covariance Matrix):
Σ=(Cov(Xi,Xj))n×n
它的对角线是各分量的方差 D(Xi),非对角是两两协方差。Σ 是 对称、半正定 的,是多元正态分布、主成分分析(PCA)等的核心对象。
固定 X=x 时 Y 的期望,称为 条件期望 E(Y∣X=x)。把它看成 X 的函数 E(Y∣X),再对 X 求一次期望,就把条件去掉、还原成普通期望——这就是 全期望公式(Law of Total Expectation):
E(Y)=E(E(Y∣X))=i∑E(Y∣X=xi)P(X=xi)
它是 全概率公式 在期望上的翻版:先分情况算条件期望,再按各情况的概率加权平均。处理「分阶段、分类别」的期望问题时极为顺手。
例(按情况加权):某商店每天来客数 X 服从泊松分布、E(X)=20,每位顾客的消费额独立同分布、均值 E(Y)=50 元。求当天总营业额 S 的期望。固定来客数 X=n 时 E(S∣X=n)=50n,即 E(S∣X)=50X,再对 X 求期望:
E(S)=E(E(S∣X))=E(50X)=50×20=1000 元
这类「随机个随机变量之和」的期望有个干净结论:E(S)=E(X)⋅E(Y)——先算每单的平均、再乘平均单数即可。
例(分阶段):一道题第一步答对(概率 0.6)才进入第二步,第二步答对(概率 0.5)得 10 分,只对第一步得 5 分,全错得 0 分。求得分期望。按三种情形加权:全对概率 0.6×0.5=0.3 得 10 分,仅第一步对概率 0.6×0.5=0.3 得 5 分,第一步错概率 0.4 得 0 分,故 E=10×0.3+5×0.3+0=4.5 分。