直接和「事件」打交道有时很笨重:我们更想把试验结果变成 数,这样才能求和、求平均、做微积分。随机变量(Random Variable,RV)就是干这件事的——它是定义在 样本空间 上的 实值函数 X:Ω→R,把每个样本点 ω 映射到一个实数 X(ω)。
比如「掷两枚骰子」,样本点是一对点数,而「点数之和」就是一个随机变量。一旦数值化,研究的焦点就从「事件」转向了 X 的 分布——它取各个值的「概率规律」。按取值方式,随机变量分为 离散型(取值可列)和 连续型(取值充满区间)两大类。
无论离散还是连续,都可以用 分布函数(Cumulative Distribution Function,CDF)统一描述。对任意 x∈R:
F(x)=P(X≤x)
它表示「X 不超过 x 的概率」,是一条从 0 爬到 1 的累积曲线。
性质:
- 单调不减:x1<x2⇒F(x1)≤F(x2)。
- 右连续:limx→x0+F(x)=F(x0)。
- 两端取值:F(−∞)=0,F(+∞)=1,且 0≤F(x)≤1。
- 区间概率:P(a<X≤b)=F(b)−F(a)。
分布函数用的是「≤」而非「<」,这保证了它 右连续。在离散型里,F(x) 是一条向右跳的阶梯函数,每个取值点跳起的高度恰是该点的概率 P(X=xi);这个「跳跃高度」就是单点概率,连续型里跳跃高度为 0,所以 P(X=a)=0。
例(由分布列写分布函数):X 取值 −1,1,2,概率分别为 0.3,0.5,0.2。F(x) 是逐段累加的阶梯:
F(x)=⎩⎨⎧0,0.3,0.8,1,x<−1−1≤x<11≤x<2x≥2
每个台阶的跳高正是该点概率:x=1 处从 0.3 跳到 0.8,跳高 0.5=P(X=1)。要算 P(0<X≤1)=F(1)−F(0)=0.8−0.3=0.5,区间右端含「≤」时直接代差值即可。
取值 可列,由 分布列(Probability Mass Function,PMF)pi=P(X=xi) 确定,满足:
pi≥0,i∑pi=1
| 分布 | 记号 | 分布列 | 背景 |
|---|
| 0-1 分布 | B(1,p) | P(X=1)=p, P(X=0)=1−p | 单次伯努利试验 |
| 二项分布 | B(n,p) | P(X=k)=(kn)pk(1−p)n−k | n 次独立试验成功次数 |
| 泊松分布 | P(λ) | P(X=k)=k!λke−λ | 单位时间稀有事件发生次数 |
| 几何分布 | G(p) | P(X=k)=(1−p)k−1p | 首次成功所需试验次数 |
| 超几何分布 | — | P(X=k)=(nN)(kM)(n−kN−M) | 不放回抽样中的成功数 |
- 0-1 分布(两点分布):只问「成功还是失败」,是一切的原子,比如「这次抛硬币是不是正面」。
- 二项分布:把 n 次独立的 0-1 试验叠起来数成功次数,参见 伯努利试验。
- 几何分布:不停做伯努利试验,直到 第一次成功 为止,问做了几次。它具有 无记忆性——前面失败多少次,都不影响「从现在起还要等几次」的分布。
- 超几何分布:从 N 件(含 M 件次品)里 不放回 抽 n 件,数其中次品数。当 N 很大、抽取比例很小时,「不放回」近似「放回」,超几何分布趋于二项分布。
例(几何分布):某人每次摇号中奖率 p=0.1,问「恰好第 3 次首中」与「前 3 次都没中」的概率。首中在第 3 次,即前两次失败、第三次成功:P(X=3)=0.92×0.1=0.081。前 3 次都没中就是 P(X>3)=0.93=0.729。几何分布的「至少再等若干次」总能写成 P(X>k)=(1−p)k。
例(超几何分布):一批 20 件产品含 5 件次品,不放回抽 4 件,求恰好抽到 2 件次品的概率。次品里挑 2、正品里挑 2,除以总组合:
P(X=2)=(420)(25)(215)=484510×105=48451050≈0.217
若改成 有放回 地抽 4 件,次品数就服从 B(4,41),P=(24)(41)2(43)2=25654≈0.211,两者接近正说明「抽样比例不大时超几何近似二项」。
泊松分布(Poisson Distribution)描述「单位时间(或空间)内,某稀有事件发生的次数」——电话交换台的来电数、一页书的错字数、放射性衰变的计数。它的形状由唯一参数 λ(平均发生率)决定。
它的来历正是二项分布的极限:把一段时间切成 n 个极短小段,每段「至多发生一次、概率为 p」,发生次数就是 B(n,p)。让 n→∞、p→0 而保持平均次数 np=λ 不变,就有:
(kn)pk(1−p)n−k n→∞ k!λke−λ
二项 → 泊松 的近似:当 n 很大、p 很小时,可用 λ=np 的泊松分布近似 B(n,p),把麻烦的组合数换成简单的指数式。工程上常以 n≥20, p≤0.05 作为近似阈值。直觉就是「大量机会、每次都很难成功,总成功数服从泊松」。
例(泊松直接计算):某网站平均每分钟收到 λ=3 次请求,设请求数服从泊松分布,求一分钟内「恰好 5 次」与「至少 1 次」的概率。恰好 5 次:
P(X=5)=5!35e−3=120243e−3≈2.025×0.0498≈0.101
至少 1 次取对立:P(X≥1)=1−P(X=0)=1−e−3≈0.950。
例(二项用泊松近似):某产品次品率 p=0.01,随机抽 n=200 件,求次品数 至多 2 件 的概率。直接用 B(200,0.01) 组合数繁琐,注意 n 大 p 小,取 λ=np=2 作泊松近似:
P(X≤2)≈e−2(1+2+2!22)=5e−2≈0.677
「大量产品、单件极少出错」正是泊松的舞台,组合数一律换成 k!λke−λ。
存在 概率密度函数(Probability Density Function,PDF)f(x)≥0,使分布函数可写成积分:
F(x)=∫−∞xf(t)dt,∫−∞+∞f(x)dx=1
密度 f(x) 不是概率,而是「概率的密集程度」——概率是密度曲线下的 面积。所以单点概率为 0:P(X=a)=0,区间概率才有意义:
P(a<X≤b)=∫abf(x)dx
正因单点概率为 0,连续型里 < 和 ≤ 可以随意互换。在 f 连续处,F′(x)=f(x)——密度是分布函数的导数。
密度函数的两条充要性质:f(x)≥0(非负),且 ∫−∞+∞f(x)dx=1(全积分为 1)。验证一个函数是否为合法密度,就看这两条。
例(由密度求常数与概率):设 f(x)=cx2(0≤x≤1,其余为 0),求 c 及 P(X>21)。先用归一化定常数:
∫01cx2dx=3c=1 ⇒ c=3
再积分求概率:
P(X>21)=∫1/213x2dx=[x3]1/21=1−81=87
「先用全积分为 1 定常数,再积分求区间概率」是连续型最常见的两步走。
例(由分布函数求密度):设 F(x)=1−e−2x(x≥0),F(x)=0(x<0),求密度并验证。在 x>0 处求导 f(x)=F′(x)=2e−2x,x<0 处 f(x)=0。这恰是 λ=2 的指数分布密度。由 F 求 f 就是求导,由 f 求 F 就是积分,两者互逆。
| 分布 | 记号 | 密度 |
|---|
| 均匀分布 | U(a,b) | f(x)=b−a1 (a≤x≤b) |
| 指数分布 | E(λ) | f(x)=λe−λx (x≥0) |
| 正态分布 | N(μ,σ2) | f(x)=2πσ1exp(−2σ2(x−μ)2) |
X∼U(a,b) 表示 X「在 [a,b] 上完全随机、处处等可能」,密度是一条水平线。落在某子区间的概率正比于子区间长度,这正是 几何概型 在一维上的体现。
例:公交车每 10 分钟一班,乘客随机到站,等待时间 X∼U(0,10),求「等待超过 7 分钟」的概率。落在子区间的概率即长度之比:P(X>7)=1010−7=0.3。
指数分布(Exponential Distribution)描述「等待某个稀有事件首次发生所需的时间」——下一通来电、下一次设备故障的间隔。它与泊松分布是一体两面:若单位时间发生次数服从 P(λ),则相邻两次的 等待时间 服从 E(λ)。其分布函数为 F(x)=1−e−λx (x≥0)。
它最迷人的性质是 无记忆性(Memorylessness):
P(X>s+t∣X>s)=P(X>t)
意思是「已经等了 s 这么久还没发生,那么再等 t 的概率,和从头开始等 t 完全一样」。元件「不会变老」,过去的等待不留任何痕迹。指数分布是 唯一 具有无记忆性的连续分布(离散情形则是几何分布)。
例:某元件寿命 X∼E(λ),平均寿命 λ1=1000 小时,即 λ=0.001。求它「用过 1000 小时仍正常」的概率。P(X>1000)=e−λ⋅1000=e−1≈0.368。若已知它已工作 1000 小时,问「再撑 1000 小时」的概率,由无记忆性 P(X>2000∣X>1000)=P(X>1000)=e−1,与全新元件无异——这就是「不会变老」。
正态分布(Normal Distribution,又称高斯分布)是概率论的「主角」,密度是那条著名的 钟形曲线,关于 x=μ 对称,σ 越大越「矮胖」、越小越「高瘦」。记号 N(μ,σ2) 里的两个参数 μ(位置)、σ2(胖瘦)恰好就是它的期望与方差。
它无处不在的原因是 中心极限定理:大量独立小因素叠加的结果总趋于正态——身高、测量误差、考试成绩皆是如此。
Z∼N(0,1) 称为 标准正态分布,密度记作 φ(z),分布函数记作 Φ(z)。由对称性有 Φ(−z)=1−Φ(z)。
标准化:任意正态都能化成标准正态——
X∼N(μ,σ2) ⇒ Z=σX−μ∼N(0,1)
「减期望、除标准差」把曲线挪到原点、缩放到单位宽度。这样所有正态分布的概率计算都归约到查一张标准正态表上。
例(标准化查表):X∼N(50,100),即 μ=50、σ=10,求 P(40<X<70)。两端各标准化为 z:
P(40<X<70)=Φ(1070−50)−Φ(1040−50)=Φ(2)−Φ(−1)
查表 Φ(2)≈0.9772,由对称性 Φ(−1)=1−Φ(1)≈1−0.8413=0.1587,故概率 ≈0.9772−0.1587=0.8185。处理负的 z 时一律用 Φ(−z)=1−Φ(z) 转成查正值。
3σ 原则:正态分布的概率高度集中在均值附近 3 个标准差之内——
P(∣X−μ∣<σ)≈0.6827,P(∣X−μ∣<2σ)≈0.9545,P(∣X−μ∣<3σ)≈0.9973
3σ 原则是工业质量控制的依据:正常产品的指标落在 μ±3σ 内几乎是必然(99.73%),一旦越界就视为「异常信号」。把单个观测值标准化为 z=σx−μ,看它偏离了几个 σ,是判断「这个值算不算极端」的通用尺子。
很多时候我们关心的不是 X 本身,而是它的某个函数 Y=g(X)(如面积 Y=X2)。需要由 X 的分布求出 Y 的分布。
把所有映到同一个 yk 的取值概率加起来:
P(Y=yk)=g(xi)=yk∑P(X=xi)
通用做法是 分布函数法:先求 FY(y)=P(g(X)≤y),把它化成关于 X 的事件再用 FX 表示,最后求导得密度。
当 g 严格单调且可导 时,有现成的 公式法:
fY(y)=fX(g−1(y))⋅dydg−1(y)
那个绝对值(雅可比因子)是为了「换元时拉伸 / 压缩坐标」做的体积修正,保证 fY 仍积分为 1。g 不单调时(如 Y=X2)不能直接套公式,须老老实实用分布函数法分段处理。
例(公式法,单调情形):X∼U(0,1),求 Y=−λ1ln(1−X) 的分布。g(x)=−λ1ln(1−x) 在 (0,1) 上严格递增,反函数 x=g−1(y)=1−e−λy,导数 dydg−1(y)=λe−λy。fX≡1,故
fY(y)=1⋅λe−λy=λe−λy(y>0)
Y∼E(λ)。这正是「逆变换法」:从均匀分布生成任意分布的随机数靠的就是它。
例(分布函数法,非单调 Y=X2):X∼N(0,1),求 Y=X2 的密度。g 不单调,老实用分布函数法。当 y>0:
FY(y)=P(X2≤y)=P(−y≤X≤y)=2Φ(y)−1
对 y 求导(链式法则,dydy=2y1):
fY(y)=2φ(y)⋅2y1=2πy1e−y/2(y>0)
这正是自由度为 1 的 χ2 分布密度,印证了 数理统计 里「标准正态平方服从 χ2(1)」。Y=X2 把 ±x 两支都映到同一个 y,分布函数法的「双侧」正是为此而设。
把两个随机变量打包成 (X,Y),研究它们的 联合行为——这是处理「相关性」的起点。
- 二维离散:联合分布列 pij=P(X=xi,Y=yj),满足 ∑i,jpij=1。
- 二维连续:联合密度 f(x,y)≥0 满足 ∬f=1,且
P((X,Y)∈D)=∬Df(x,y)dxdy
联合分布函数:F(x,y)=P(X≤x,Y≤y)。
只关心其中一个变量、把另一个「积掉」,得到 边缘分布(Marginal Distribution):
fX(x)=∫−∞+∞f(x,y)dy,fY(y)=∫−∞+∞f(x,y)dx
离散情形对应按行 / 按列求和。注意:边缘分布是「投影」,从联合能唯一确定边缘,但 反过来不行——同样的边缘可以对应完全不同的联合,因为边缘丢掉了「X 与 Y 如何关联」的信息。
固定一个变量的取值,看另一个的分布,就是 条件分布:
fY∣X(y∣x)=fX(x)f(x,y)(fX(x)>0)
这是 条件概率 在密度层面的翻版:联合密度除以边缘密度。三者的关系凑成「联合 = 边缘 × 条件」:f(x,y)=fX(x)fY∣X(y∣x)。
X,Y 独立 当且仅当「联合等于边缘之积」:
F(x,y)=FX(x)FY(y)⟺f(x,y)=fX(x)fY(y)
直觉上,独立意味着 Y 取什么值丝毫不改变 X 的分布,于是条件分布退化为边缘分布。
例(求边缘、判独立):设 (X,Y) 联合密度 f(x,y)=4xy(0≤x≤1, 0≤y≤1,其余为 0)。求两个边缘并判断独立性。沿 y 积掉得
fX(x)=∫014xydy=4x⋅21=2x(0≤x≤1)
同理 fY(y)=2y。由于 fX(x)fY(y)=2x⋅2y=4xy=f(x,y),联合恰好等于边缘之积,故 X,Y 独立。判独立的实操就是「分别算两个边缘,看乘积是否还原联合」。
例(条件密度):续上,求 fY∣X(y∣x)。代入定义 fY∣X(y∣x)=fX(x)f(x,y)=2x4xy=2y,与 x 无关——正印证了独立时条件分布退化为边缘 fY(y)=2y。
- 二维均匀分布:(X,Y) 在平面区域 D 上均匀,密度 f(x,y)=m(D)1(m(D) 为 D 的面积),落在子区域的概率正比于面积。
例(二维均匀):(X,Y) 在单位正方形 [0,1]2 上均匀,密度恒为 1。求 P(X+Y≤1) 及边缘 fX。事件 X+Y≤1 是正方形里对角线下方的三角形,面积 21,故概率 21。边缘 fX(x)=∫011dy=1(0≤x≤1),即 X∼U(0,1)。正方形上的二维均匀,两个分量独立且各自均匀;但若区域换成三角形,边缘就不再均匀、两分量也不独立了。
- 二维正态分布 N(μ1,μ2;σ12,σ22;ρ):由两个均值、两个方差和一个相关系数 ρ 描述,等高线是一族椭圆。它有一条漂亮的性质——边缘分布仍是正态,且对二维正态而言「X,Y 不相关」与「X,Y 独立」等价(一般分布并不成立,参见 数字特征)。
| 类型 | 分布 | 记号 | 分布列 / 密度 |
|---|
| 离散 | 0-1 分布 | B(1,p) | P(X=k)=pk(1−p)1−k, k=0,1 |
| 离散 | 二项分布 | B(n,p) | P(X=k)=(kn)pk(1−p)n−k |
| 离散 | 泊松分布 | P(λ) | P(X=k)=k!λke−λ |
| 离散 | 几何分布 | G(p) | P(X=k)=(1−p)k−1p |
| 连续 | 均匀分布 | U(a,b) | f(x)=b−a1 (a≤x≤b) |
| 连续 | 指数分布 | E(λ) | f(x)=λe−λx (x≥0) |
| 连续 | 正态分布 | N(μ,σ2) | f(x)=2πσ1exp(−2σ2(x−μ)2) |
它们的期望与方差汇总见 数字特征。