随机变量与分布

参考资料

引入

直接和「事件」打交道有时很笨重：我们更想把试验结果变成数，这样才能求和、求平均、做微积分。随机变量（Random Variable，RV）就是干这件事的——它是定义在样本空间上的 实值函数 $X:\Omega\to\mathbb{R}$ ，把每个样本点 $\omega$ 映射到一个实数 $X(\omega)$ 。

比如「掷两枚骰子」，样本点是一对点数，而「点数之和」就是一个随机变量。一旦数值化，研究的焦点就从「事件」转向了 $X$ 的分布——它取各个值的「概率规律」。按取值方式，随机变量分为 离散型（取值可列）和 连续型（取值充满区间）两大类。

分布函数

无论离散还是连续，都可以用 分布函数（Cumulative Distribution Function，CDF）统一描述。对任意 $x\in\mathbb{R}$ ：

F(x)=P(X\le x)

它表示「 $X$ 不超过 $x$ 的概率」，是一条从 $0$ 爬到 $1$ 的累积曲线。

性质：

单调不减： $x_1<x_2\implies F(x_1)\le F(x_2)$ 。
右连续： $\lim_{x\to x_0^+}F(x)=F(x_0)$ 。
两端取值： $F(-\infty)=0$ ， $F(+\infty)=1$ ，且 $0\le F(x)\le 1$ 。
区间概率： $P(a<X\le b)=F(b)-F(a)$ 。

tip

分布函数用的是「 $\le$ 」而非「 $<$ 」，这保证了它 右连续。在离散型里， $F(x)$ 是一条向右跳的阶梯函数，每个取值点跳起的高度恰是该点的概率 $P(X=x_i)$ ；这个「跳跃高度」就是单点概率，连续型里跳跃高度为 $0$ ，所以 $P(X=a)=0$ 。

例（由分布列写分布函数）： $X$ 取值 $-1,1,2$ ，概率分别为 $0.3,0.5,0.2$ 。 $F(x)$ 是逐段累加的阶梯：

F(x)=\begin{cases} 0, & x<-1 \\ 0.3, & -1\le x<1 \\ 0.8, & 1\le x<2 \\ 1, & x\ge 2 \end{cases}

每个台阶的跳高正是该点概率： $x=1$ 处从 $0.3$ 跳到 $0.8$ ，跳高 $0.5=P(X=1)$ 。要算 $P(0<X\le 1)=F(1)-F(0)=0.8-0.3=0.5$ ，区间右端含「 $\le$ 」时直接代差值即可。

离散型随机变量

取值可列，由 分布列（Probability Mass Function，PMF） $p_i=P(X=x_i)$ 确定，满足：

p_i\ge 0,\sum_i p_i=1

常见离散分布

分布	记号	分布列	背景
$0\text{-}1$ 分布	$B(1,p)$	$P(X=1)=p,P(X=0)=1-p$	单次伯努利试验
二项分布	$B(n,p)$	$P(X=k)=\binom{n}{k}p^k(1-p)^{n-k}$	$n$ 次独立试验成功次数
泊松分布	$P(\lambda)$	$P(X=k)=\dfrac{\lambda^k}{k!}e^{-\lambda}$	单位时间稀有事件发生次数
几何分布	$G(p)$	$P(X=k)=(1-p)^{k-1}p$	首次成功所需试验次数
超几何分布	—	$P(X=k)=\dfrac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}}$	不放回抽样中的成功数

$0\text{-}1$ 分布（两点分布）：只问「成功还是失败」，是一切的原子，比如「这次抛硬币是不是正面」。
二项分布：把 $n$ 次独立的 $0\text{-}1$ 试验叠起来数成功次数，参见伯努利试验。
几何分布：不停做伯努利试验，直到 第一次成功 为止，问做了几次。它具有 无记忆性——前面失败多少次，都不影响「从现在起还要等几次」的分布。
超几何分布：从 $N$ 件（含 $M$ 件次品）里 不放回 抽 $n$ 件，数其中次品数。当 $N$ 很大、抽取比例很小时，「不放回」近似「放回」，超几何分布趋于二项分布。

例（几何分布）：某人每次摇号中奖率 $p=0.1$ ，问「恰好第 $3$ 次首中」与「前 $3$ 次都没中」的概率。首中在第 $3$ 次，即前两次失败、第三次成功： $P(X=3)=0.9^2\times 0.1=0.081$ 。前 $3$ 次都没中就是 $P(X>3)=0.9^3=0.729$ 。几何分布的「至少再等若干次」总能写成 $P(X>k)=(1-p)^k$ 。

例（超几何分布）：一批 $20$ 件产品含 $5$ 件次品，不放回抽 $4$ 件，求恰好抽到 $2$ 件次品的概率。次品里挑 $2$ 、正品里挑 $2$ ，除以总组合：

P(X=2)=\frac{\binom 52\binom{15}{2}}{\binom{20}{4}}=\frac{10\times 105}{4845}=\frac{1050}{4845}\approx 0.217

若改成 有放回 地抽 $4$ 件，次品数就服从 $B(4,\tfrac14)$ ， $P=\binom 42(\tfrac14)^2(\tfrac34)^2=\frac{54}{256}\approx 0.211$ ，两者接近正说明「抽样比例不大时超几何近似二项」。

泊松分布与「二项的极限」

泊松分布（Poisson Distribution）描述「单位时间（或空间）内，某稀有事件发生的次数」——电话交换台的来电数、一页书的错字数、放射性衰变的计数。它的形状由唯一参数 $\lambda$ （平均发生率）决定。

它的来历正是二项分布的极限：把一段时间切成 $n$ 个极短小段，每段「至多发生一次、概率为 $p$ 」，发生次数就是 $B(n,p)$ 。让 $n\to\infty$ 、 $p\to 0$ 而保持平均次数 $np=\lambda$ 不变，就有：

\binom{n}{k}p^k(1-p)^{n-k}\xrightarrow{n\to\infty}\frac{\lambda^k}{k!}e^{-\lambda}

tip

二项 → 泊松 的近似：当 $n$ 很大、 $p$ 很小时，可用 $\lambda=np$ 的泊松分布近似 $B(n,p)$ ，把麻烦的组合数换成简单的指数式。工程上常以 $n\ge 20,p\le 0.05$ 作为近似阈值。直觉就是「大量机会、每次都很难成功，总成功数服从泊松」。

例（泊松直接计算）：某网站平均每分钟收到 $\lambda=3$ 次请求，设请求数服从泊松分布，求一分钟内「恰好 $5$ 次」与「至少 $1$ 次」的概率。恰好 $5$ 次：

P(X=5)=\frac{3^5}{5!}e^{-3}=\frac{243}{120}e^{-3}\approx 2.025\times 0.0498\approx 0.101

至少 $1$ 次取对立： $P(X\ge 1)=1-P(X=0)=1-e^{-3}\approx 0.950$ 。

例（二项用泊松近似）：某产品次品率 $p=0.01$ ，随机抽 $n=200$ 件，求次品数 至多 $2$ 件 的概率。直接用 $B(200,0.01)$ 组合数繁琐，注意 $n$ 大 $p$ 小，取 $\lambda=np=2$ 作泊松近似：

P(X\le 2)\approx e^{-2}\left(1+2+\frac{2^2}{2!}\right)=5e^{-2}\approx 0.677

「大量产品、单件极少出错」正是泊松的舞台，组合数一律换成 $\frac{\lambda^k}{k!}e^{-\lambda}$ 。

连续型随机变量

存在 概率密度函数（Probability Density Function，PDF） $f(x)\ge 0$ ，使分布函数可写成积分：

F(x)=\int_{-\infty}^xf(t)\mathrm{d}t,\int_{-\infty}^{+\infty}f(x)\mathrm{d}x=1

密度 $f(x)$ 不是概率，而是「概率的密集程度」——概率是密度曲线下的面积。所以单点概率为 $0$ ： $P(X=a)=0$ ，区间概率才有意义：

P(a<X\le b)=\int_a^b f(x)\mathrm{d}x

正因单点概率为 $0$ ，连续型里 $<$ 和 $\le$ 可以随意互换。在 $f$ 连续处， $F'(x)=f(x)$ ——密度是分布函数的导数。

密度函数的两条充要性质： $f(x)\ge 0$ （非负），且 $\int_{-\infty}^{+\infty}f(x)\mathrm{d}x=1$ （全积分为 $1$ ）。验证一个函数是否为合法密度，就看这两条。

例（由密度求常数与概率）：设 $f(x)=cx^2$ （ $0\le x\le 1$ ，其余为 $0$ ），求 $c$ 及 $P(X>\tfrac12)$ 。先用归一化定常数：

\int_0^1 cx^2\mathrm{d}x=\frac{c}{3}=1\implies c=3

再积分求概率：

P\left(X>\tfrac12\right)=\int_{1/2}^13x^2\mathrm{d}x=\big[x^3\big]_{1/2}^1=1-\frac{1}{8}=\frac{7}{8}

「先用全积分为 $1$ 定常数，再积分求区间概率」是连续型最常见的两步走。

例（由分布函数求密度）：设 $F(x)=1-e^{-2x}$ （ $x\ge 0$ ）， $F(x)=0$ （ $x<0$ ），求密度并验证。在 $x>0$ 处求导 $f(x)=F'(x)=2e^{-2x}$ ， $x<0$ 处 $f(x)=0$ 。这恰是 $\lambda=2$ 的指数分布密度。由 $F$ 求 $f$ 就是求导，由 $f$ 求 $F$ 就是积分，两者互逆。

常见连续分布

分布	记号	密度
均匀分布	$U(a,b)$	$f(x)=\dfrac{1}{b-a}(a\le x\le b)$
指数分布	$E(\lambda)$	$f(x)=\lambda e^{-\lambda x}(x\ge 0)$
正态分布	$N(\mu,\sigma^2)$	$f(x)=\dfrac{1}{\sqrt{2\pi}\sigma}\exp\left(-\dfrac{(x-\mu)^2}{2\sigma^2}\right)$

均匀分布

$X\sim U(a,b)$ 表示 $X$ 「在 $[a,b]$ 上完全随机、处处等可能」，密度是一条水平线。落在某子区间的概率正比于子区间长度，这正是几何概型在一维上的体现。

例：公交车每 $10$ 分钟一班，乘客随机到站，等待时间 $X\sim U(0,10)$ ，求「等待超过 $7$ 分钟」的概率。落在子区间的概率即长度之比： $P(X>7)=\frac{10-7}{10}=0.3$ 。

指数分布与无记忆性

指数分布（Exponential Distribution）描述「等待某个稀有事件首次发生所需的时间」——下一通来电、下一次设备故障的间隔。它与泊松分布是一体两面：若单位时间发生次数服从 $P(\lambda)$ ，则相邻两次的 等待时间 服从 $E(\lambda)$ 。其分布函数为 $F(x)=1-e^{-\lambda x}(x\ge 0)$ 。

它最迷人的性质是 无记忆性（Memorylessness）：

P(X>s+t\mid X>s)=P(X>t)

意思是「已经等了 $s$ 这么久还没发生，那么再等 $t$ 的概率，和从头开始等 $t$ 完全一样」。元件「不会变老」，过去的等待不留任何痕迹。指数分布是唯一具有无记忆性的连续分布（离散情形则是几何分布）。

例：某元件寿命 $X\sim E(\lambda)$ ，平均寿命 $\frac{1}{\lambda}=1000$ 小时，即 $\lambda=0.001$ 。求它「用过 $1000$ 小时仍正常」的概率。 $P(X>1000)=e^{-\lambda\cdot 1000}=e^{-1}\approx 0.368$ 。若已知它已工作 $1000$ 小时，问「再撑 $1000$ 小时」的概率，由无记忆性 $P(X>2000\mid X>1000)=P(X>1000)=e^{-1}$ ，与全新元件无异——这就是「不会变老」。

正态分布

正态分布（Normal Distribution，又称高斯分布）是概率论的「主角」，密度是那条著名的 钟形曲线，关于 $x=\mu$ 对称， $\sigma$ 越大越「矮胖」、越小越「高瘦」。记号 $N(\mu,\sigma^2)$ 里的两个参数 $\mu$ （位置）、 $\sigma^2$ （胖瘦）恰好就是它的期望与方差。

它无处不在的原因是中心极限定理：大量独立小因素叠加的结果总趋于正态——身高、测量误差、考试成绩皆是如此。

标准正态分布

$Z\sim N(0,1)$ 称为 标准正态分布，密度记作 $\varphi(z)$ ，分布函数记作 $\Phi(z)$ 。由对称性有 $\Phi(-z)=1-\Phi(z)$ 。

标准化：任意正态都能化成标准正态——：

X\sim N(\mu,\sigma^2)\implies Z=\frac{X-\mu}{\sigma}\sim N(0,1)

「减期望、除标准差」把曲线挪到原点、缩放到单位宽度。这样所有正态分布的概率计算都归约到查一张标准正态表上。

例（标准化查表）： $X\sim N(50,100)$ ，即 $\mu=50$ 、 $\sigma=10$ ，求 $P(40<X<70)$ 。两端各标准化为 $z$ ：

P(40<X<70)=\Phi\left(\frac{70-50}{10}\right)-\Phi\left(\frac{40-50}{10}\right)=\Phi(2)-\Phi(-1)

查表 $\Phi(2)\approx 0.9772$ ，由对称性 $\Phi(-1)=1-\Phi(1)\approx 1-0.8413=0.1587$ ，故概率 $\approx 0.9772-0.1587=0.8185$ 。处理负的 $z$ 时一律用 $\Phi(-z)=1-\Phi(z)$ 转成查正值。

$3\sigma$ 原则：正态分布的概率高度集中在均值附近 $3$ 个标准差之内——：

P(|X-\mu|<\sigma)\approx 0.6827,P(|X-\mu|<2\sigma)\approx 0.9545,P(|X-\mu|<3\sigma)\approx 0.9973

tip

$3\sigma$ 原则是工业质量控制的依据：正常产品的指标落在 $\mu\pm 3\sigma$ 内几乎是必然（ $99.73\%$ ），一旦越界就视为「异常信号」。把单个观测值标准化为 $z=\frac{x-\mu}{\sigma}$ ，看它偏离了几个 $\sigma$ ，是判断「这个值算不算极端」的通用尺子。

随机变量的函数

很多时候我们关心的不是 $X$ 本身，而是它的某个函数 $Y=g(X)$ （如面积 $Y=X^2$ ）。需要由 $X$ 的分布求出 $Y$ 的分布。

离散情形

把所有映到同一个 $y_k$ 的取值概率加起来：

P(Y=y_k)=\sum_{g(x_i)=y_k}P(X=x_i)

连续情形

通用做法是 分布函数法：先求 $F_Y(y)=P(g(X)\le y)$ ，把它化成关于 $X$ 的事件再用 $F_X$ 表示，最后求导得密度。

当 $g$ 严格单调且可导 时，有现成的 公式法：

f_Y(y)=f_X\big(g^{-1}(y)\big)\cdot\left|\frac{\mathrm{d}}{\mathrm{d}y}g^{-1}(y)\right|

那个绝对值（雅可比因子）是为了「换元时拉伸 / 压缩坐标」做的体积修正，保证 $f_Y$ 仍积分为 $1$ 。 $g$ 不单调时（如 $Y=X^2$ ）不能直接套公式，须老老实实用分布函数法分段处理。

例（公式法，单调情形）： $X\sim U(0,1)$ ，求 $Y=-\frac{1}{\lambda}\ln(1-X)$ 的分布。 $g(x)=-\frac{1}{\lambda}\ln(1-x)$ 在 $(0,1)$ 上严格递增，反函数 $x=g^{-1}(y)=1-e^{-\lambda y}$ ，导数 $\frac{\mathrm{d}}{\mathrm{d}y}g^{-1}(y)=\lambda e^{-\lambda y}$ 。 $f_X\equiv 1$ ，故：

f_Y(y)=1\cdot\big|\lambda e^{-\lambda y}\big|=\lambda e^{-\lambda y}(y>0)

$Y\sim E(\lambda)$ 。这正是「逆变换法」：从均匀分布生成任意分布的随机数靠的就是它。

例（分布函数法，非单调 $Y=X^2$ ）： $X\sim N(0,1)$ ，求 $Y=X^2$ 的密度。 $g$ 不单调，老实用分布函数法。当 $y>0$ ：

F_Y(y)=P(X^2\le y)=P(-\sqrt y\le X\le\sqrt y)=2\Phi(\sqrt y)-1

对 $y$ 求导（链式法则， $\frac{\mathrm{d}}{\mathrm{d}y}\sqrt y=\frac{1}{2\sqrt y}$ ）：

f_Y(y)=2\varphi(\sqrt y)\cdot\frac{1}{2\sqrt y}=\frac{1}{\sqrt{2\pi y}}e^{-y/2}(y>0)

这正是自由度为 $1$ 的 $\chi^2$ 分布密度，印证了数理统计里「标准正态平方服从 $\chi^2(1)$ 」。 $Y=X^2$ 把 $\pm x$ 两支都映到同一个 $y$ ，分布函数法的「双侧」正是为此而设。

二维随机变量

把两个随机变量打包成 $(X,Y)$ ，研究它们的 联合行为——这是处理「相关性」的起点。

联合分布

二维离散：联合分布列 $p_{ij}=P(X=x_i,Y=y_j)$ ，满足 $\sum_{i,j}p_{ij}=1$ 。
二维连续：联合密度 $f(x,y)\ge 0$ 满足 $\iint f=1$ ，且：

P\big((X,Y)\in D\big)=\iint_D f(x,y)\mathrm{d}x\mathrm{d}y

联合分布函数： $F(x,y)=P(X\le x,Y\le y)$ 。

边缘分布

只关心其中一个变量、把另一个「积掉」，得到 边缘分布（Marginal Distribution）：

f_X(x)=\int_{-\infty}^{+\infty}f(x,y)\mathrm{d}y,f_Y(y)=\int_{-\infty}^{+\infty}f(x,y)\mathrm{d}x

离散情形对应按行 / 按列求和。注意：边缘分布是「投影」，从联合能唯一确定边缘，但 反过来不行——同样的边缘可以对应完全不同的联合，因为边缘丢掉了「 $X$ 与 $Y$ 如何关联」的信息。

条件分布

固定一个变量的取值，看另一个的分布，就是 条件分布：

f_{Y\mid X}(y\mid x)=\frac{f(x,y)}{f_X(x)}(f_X(x)>0)

这是条件概率在密度层面的翻版：联合密度除以边缘密度。三者的关系凑成「联合 = 边缘 × 条件」： $f(x,y)=f_X(x)f_{Y\mid X}(y\mid x)$ 。

独立性

$X,Y$ 独立当且仅当「联合等于边缘之积」：

F(x,y)=F_X(x)F_Y(y)\iff f(x,y)=f_X(x)f_Y(y)

直觉上，独立意味着 $Y$ 取什么值丝毫不改变 $X$ 的分布，于是条件分布退化为边缘分布。

例（求边缘、判独立）：设 $(X,Y)$ 联合密度 $f(x,y)=4xy$ （ $0\le x\le 1,0\le y\le 1$ ，其余为 $0$ ）。求两个边缘并判断独立性。沿 $y$ 积掉得：

f_X(x)=\int_0^1 4xy\mathrm{d}y=4x\cdot\frac{1}{2}=2x(0\le x\le 1)

同理 $f_Y(y)=2y$ 。由于 $f_X(x)f_Y(y)=2x\cdot 2y=4xy=f(x,y)$ ，联合恰好等于边缘之积，故 $X,Y$ 独立。判独立的实操就是「分别算两个边缘，看乘积是否还原联合」。

例（条件密度）：续上，求 $f_{Y\mid X}(y\mid x)$ 。代入定义 $f_{Y\mid X}(y\mid x)=\frac{f(x,y)}{f_X(x)}=\frac{4xy}{2x}=2y$ ，与 $x$ 无关——正印证了独立时条件分布退化为边缘 $f_Y(y)=2y$ 。

常见二维分布

二维均匀分布： $(X,Y)$ 在平面区域 $D$ 上均匀，密度 $f(x,y)=\frac{1}{m(D)}$ （ $m(D)$ 为 $D$ 的面积），落在子区域的概率正比于面积。

例（二维均匀）： $(X,Y)$ 在单位正方形 $[0,1]^2$ 上均匀，密度恒为 $1$ 。求 $P(X+Y\le 1)$ 及边缘 $f_X$ 。事件 $X+Y\le 1$ 是正方形里对角线下方的三角形，面积 $\frac{1}{2}$ ，故概率 $\frac{1}{2}$ 。边缘 $f_X(x)=\int_0^1 1\mathrm{d}y=1$ （ $0\le x\le 1$ ），即 $X\sim U(0,1)$ 。正方形上的二维均匀，两个分量独立且各自均匀；但若区域换成三角形，边缘就不再均匀、两分量也不独立了。

二维正态分布 $N(\mu_1,\mu_2;\sigma_1^2,\sigma_2^2;\rho)$ ：由两个均值、两个方差和一个相关系数 $\rho$ 描述，等高线是一族椭圆。它有一条漂亮的性质——边缘分布仍是正态，且对二维正态而言「 $X,Y$ 不相关」与「 $X,Y$ 独立」等价（一般分布并不成立，参见数字特征）。

常见分布汇总

类型	分布	记号	分布列 / 密度
离散	$0\text{-}1$ 分布	$B(1,p)$	$P(X=k)=p^k(1-p)^{1-k},k=0,1$
离散	二项分布	$B(n,p)$	$P(X=k)=\binom{n}{k}p^k(1-p)^{n-k}$
离散	泊松分布	$P(\lambda)$	$P(X=k)=\dfrac{\lambda^k}{k!}e^{-\lambda}$
离散	几何分布	$G(p)$	$P(X=k)=(1-p)^{k-1}p$
连续	均匀分布	$U(a,b)$	$f(x)=\dfrac{1}{b-a}(a\le x\le b)$
连续	指数分布	$E(\lambda)$	$f(x)=\lambda e^{-\lambda x}(x\ge 0)$
连续	正态分布	$N(\mu,\sigma^2)$	$f(x)=\dfrac{1}{\sqrt{2\pi}\sigma}\exp\left(-\dfrac{(x-\mu)^2}{2\sigma^2}\right)$

它们的期望与方差汇总见数字特征。

参考资料​

引入​

分布函数​

离散型随机变量​

常见离散分布​

泊松分布与「二项的极限」​

连续型随机变量​

常见连续分布​

均匀分布​

指数分布与无记忆性​

正态分布​

标准正态分布​

随机变量的函数​

离散情形​

连续情形​

二维随机变量​

联合分布​

边缘分布​

条件分布​

独立性​

常见二维分布​

常见分布汇总​