随机事件与概率

参考资料

引入

概率论（Probability Theory）用数学语言刻画 不确定性。从「掷骰子」「抽卡」「天气预报」到机器学习的不确定性建模，本质都是 随机事件 与概率的运用。

概率论研究的是 随机现象：在相同条件下重复试验，单次结果无法预测，但大量重复后会呈现稳定的统计规律。我们把这种「可重复、结果不确定、所有可能结果已知」的试验称为 随机试验（Random Experiment）。

基本概念

样本空间

随机试验所有可能结果的集合，记为 $\Omega$ 。每个结果 $\omega\in\Omega$ 称为 样本点。

样本空间可以是有限的（掷一次骰子， $\Omega=\set{1,2,3,4,5,6}$ ），可列无限的（抛硬币直到首次正面，记录次数），也可以是连续的（等公交的时间）。样本空间的「形状」直接决定了后面该用古典概型、几何概型还是连续型随机变量。

随机事件

样本空间的子集 $A\subseteq\Omega$ ，是若干样本点的集合。当试验结果 $\omega\in A$ 时，称 事件 $A$ 发生。

必然事件 $\Omega$
不可能事件 $\varnothing$
基本事件：仅含一个样本点 $\set{\omega}$

事件运算

参见集合：

概率论术语	集合论	含义
$A$ 与 $B$ 之和	$A\cup B$	$A,B$ 至少一个发生
$A$ 与 $B$ 之积	$A\cap B$ 或 $AB$	$A,B$ 同时发生
$A$ 与 $B$ 之差	$A\setminus B$	$A$ 发生而 $B$ 不发生
对立（互补）	$\bar A=\Omega\setminus A$	$A$ 不发生
互斥（不相容）	$A\cap B=\varnothing$	$A,B$ 不能同时发生

事件运算满足与集合相同的 交换律、结合律、分配律，以及 德摩根律：

\overline{A\cup B}=\bar A\cap\bar B,\overline{A\cap B}=\bar A\cup\bar B

例：把「 $A,B,C$ 中恰好发生一个」翻译成事件运算。「恰好 $A$ 发生」是 $A\bar B\bar C$ ，三种情形互斥，相加得 $A\bar B\bar C\cup\bar A B\bar C\cup\bar A\bar B C$ 。再看「至多发生一个」，就是「恰好零个」加「恰好一个」，即 $\bar A\bar B\bar C\cup A\bar B\bar C\cup\bar A B\bar C\cup\bar A\bar B C$ 。把自然语言里的「恰好 / 至少 / 至多」逐字拆成 $\bar{\phantom A}$ 与 $\cup$ 的组合，是后面计数的前提。

tip

把事件翻译成集合，再翻译成「至少 / 都 / 恰好 / 都不」这类自然语言，是做题的第一步。比如「 $A,B,C$ 至少一个发生」是 $A\cup B\cup C$ ；「都不发生」是 $\bar A\bar B\bar C=\overline{A\cup B\cup C}$ ，正是德摩根律的用武之地。

概率

公理化定义（Kolmogorov）

满足以下三条公理的实函数 $P:2^\Omega\to[0,1]$ ：

非负性： $P(A)\ge 0$ 。
规范性： $P(\Omega)=1$ 。
可列可加性： $A_1,A_2,\dots$ 两两互斥时， $P\left(\bigcup A_i\right)=\sum P(A_i)$ 。

这三条看似简单，却是整个概率论的地基：所有后续公式都从它们推出。柯尔莫哥洛夫（Kolmogorov）的贡献，是把「概率」从含糊的直觉变成了一个严格的测度。

基本性质

P(\varnothing)=0,P(\bar A)=1-P(A)

P(A\cup B)=P(A)+P(B)-P(AB)

A\subseteq B\implies P(A)\le P(B),P(B\setminus A)=P(B)-P(AB)

例：已知 $P(A)=0.6$ 、 $P(B)=0.7$ 、 $P(AB)=0.5$ ，求 $P(\bar A\bar B)$ 与 $P(A\bar B)$ 。先算 $P(A\cup B)=0.6+0.7-0.5=0.8$ ，由德摩根律 $P(\bar A\bar B)=P(\overline{A\cup B})=1-0.8=0.2$ ；再由差事件 $P(A\bar B)=P(A)-P(AB)=0.6-0.5=0.1$ 。这两步「先并后补、先交后差」是处理两事件概率的标准拆法。

tip

很多题目正面计算很麻烦，但 对立面 很简单——这时用 $P(A)=1-P(\bar A)$ 往往一步到位。典型如「至少有一个」：直接算要分情况讨论，取对立「一个都没有」却是单一事件。

容斥原理

加法公式推广到 $n$ 个事件，就是 容斥原理（Inclusion-Exclusion Principle）：

P\left(\bigcup_{i=1}^nA_i\right)=\sum_i P(A_i)-\sum_{i<j}P(A_iA_j)+\sum_{i<j<k}P(A_iA_jA_k)-\cdots+(-1)^{n-1}P(A_1\cdots A_n)

直觉是「加多了再减、减多了再加」：先把每个事件的概率都加上，重叠部分被算了两次，于是减去两两交；但这样三重交又被多减了，再加回来……如此交替修正到底。

例（配对问题，又称装错信封）： $n$ 封信随机塞进 $n$ 个写好地址的信封，求「没有一封塞对」的概率。设 $A_i$ 为「第 $i$ 封塞对」，则「至少一封塞对」是 $\bigcup A_i$ 。每个 $P(A_i)=\frac{(n-1)!}{n!}=\frac{1}{n}$ ，两两交 $P(A_iA_j)=\frac{(n-2)!}{n!}$ ，共 $\binom n2$ 项，依此类推第 $k$ 重交共 $\binom nk$ 项、每项 $\frac{(n-k)!}{n!}$ ，乘起来恰为 $\frac{1}{k!}$ 。代入容斥：

P\left(\bigcup A_i\right)=\sum_{k=1}^n(-1)^{k-1}\frac{1}{k!}=1-\frac{1}{2!}+\frac{1}{3!}-\cdots

于是「全错」的概率 $P(\bar A_1\cdots\bar A_n)=\sum_{k=0}^n\frac{(-1)^k}{k!}\to e^{-1}\approx 0.368$ 。无论信有多少封，全部塞错的概率都稳定在 $\frac{1}{e}$ 附近，这是个出人意料的常数。

古典概型

样本空间有限、各样本点 等可能 时：

P(A)=\frac{|A|}{|\Omega|}=\frac{A\text{ 中样本点数}}{\Omega\text{ 中样本点数}}

计算技巧依赖计数原理（排列、组合、容斥）。古典概型的全部难度都在数数：关键是把「分子」和「分母」放在 同一个样本空间 里数——要么都按顺序（排列），要么都不计顺序（组合），不能一个用排列、一个用组合。

例（放回 vs 不放回的取球）：袋中 $3$ 红 $2$ 白共 $5$ 球，取 $2$ 个，求「两个同色」的概率。

不放回：用组合数 $|\Omega|=\binom 52=10$ ，两红 $\binom 32=3$ 、两白 $\binom 22=1$ ，故 $P=\frac{3+1}{10}=\frac{2}{5}$ 。
放回：每次都从 $5$ 个里取，按顺序 $|\Omega|=5^2=25$ ，两红 $3^2=9$ 、两白 $2^2=4$ ，故 $P=\frac{9+4}{25}=\frac{13}{25}$ 。

放回时同色概率更大，因为可以「同一个球取两次」。注意分子分母必须统一口径：不放回都用组合，放回都用有序对。

例（分组问题）：把 $52$ 张牌平分给 $4$ 人，每人 $13$ 张，求「每人恰好一张 A」的概率。分母是把 $52$ 张分成有序四堆的方法数 $\dfrac{52!}{(13!)^4}$ 。分子： $4$ 张 A 各去一人有 $4!$ 种分法，其余 $48$ 张牌每人补 $12$ 张为 $\dfrac{48!}{(12!)^4}$ 种，相乘。化简得：

P=\frac{4!\cdot\dfrac{48!}{(12!)^4}}{\dfrac{52!}{(13!)^4}}=\frac{4!\cdot 13^4}{52\cdot 51\cdot 50\cdot 49}\approx 0.105

例（生日问题）： $n$ 个人生日各不相同的概率为 $\dfrac{365\cdot 364\cdots(365-n+1)}{365^n}$ 。当 $n=23$ 时它已降到约 $0.493$ ，故「至少两人同生日」超过 $\frac{1}{2}$ 。 $23$ 个人就能过半，远比直觉小——这正是「至少」取对立面计算的经典场景。

tip

抽签的公平性： $n$ 个人依次不放回地抽 $1$ 张「中奖签」，每个人中奖的概率都是 $\frac{1}{n}$ ，与抽签先后无关。直觉上「先抽的人占便宜」是错觉——把 $n$ 张签随机排成一列，中奖签落在任何一个位置都是等可能的，第 $k$ 个人对应第 $k$ 个位置，概率自然都是 $\frac{1}{n}$ 。

可以用乘法公式验证：第 $2$ 个人中奖要求「第 $1$ 个没中、第 $2$ 个中」，概率 $\frac{n-1}{n}\cdot\frac{1}{n-1}=\frac{1}{n}$ ，与第 $1$ 个人的 $\frac{1}{n}$ 相同。

几何概型

样本空间是 几何区域、概率正比于度量（长度/面积/体积）：

P(A)=\frac{m(A)}{m(\Omega)}

几何概型是古典概型在「无限多等可能结果」上的推广。它的难点是 把问题翻译成区域：常把多个随机量设为坐标轴，事件就变成平面或空间里的一块区域，概率即面积（体积）之比。会面问题、蒲丰投针都是这一思路。

例（会面问题）：两人约定 $7$ 点到 $8$ 点间见面，先到者最多等 $20$ 分钟，求能见面的概率。设两人到达时刻为 $x,y\in[0,60]$ （分钟），样本空间是边长 $60$ 的正方形，面积 $3600$ 。能见面即 $|x-y|\le 20$ ，这是去掉两个直角边长 $40$ 的三角形后剩下的带状区域：

P=\frac{60^2-2\cdot\frac{1}{2}\cdot 40^2}{60^2}=\frac{3600-1600}{3600}=\frac{5}{9}

例（蒲丰投针）：平面上画间距为 $d$ 的平行线，把长 $l\le d$ 的针随机抛下，求它与某条线相交的概率。设针中点到最近线的距离 $x\in[0,\frac{d}{2}]$ 、针与线的夹角 $\theta\in[0,\pi]$ 都均匀。相交条件是 $x\le\frac{l}{2}\sin\theta$ ，在 $x$ - $\theta$ 矩形 $[0,\frac{d}{2}]\times[0,\pi]$ 中，事件区域的面积是 $\int_0^\pi\frac{l}{2}\sin\theta\mathrm{d}\theta=l$ ，矩形面积 $\frac{\pi d}{2}$ ，于是：

P=\frac{l}{\frac{\pi d}{2}}=\frac{2l}{\pi d}

里面藏着 $\pi$ ，所以大量投针、用频率反估 $P$ 就能近似 $\pi$ ——这是最早的「蒙特卡洛」实验。

条件概率

若 $P(B)>0$ ，定义在 $B$ 发生条件下 $A$ 的概率：

P(A\mid B)=\frac{P(AB)}{P(B)}

直觉是 缩小样本空间：已知 $B$ 发生，世界就只剩下 $B$ 这一块，我们在 $B$ 内部重新衡量 $A$ 占多大比例。分母从 $\Omega$ 换成了 $B$ 。

乘法公式

P(AB)=P(A)P(B\mid A)=P(B)P(A\mid B)

推广：

P(A_1A_2\cdots A_n)=P(A_1)P(A_2\mid A_1)P(A_3\mid A_1A_2)\cdots P(A_n\mid A_1\cdots A_{n-1})

乘法公式适合处理「按步骤依次发生」的事件，比如不放回连续抽取：每一步的条件概率依赖前面已经发生的结果，链式相乘即可。

例： $10$ 件产品含 $3$ 件次品，不放回连续取 $3$ 件，求「前两件正品、第三件次品」的概率。按步骤链式相乘：

\frac{7}{10}\cdot\frac{6}{9}\cdot\frac{3}{8}=\frac{126}{720}=\frac{7}{40}

每一步的分母随已取走的件数递减，分子按当前剩余的「正品 / 次品」数取——这正是乘法公式「逐步条件化」的写法。

全概率公式

设 $B_1,\dots,B_n$ 为 $\Omega$ 的一个划分（两两互斥，并为 $\Omega$ ）：

P(A)=\sum_{i=1}^nP(B_i)P(A\mid B_i)

tip

全概率公式是 「执因索果」：把导致结果 $A$ 的各种「原因」 $B_i$ 一一列出，按「原因出现的概率 × 该原因下结果发生的概率」加权求和，得到结果 $A$ 的总概率。就像把一笔总账拆成几条互不重叠的来源分别核算，再合并。

用对它的关键是找一个 完备的划分：常见的划分有「第一次取到红球 / 白球」「来自甲厂 / 乙厂 / 丙厂」等，要求不重不漏。

例（多机器生产的次品率）：某厂三台机器 $B_1,B_2,B_3$ 分别生产了全部产品的 $25\%,35\%,40\%$ ，次品率依次为 $5\%,4\%,2\%$ 。随机取一件，求它是次品的概率 $P(A)$ 。三台机器构成划分，按全概率公式加权：

P(A)=0.25\times 0.05+0.35\times 0.04+0.40\times 0.02=0.0125+0.014+0.008=0.0345

即全厂综合次品率约 $3.45\%$ 。每一项都是「这台机器的产量占比 × 它的次品率」，加总即得。

贝叶斯公式

P(B_k\mid A)=\frac{P(B_k)P(A\mid B_k)}{\sum_{i=1}^nP(B_i)P(A\mid B_i)}

tip

贝叶斯公式是 「执果索因」：已经观察到结果 $A$ ，反推它最可能由哪个原因 $B_k$ 造成。和全概率公式正好相反——后者由因算果，前者由果溯因，分母恰好就是全概率公式算出的 $P(A)$ 。

换个说法就是 先验 → 后验 的更新： $P(B_k)$ 是看到证据前对原因的判断（先验，Prior），观察到 $A$ 之后修正为 $P(B_k\mid A)$ （后验，Posterior）。「检测呈阳性，真的患病的概率有多大」这类问题，正是贝叶斯的经典场景——当病本身很罕见时，即便检测很准，阳性者中真患病的比例也可能低得反直觉。这是现代统计学与机器学习的核心思想。

例（疾病检测的假阳性）：某病在人群中患病率仅 $0.1\%$ 。检测的灵敏度（病人测出阳性）为 $99\%$ ，特异度（健康人测出阴性）为 $98\%$ 。某人测出阳性，求他真患病的概率。设 $B$ 为患病、 $A$ 为阳性。先用全概率算阳性总概率：

P(A)=P(B)P(A\mid B)+P(\bar B)P(A\mid\bar B)=0.001\times 0.99+0.999\times 0.02=0.00099+0.01998=0.02097

再用贝叶斯求后验：

P(B\mid A)=\frac{0.001\times 0.99}{0.02097}\approx 0.047

检测看起来很准，可阳性者中真患病的还不到 $5\%$ ！原因是健康人基数太大， $0.999\times 0.02\approx 0.02$ 的假阳性远多于 $0.001\times 0.99\approx 0.001$ 的真阳性。罕见病的筛查必须正视这种「假阳性淹没真阳性」的现象，这也是为什么要复检。

例（三门问题，Monty Hall）： $3$ 扇门后一辆车两只羊，你选了一扇门，主持人（知道车在哪）从剩下两扇里打开一扇有羊的门，问换不换。设你初选门 $1$ ，车在门 $i$ 记为 $B_i$ ，先验各 $\frac{1}{3}$ ；事件 $A$ 为「主持人开门 $3$ 」。若车在门 $1$ ，主持人在门 $2,3$ 间随机开， $P(A\mid B_1)=\frac{1}{2}$ ；若车在门 $2$ ，他只能开门 $3$ ， $P(A\mid B_2)=1$ ；若车在门 $3$ ，他不会开， $P(A\mid B_3)=0$ 。由贝叶斯：

P(B_2\mid A)=\frac{\frac{1}{3}\cdot 1}{\frac{1}{3}\cdot\frac{1}{2}+\frac{1}{3}\cdot 1+\frac{1}{3}\cdot 0}=\frac{\frac{1}{3}}{\frac{1}{2}}=\frac{2}{3}

换门（选门 $2$ ）赢的概率是 $\frac{2}{3}$ ，坚持原选只有 $\frac{1}{3}$ ，所以 应该换。关键在于主持人的开门动作泄露了信息。

事件的独立性

$A,B$ 独立 $\iff P(AB)=P(A)P(B)\iff P(A\mid B)=P(A)$ 。

独立的直觉是 「 $B$ 发生与否，丝毫不改变对 $A$ 的判断」：知道 $B$ 这条信息对预测 $A$ 没有任何帮助，所以条件概率 $P(A\mid B)$ 退回到无条件的 $P(A)$ 。

tip

独立 $\ne$ 互斥，二者常被混淆，方向其实相反：

互斥是「一个发生，另一个就 不可能 发生」——这恰恰是 强关联，绝非无关。
独立是「一个发生与否，对另一个 毫无影响」。

所以两个概率都不为 $0$ 的互斥事件 一定不独立：已知 $A$ 发生， $B$ 的概率从 $P(B)$ 直接掉到 $0$ ，信息量巨大。

多事件独立

$n$ 个事件 两两独立 是 相互独立 的 必要非充分 条件。相互独立要求所有 $2\le k\le n$ 个事件的乘积概率都等于各自概率之积，比两两独立强得多——两两之间没关联，不代表整体之间没有更高阶的牵连。

例（两两独立 ⊏ 相互独立的反例）：掷两枚均匀硬币，设 $A=$ 「第一枚正」、 $B=$ 「第二枚正」、 $C=$ 「两枚结果相同」。三者概率都是 $\frac{1}{2}$ 。两两交都是 $\frac{1}{4}$ （如 $AC$ 要求第一枚正且两枚相同，即两正），故 两两独立。但三交 $ABC$ 要求两枚正且相同，即两正， $P(ABC)=\frac{1}{4}\ne P(A)P(B)P(C)=\frac{1}{8}$ ，所以 不相互独立。已知 $A,B$ 都发生， $C$ 就必然发生，高阶牵连显现。

伯努利试验

$n$ 次独立重复的「成功 / 失败」试验，每次成功概率为 $p$ ，则恰好 $k$ 次成功的概率为：

P(X=k)=\binom{n}{k}p^k(1-p)^{n-k}

其中 $\binom{n}{k}$ 是「在 $n$ 次里挑哪 $k$ 次成功」的组合数， $p^k(1-p)^{n-k}$ 是某一种具体成功-失败序列的概率。这就是 二项分布 $X\sim B(n,p)$ ，详见随机变量与分布。

例：某射手命中率 $p=0.8$ ，独立射击 $5$ 次，求「恰好命中 $4$ 次」与「至少命中 $4$ 次」的概率。恰好 $4$ 次：

\binom 54 0.8^4\cdot 0.2=5\times 0.4096\times 0.2=0.4096

至少 $4$ 次再加上全中： $P(X=5)=0.8^5=0.32768$ ，故 $P(X\ge 4)=0.4096+0.32768\approx 0.737$ 。算「至少」时把符合的几项分别求和即可；若反例很少，也可用对立面 $1-P(X\le 3)$ 。

参考资料​

引入​

基本概念​

样本空间​

随机事件​

事件运算​

概率​

公理化定义（Kolmogorov）​

基本性质​

容斥原理​

古典概型​

几何概型​

条件概率​

乘法公式​

全概率公式​

贝叶斯公式​

事件的独立性​

多事件独立​

伯努利试验​