Skip to main content

随机事件与概率

参考资料

引入

概率论(Probability Theory)用数学语言刻画 不确定性。从「掷骰子」「抽卡」「天气预报」到机器学习的不确定性建模,本质都是 随机事件概率 的运用。

概率论研究的是 随机现象:在相同条件下重复试验,单次结果无法预测,但大量重复后会呈现稳定的统计规律。我们把这种「可重复、结果不确定、所有可能结果已知」的试验称为 随机试验(Random Experiment)。

基本概念

样本空间

随机试验所有可能结果的 集合,记为 Ω\Omega。每个结果 ωΩ\omega\in\Omega 称为 样本点

样本空间可以是有限的(掷一次骰子,Ω={1,2,3,4,5,6}\Omega=\set{1,2,3,4,5,6}),可列无限的(抛硬币直到首次正面,记录次数),也可以是连续的(等公交的时间)。样本空间的「形状」直接决定了后面该用古典概型、几何概型还是连续型随机变量。

随机事件

样本空间的 子集 AΩA\subseteq\Omega,是若干样本点的集合。当试验结果 ωA\omega\in A 时,称 事件 AA 发生

  • 必然事件 Ω\Omega
  • 不可能事件 \varnothing
  • 基本事件:仅含一个样本点 {ω}\set{\omega}

事件运算

参见 集合

概率论术语集合论含义
AABB 之和ABA\cup BA,BA,B 至少一个发生
AABB 之积ABA\cap BABABA,BA,B 同时发生
AABB 之差ABA\setminus BAA 发生而 BB 不发生
对立(互补)Aˉ=ΩA\bar A=\Omega\setminus AAA 不发生
互斥(不相容)AB=A\cap B=\varnothingA,BA,B 不能同时发生

事件运算满足与集合相同的 交换律、结合律、分配律,以及 德摩根律

AB=AˉBˉ,AB=AˉBˉ\overline{A\cup B}=\bar A\cap\bar B,\quad \overline{A\cap B}=\bar A\cup\bar B

例:把「A,B,CA,B,C 中恰好发生一个」翻译成事件运算。「恰好 AA 发生」是 ABˉCˉA\bar B\bar C,三种情形互斥,相加得 ABˉCˉAˉBCˉAˉBˉCA\bar B\bar C\cup\bar A B\bar C\cup\bar A\bar B C。再看「至多发生一个」,就是「恰好零个」加「恰好一个」,即 AˉBˉCˉABˉCˉAˉBCˉAˉBˉC\bar A\bar B\bar C\cup A\bar B\bar C\cup\bar A B\bar C\cup\bar A\bar B C。把自然语言里的「恰好 / 至少 / 至多」逐字拆成 Aˉ\bar{\phantom A}\cup 的组合,是后面计数的前提。

tip

把事件翻译成集合,再翻译成「至少 / 都 / 恰好 / 都不」这类自然语言,是做题的第一步。比如「A,B,CA,B,C 至少一个发生」是 ABCA\cup B\cup C;「都不发生」是 AˉBˉCˉ=ABC\bar A\bar B\bar C=\overline{A\cup B\cup C},正是德摩根律的用武之地。

概率

公理化定义(Kolmogorov)

满足以下三条公理的实函数 P:2Ω[0,1]P:2^\Omega\to[0,1]

  1. 非负性P(A)0P(A)\ge 0
  2. 规范性P(Ω)=1P(\Omega)=1
  3. 可列可加性A1,A2,A_1,A_2,\dots 两两互斥时,P ⁣(Ai)=P(Ai)P\!\left(\bigcup A_i\right)=\sum P(A_i)

这三条看似简单,却是整个概率论的地基:所有后续公式都从它们推出。柯尔莫哥洛夫(Kolmogorov)的贡献,是把「概率」从含糊的直觉变成了一个严格的 测度

基本性质

P()=0,P(Aˉ)=1P(A)P(\varnothing)=0,\quad P(\bar A)=1-P(A) P(AB)=P(A)+P(B)P(AB)P(A\cup B)=P(A)+P(B)-P(AB) ABP(A)P(B),P(BA)=P(B)P(AB)A\subseteq B\Rightarrow P(A)\le P(B),\quad P(B\setminus A)=P(B)-P(AB)

例:已知 P(A)=0.6P(A)=0.6P(B)=0.7P(B)=0.7P(AB)=0.5P(AB)=0.5,求 P(AˉBˉ)P(\bar A\bar B)P(ABˉ)P(A\bar B)。先算 P(AB)=0.6+0.70.5=0.8P(A\cup B)=0.6+0.7-0.5=0.8,由德摩根律 P(AˉBˉ)=P(AB)=10.8=0.2P(\bar A\bar B)=P(\overline{A\cup B})=1-0.8=0.2;再由差事件 P(ABˉ)=P(A)P(AB)=0.60.5=0.1P(A\bar B)=P(A)-P(AB)=0.6-0.5=0.1。这两步「先并后补、先交后差」是处理两事件概率的标准拆法。

tip

很多题目正面计算很麻烦,但 对立面 很简单——这时用 P(A)=1P(Aˉ)P(A)=1-P(\bar A) 往往一步到位。典型如「至少有一个」:直接算要分情况讨论,取对立「一个都没有」却是单一事件。

容斥原理

加法公式推广到 nn 个事件,就是 容斥原理(Inclusion-Exclusion Principle):

P ⁣(i=1nAi)=iP(Ai)i<jP(AiAj)+i<j<kP(AiAjAk)+(1)n1P(A1An)P\!\left(\bigcup_{i=1}^{n}A_i\right)=\sum_i P(A_i)-\sum_{i<j}P(A_iA_j)+\sum_{i<j<k}P(A_iA_jA_k)-\cdots+(-1)^{n-1}P(A_1\cdots A_n)

直觉是「加多了再减、减多了再加」:先把每个事件的概率都加上,重叠部分被算了两次,于是减去两两交;但这样三重交又被多减了,再加回来……如此交替修正到底。

例(配对问题,又称装错信封):nn 封信随机塞进 nn 个写好地址的信封,求「没有一封塞对」的概率。设 AiA_i 为「第 ii 封塞对」,则「至少一封塞对」是 Ai\bigcup A_i。每个 P(Ai)=(n1)!n!=1nP(A_i)=\frac{(n-1)!}{n!}=\frac1n,两两交 P(AiAj)=(n2)!n!P(A_iA_j)=\frac{(n-2)!}{n!},共 (n2)\binom n2 项,依此类推第 kk 重交共 (nk)\binom nk 项、每项 (nk)!n!\frac{(n-k)!}{n!},乘起来恰为 1k!\frac{1}{k!}。代入容斥:

P ⁣(Ai)=k=1n(1)k11k!=112!+13!P\!\left(\bigcup A_i\right)=\sum_{k=1}^{n}(-1)^{k-1}\frac{1}{k!}=1-\frac{1}{2!}+\frac{1}{3!}-\cdots

于是「全错」的概率 P(Aˉ1Aˉn)=k=0n(1)kk!e10.368P(\bar A_1\cdots\bar A_n)=\sum_{k=0}^{n}\frac{(-1)^k}{k!}\to e^{-1}\approx 0.368。无论信有多少封,全部塞错的概率都稳定在 1e\frac1e 附近,这是个出人意料的常数。

古典概型

样本空间 有限、各样本点 等可能 时:

P(A)=AΩ=A 中样本点数Ω 中样本点数P(A)=\frac{|A|}{|\Omega|}=\frac{A\text{ 中样本点数}}{\Omega\text{ 中样本点数}}

计算技巧依赖 计数原理(排列、组合、容斥)。古典概型的全部难度都在 数数:关键是把「分子」和「分母」放在 同一个样本空间 里数——要么都按顺序(排列),要么都不计顺序(组合),不能一个用排列、一个用组合。

例(放回 vs 不放回的取球):袋中 3322 白共 55 球,取 22 个,求「两个同色」的概率。

  • 不放回:用组合数 Ω=(52)=10|\Omega|=\binom 52=10,两红 (32)=3\binom 32=3、两白 (22)=1\binom 22=1,故 P=3+110=25P=\frac{3+1}{10}=\frac25
  • 放回:每次都从 55 个里取,按顺序 Ω=52=25|\Omega|=5^2=25,两红 32=93^2=9、两白 22=42^2=4,故 P=9+425=1325P=\frac{9+4}{25}=\frac{13}{25}

放回时同色概率更大,因为可以「同一个球取两次」。注意分子分母必须统一口径:不放回都用组合,放回都用有序对。

例(分组问题):把 5252 张牌平分给 44 人,每人 1313 张,求「每人恰好一张 A」的概率。分母是把 5252 张分成有序四堆的方法数 52!(13!)4\dfrac{52!}{(13!)^4}。分子:44 张 A 各去一人有 4!4! 种分法,其余 4848 张牌每人补 1212 张为 48!(12!)4\dfrac{48!}{(12!)^4} 种,相乘。化简得

P=4!48!(12!)452!(13!)4=4!134525150490.105P=\frac{4!\cdot\dfrac{48!}{(12!)^4}}{\dfrac{52!}{(13!)^4}}=\frac{4!\cdot 13^4}{52\cdot 51\cdot 50\cdot 49}\approx 0.105

例(生日问题):nn 个人生日各不相同的概率为 365364(365n+1)365n\dfrac{365\cdot 364\cdots(365-n+1)}{365^n}。当 n=23n=23 时它已降到约 0.4930.493,故「至少两人同生日」超过 12\frac122323 个人就能过半,远比直觉小——这正是「至少」取对立面计算的经典场景。

tip

抽签的公平性nn 个人依次不放回地抽 11 张「中奖签」,每个人中奖的概率都是 1n\frac{1}{n},与抽签先后无关。直觉上「先抽的人占便宜」是错觉——把 nn 张签随机排成一列,中奖签落在任何一个位置都是等可能的,第 kk 个人对应第 kk 个位置,概率自然都是 1n\frac{1}{n}

可以用乘法公式验证:第 22 个人中奖要求「第 11 个没中、第 22 个中」,概率 n1n1n1=1n\frac{n-1}{n}\cdot\frac{1}{n-1}=\frac1n,与第 11 个人的 1n\frac1n 相同。

几何概型

样本空间是 几何区域、概率正比于 度量(长度/面积/体积):

P(A)=m(A)m(Ω)P(A)=\frac{m(A)}{m(\Omega)}

几何概型是古典概型在「无限多等可能结果」上的推广。它的难点是 把问题翻译成区域:常把多个随机量设为坐标轴,事件就变成平面或空间里的一块区域,概率即面积(体积)之比。会面问题、蒲丰投针都是这一思路。

例(会面问题):两人约定 77 点到 88 点间见面,先到者最多等 2020 分钟,求能见面的概率。设两人到达时刻为 x,y[0,60]x,y\in[0,60](分钟),样本空间是边长 6060 的正方形,面积 36003600。能见面即 xy20|x-y|\le 20,这是去掉两个直角边长 4040 的三角形后剩下的带状区域:

P=602212402602=360016003600=59P=\frac{60^2-2\cdot\frac12\cdot 40^2}{60^2}=\frac{3600-1600}{3600}=\frac{5}{9}

例(蒲丰投针):平面上画间距为 dd 的平行线,把长 ldl\le d 的针随机抛下,求它与某条线相交的概率。设针中点到最近线的距离 x[0,d2]x\in[0,\frac d2]、针与线的夹角 θ[0,π]\theta\in[0,\pi] 都均匀。相交条件是 xl2sinθx\le\frac l2\sin\theta,在 xx-θ\theta 矩形 [0,d2]×[0,π][0,\frac d2]\times[0,\pi] 中,事件区域的面积是 0πl2sinθdθ=l\int_0^\pi\frac l2\sin\theta\,\mathrm{d}\theta=l,矩形面积 πd2\frac{\pi d}{2},于是

P=lπd2=2lπdP=\frac{l}{\frac{\pi d}{2}}=\frac{2l}{\pi d}

里面藏着 π\pi,所以大量投针、用频率反估 PP 就能近似 π\pi——这是最早的「蒙特卡洛」实验。

条件概率

P(B)>0P(B)>0,定义在 BB 发生条件下 AA 的概率:

P(AB)=P(AB)P(B)P(A\mid B)=\frac{P(AB)}{P(B)}

直觉是 缩小样本空间:已知 BB 发生,世界就只剩下 BB 这一块,我们在 BB 内部重新衡量 AA 占多大比例。分母从 Ω\Omega 换成了 BB

乘法公式

P(AB)=P(A)P(BA)=P(B)P(AB)P(AB)=P(A)P(B\mid A)=P(B)P(A\mid B)

推广:

P(A1A2An)=P(A1)P(A2A1)P(A3A1A2)P(AnA1An1)P(A_1A_2\cdots A_n)=P(A_1)P(A_2\mid A_1)P(A_3\mid A_1A_2)\cdots P(A_n\mid A_1\cdots A_{n-1})

乘法公式适合处理「按步骤依次发生」的事件,比如不放回连续抽取:每一步的条件概率依赖前面已经发生的结果,链式相乘即可。

例:1010 件产品含 33 件次品,不放回连续取 33 件,求「前两件正品、第三件次品」的概率。按步骤链式相乘:

7106938=126720=740\frac{7}{10}\cdot\frac{6}{9}\cdot\frac{3}{8}=\frac{126}{720}=\frac{7}{40}

每一步的分母随已取走的件数递减,分子按当前剩余的「正品 / 次品」数取——这正是乘法公式「逐步条件化」的写法。

全概率公式

B1,,BnB_1,\dots,B_nΩ\Omega 的一个 划分(两两互斥,并为 Ω\Omega):

P(A)=i=1nP(Bi)P(ABi)P(A)=\sum_{i=1}^{n}P(B_i)P(A\mid B_i)
tip

全概率公式是 「执因索果」:把导致结果 AA 的各种「原因」BiB_i 一一列出,按「原因出现的概率 × 该原因下结果发生的概率」加权求和,得到结果 AA 的总概率。就像把一笔总账拆成几条互不重叠的来源分别核算,再合并。

用对它的关键是找一个 完备的划分:常见的划分有「第一次取到红球 / 白球」「来自甲厂 / 乙厂 / 丙厂」等,要求不重不漏。

例(多机器生产的次品率):某厂三台机器 B1,B2,B3B_1,B_2,B_3 分别生产了全部产品的 25%,35%,40%25\%,35\%,40\%,次品率依次为 5%,4%,2%5\%,4\%,2\%。随机取一件,求它是次品的概率 P(A)P(A)。三台机器构成划分,按全概率公式加权:

P(A)=0.25×0.05+0.35×0.04+0.40×0.02=0.0125+0.014+0.008=0.0345P(A)=0.25\times 0.05+0.35\times 0.04+0.40\times 0.02=0.0125+0.014+0.008=0.0345

即全厂综合次品率约 3.45%3.45\%。每一项都是「这台机器的产量占比 × 它的次品率」,加总即得。

贝叶斯公式

P(BkA)=P(Bk)P(ABk)i=1nP(Bi)P(ABi)P(B_k\mid A)=\frac{P(B_k)P(A\mid B_k)}{\sum_{i=1}^{n}P(B_i)P(A\mid B_i)}
tip

贝叶斯公式是 「执果索因」:已经观察到结果 AA,反推它最可能由哪个原因 BkB_k 造成。和全概率公式正好相反——后者由因算果,前者由果溯因,分母恰好就是全概率公式算出的 P(A)P(A)

换个说法就是 先验 → 后验 的更新:P(Bk)P(B_k) 是看到证据前对原因的判断(先验,Prior),观察到 AA 之后修正为 P(BkA)P(B_k\mid A)后验,Posterior)。「检测呈阳性,真的患病的概率有多大」这类问题,正是贝叶斯的经典场景——当病本身很罕见时,即便检测很准,阳性者中真患病的比例也可能低得反直觉。这是现代统计学与机器学习的核心思想。

例(疾病检测的假阳性):某病在人群中患病率仅 0.1%0.1\%。检测的灵敏度(病人测出阳性)为 99%99\%,特异度(健康人测出阴性)为 98%98\%。某人测出阳性,求他真患病的概率。设 BB 为患病、AA 为阳性。先用全概率算阳性总概率:

P(A)=P(B)P(AB)+P(Bˉ)P(ABˉ)=0.001×0.99+0.999×0.02=0.00099+0.01998=0.02097P(A)=P(B)P(A\mid B)+P(\bar B)P(A\mid\bar B)=0.001\times 0.99+0.999\times 0.02=0.00099+0.01998=0.02097

再用贝叶斯求后验:

P(BA)=0.001×0.990.020970.047P(B\mid A)=\frac{0.001\times 0.99}{0.02097}\approx 0.047

检测看起来很准,可阳性者中真患病的还不到 5%5\%!原因是健康人基数太大,0.999×0.020.020.999\times 0.02\approx 0.02 的假阳性远多于 0.001×0.990.0010.001\times 0.99\approx 0.001 的真阳性。罕见病的筛查必须正视这种「假阳性淹没真阳性」的现象,这也是为什么要复检。

例(三门问题,Monty Hall):33 扇门后一辆车两只羊,你选了一扇门,主持人(知道车在哪)从剩下两扇里打开一扇有羊的门,问换不换。设你初选门 11,车在门 ii 记为 BiB_i,先验各 13\frac13;事件 AA 为「主持人开门 33」。若车在门 11,主持人在门 2,32,3 间随机开,P(AB1)=12P(A\mid B_1)=\frac12;若车在门 22,他只能开门 33P(AB2)=1P(A\mid B_2)=1;若车在门 33,他不会开,P(AB3)=0P(A\mid B_3)=0。由贝叶斯:

P(B2A)=1311312+131+130=1312=23P(B_2\mid A)=\frac{\frac13\cdot 1}{\frac13\cdot\frac12+\frac13\cdot 1+\frac13\cdot 0}=\frac{\frac13}{\frac12}=\frac23

换门(选门 22)赢的概率是 23\frac23,坚持原选只有 13\frac13,所以 应该换。关键在于主持人的开门动作泄露了信息。

事件的独立性

A,BA,B 独立     P(AB)=P(A)P(B)    P(AB)=P(A)\iff P(AB)=P(A)P(B)\iff P(A\mid B)=P(A)

独立的直觉是 BB 发生与否,丝毫不改变对 AA 的判断」:知道 BB 这条信息对预测 AA 没有任何帮助,所以条件概率 P(AB)P(A\mid B) 退回到无条件的 P(A)P(A)

tip

独立 \ne 互斥,二者常被混淆,方向其实相反:

  • 互斥是「一个发生,另一个就 不可能 发生」——这恰恰是 强关联,绝非无关。
  • 独立是「一个发生与否,对另一个 毫无影响」。

所以两个概率都不为 00 的互斥事件 一定不独立:已知 AA 发生,BB 的概率从 P(B)P(B) 直接掉到 00,信息量巨大。

多事件独立

nn 个事件 两两独立相互独立必要非充分 条件。相互独立要求所有 2kn2\le k\le n 个事件的乘积概率都等于各自概率之积,比两两独立强得多——两两之间没关联,不代表整体之间没有更高阶的牵连。

例(两两独立 ⊏ 相互独立的反例):掷两枚均匀硬币,设 A=A=「第一枚正」、B=B=「第二枚正」、C=C=「两枚结果相同」。三者概率都是 12\frac12。两两交都是 14\frac14(如 ACAC 要求第一枚正且两枚相同,即两正),故 两两独立。但三交 ABCABC 要求两枚正且相同,即两正,P(ABC)=14P(A)P(B)P(C)=18P(ABC)=\frac14\ne P(A)P(B)P(C)=\frac18,所以 不相互独立。已知 A,BA,B 都发生,CC 就必然发生,高阶牵连显现。

伯努利试验

nn 次独立重复的「成功 / 失败」试验,每次成功概率为 pp,则恰好 kk 次成功的概率为:

P(X=k)=(nk)pk(1p)nkP(X=k)=\binom{n}{k}p^k(1-p)^{n-k}

其中 (nk)\binom{n}{k} 是「在 nn 次里挑哪 kk 次成功」的组合数,pk(1p)nkp^k(1-p)^{n-k} 是某一种具体成功-失败序列的概率。这就是 二项分布 XB(n,p)X\sim B(n,p),详见 随机变量与分布

例:某射手命中率 p=0.8p=0.8,独立射击 55 次,求「恰好命中 44 次」与「至少命中 44 次」的概率。恰好 44 次:

(54)0.840.2=5×0.4096×0.2=0.4096\binom 54 0.8^4\cdot 0.2=5\times 0.4096\times 0.2=0.4096

至少 44 次再加上全中:P(X=5)=0.85=0.32768P(X=5)=0.8^5=0.32768,故 P(X4)=0.4096+0.327680.737P(X\ge 4)=0.4096+0.32768\approx 0.737。算「至少」时把符合的几项分别求和即可;若反例很少,也可用对立面 1P(X3)1-P(X\le 3)