概率论(Probability Theory)用数学语言刻画 不确定性。从「掷骰子」「抽卡」「天气预报」到机器学习的不确定性建模,本质都是 随机事件 与 概率 的运用。
概率论研究的是 随机现象:在相同条件下重复试验,单次结果无法预测,但大量重复后会呈现稳定的统计规律。我们把这种「可重复、结果不确定、所有可能结果已知」的试验称为 随机试验(Random Experiment)。
随机试验所有可能结果的 集合,记为 Ω。每个结果 ω∈Ω 称为 样本点。
样本空间可以是有限的(掷一次骰子,Ω={1,2,3,4,5,6}),可列无限的(抛硬币直到首次正面,记录次数),也可以是连续的(等公交的时间)。样本空间的「形状」直接决定了后面该用古典概型、几何概型还是连续型随机变量。
样本空间的 子集 A⊆Ω,是若干样本点的集合。当试验结果 ω∈A 时,称 事件 A 发生。
- 必然事件 Ω
- 不可能事件 ∅
- 基本事件:仅含一个样本点 {ω}
参见 集合:
| 概率论术语 | 集合论 | 含义 |
|---|
| A 与 B 之和 | A∪B | A,B 至少一个发生 |
| A 与 B 之积 | A∩B 或 AB | A,B 同时发生 |
| A 与 B 之差 | A∖B | A 发生而 B 不发生 |
| 对立(互补) | Aˉ=Ω∖A | A 不发生 |
| 互斥(不相容) | A∩B=∅ | A,B 不能同时发生 |
事件运算满足与集合相同的 交换律、结合律、分配律,以及 德摩根律:
A∪B=Aˉ∩Bˉ,A∩B=Aˉ∪Bˉ
例:把「A,B,C 中恰好发生一个」翻译成事件运算。「恰好 A 发生」是 ABˉCˉ,三种情形互斥,相加得 ABˉCˉ∪AˉBCˉ∪AˉBˉC。再看「至多发生一个」,就是「恰好零个」加「恰好一个」,即 AˉBˉCˉ∪ABˉCˉ∪AˉBCˉ∪AˉBˉC。把自然语言里的「恰好 / 至少 / 至多」逐字拆成 Aˉ 与 ∪ 的组合,是后面计数的前提。
把事件翻译成集合,再翻译成「至少 / 都 / 恰好 / 都不」这类自然语言,是做题的第一步。比如「A,B,C 至少一个发生」是 A∪B∪C;「都不发生」是 AˉBˉCˉ=A∪B∪C,正是德摩根律的用武之地。
满足以下三条公理的实函数 P:2Ω→[0,1]:
- 非负性:P(A)≥0。
- 规范性:P(Ω)=1。
- 可列可加性:A1,A2,… 两两互斥时,P(⋃Ai)=∑P(Ai)。
这三条看似简单,却是整个概率论的地基:所有后续公式都从它们推出。柯尔莫哥洛夫(Kolmogorov)的贡献,是把「概率」从含糊的直觉变成了一个严格的 测度。
P(∅)=0,P(Aˉ)=1−P(A)
P(A∪B)=P(A)+P(B)−P(AB)
A⊆B⇒P(A)≤P(B),P(B∖A)=P(B)−P(AB)
例:已知 P(A)=0.6、P(B)=0.7、P(AB)=0.5,求 P(AˉBˉ) 与 P(ABˉ)。先算 P(A∪B)=0.6+0.7−0.5=0.8,由德摩根律 P(AˉBˉ)=P(A∪B)=1−0.8=0.2;再由差事件 P(ABˉ)=P(A)−P(AB)=0.6−0.5=0.1。这两步「先并后补、先交后差」是处理两事件概率的标准拆法。
很多题目正面计算很麻烦,但 对立面 很简单——这时用 P(A)=1−P(Aˉ) 往往一步到位。典型如「至少有一个」:直接算要分情况讨论,取对立「一个都没有」却是单一事件。
加法公式推广到 n 个事件,就是 容斥原理(Inclusion-Exclusion Principle):
P(i=1⋃nAi)=i∑P(Ai)−i<j∑P(AiAj)+i<j<k∑P(AiAjAk)−⋯+(−1)n−1P(A1⋯An)
直觉是「加多了再减、减多了再加」:先把每个事件的概率都加上,重叠部分被算了两次,于是减去两两交;但这样三重交又被多减了,再加回来……如此交替修正到底。
例(配对问题,又称装错信封):n 封信随机塞进 n 个写好地址的信封,求「没有一封塞对」的概率。设 Ai 为「第 i 封塞对」,则「至少一封塞对」是 ⋃Ai。每个 P(Ai)=n!(n−1)!=n1,两两交 P(AiAj)=n!(n−2)!,共 (2n) 项,依此类推第 k 重交共 (kn) 项、每项 n!(n−k)!,乘起来恰为 k!1。代入容斥:
P(⋃Ai)=k=1∑n(−1)k−1k!1=1−2!1+3!1−⋯
于是「全错」的概率 P(Aˉ1⋯Aˉn)=∑k=0nk!(−1)k→e−1≈0.368。无论信有多少封,全部塞错的概率都稳定在 e1 附近,这是个出人意料的常数。
样本空间 有限、各样本点 等可能 时:
P(A)=∣Ω∣∣A∣=Ω 中样本点数A 中样本点数
计算技巧依赖 计数原理(排列、组合、容斥)。古典概型的全部难度都在 数数:关键是把「分子」和「分母」放在 同一个样本空间 里数——要么都按顺序(排列),要么都不计顺序(组合),不能一个用排列、一个用组合。
例(放回 vs 不放回的取球):袋中 3 红 2 白共 5 球,取 2 个,求「两个同色」的概率。
- 不放回:用组合数 ∣Ω∣=(25)=10,两红 (23)=3、两白 (22)=1,故 P=103+1=52。
- 放回:每次都从 5 个里取,按顺序 ∣Ω∣=52=25,两红 32=9、两白 22=4,故 P=259+4=2513。
放回时同色概率更大,因为可以「同一个球取两次」。注意分子分母必须统一口径:不放回都用组合,放回都用有序对。
例(分组问题):把 52 张牌平分给 4 人,每人 13 张,求「每人恰好一张 A」的概率。分母是把 52 张分成有序四堆的方法数 (13!)452!。分子:4 张 A 各去一人有 4! 种分法,其余 48 张牌每人补 12 张为 (12!)448! 种,相乘。化简得
P=(13!)452!4!⋅(12!)448!=52⋅51⋅50⋅494!⋅134≈0.105
例(生日问题):n 个人生日各不相同的概率为 365n365⋅364⋯(365−n+1)。当 n=23 时它已降到约 0.493,故「至少两人同生日」超过 21。23 个人就能过半,远比直觉小——这正是「至少」取对立面计算的经典场景。
抽签的公平性:n 个人依次不放回地抽 1 张「中奖签」,每个人中奖的概率都是 n1,与抽签先后无关。直觉上「先抽的人占便宜」是错觉——把 n 张签随机排成一列,中奖签落在任何一个位置都是等可能的,第 k 个人对应第 k 个位置,概率自然都是 n1。
可以用乘法公式验证:第 2 个人中奖要求「第 1 个没中、第 2 个中」,概率 nn−1⋅n−11=n1,与第 1 个人的 n1 相同。
样本空间是 几何区域、概率正比于 度量(长度/面积/体积):
P(A)=m(Ω)m(A)
几何概型是古典概型在「无限多等可能结果」上的推广。它的难点是 把问题翻译成区域:常把多个随机量设为坐标轴,事件就变成平面或空间里的一块区域,概率即面积(体积)之比。会面问题、蒲丰投针都是这一思路。
例(会面问题):两人约定 7 点到 8 点间见面,先到者最多等 20 分钟,求能见面的概率。设两人到达时刻为 x,y∈[0,60](分钟),样本空间是边长 60 的正方形,面积 3600。能见面即 ∣x−y∣≤20,这是去掉两个直角边长 40 的三角形后剩下的带状区域:
P=602602−2⋅21⋅402=36003600−1600=95
例(蒲丰投针):平面上画间距为 d 的平行线,把长 l≤d 的针随机抛下,求它与某条线相交的概率。设针中点到最近线的距离 x∈[0,2d]、针与线的夹角 θ∈[0,π] 都均匀。相交条件是 x≤2lsinθ,在 x-θ 矩形 [0,2d]×[0,π] 中,事件区域的面积是 ∫0π2lsinθdθ=l,矩形面积 2πd,于是
P=2πdl=πd2l
里面藏着 π,所以大量投针、用频率反估 P 就能近似 π——这是最早的「蒙特卡洛」实验。
若 P(B)>0,定义在 B 发生条件下 A 的概率:
P(A∣B)=P(B)P(AB)
直觉是 缩小样本空间:已知 B 发生,世界就只剩下 B 这一块,我们在 B 内部重新衡量 A 占多大比例。分母从 Ω 换成了 B。
P(AB)=P(A)P(B∣A)=P(B)P(A∣B)
推广:
P(A1A2⋯An)=P(A1)P(A2∣A1)P(A3∣A1A2)⋯P(An∣A1⋯An−1)
乘法公式适合处理「按步骤依次发生」的事件,比如不放回连续抽取:每一步的条件概率依赖前面已经发生的结果,链式相乘即可。
例:10 件产品含 3 件次品,不放回连续取 3 件,求「前两件正品、第三件次品」的概率。按步骤链式相乘:
107⋅96⋅83=720126=407
每一步的分母随已取走的件数递减,分子按当前剩余的「正品 / 次品」数取——这正是乘法公式「逐步条件化」的写法。
设 B1,…,Bn 为 Ω 的一个 划分(两两互斥,并为 Ω):
P(A)=i=1∑nP(Bi)P(A∣Bi)
全概率公式是 「执因索果」:把导致结果 A 的各种「原因」Bi 一一列出,按「原因出现的概率 × 该原因下结果发生的概率」加权求和,得到结果 A 的总概率。就像把一笔总账拆成几条互不重叠的来源分别核算,再合并。
用对它的关键是找一个 完备的划分:常见的划分有「第一次取到红球 / 白球」「来自甲厂 / 乙厂 / 丙厂」等,要求不重不漏。
例(多机器生产的次品率):某厂三台机器 B1,B2,B3 分别生产了全部产品的 25%,35%,40%,次品率依次为 5%,4%,2%。随机取一件,求它是次品的概率 P(A)。三台机器构成划分,按全概率公式加权:
P(A)=0.25×0.05+0.35×0.04+0.40×0.02=0.0125+0.014+0.008=0.0345
即全厂综合次品率约 3.45%。每一项都是「这台机器的产量占比 × 它的次品率」,加总即得。
P(Bk∣A)=∑i=1nP(Bi)P(A∣Bi)P(Bk)P(A∣Bk)
贝叶斯公式是 「执果索因」:已经观察到结果 A,反推它最可能由哪个原因 Bk 造成。和全概率公式正好相反——后者由因算果,前者由果溯因,分母恰好就是全概率公式算出的 P(A)。
换个说法就是 先验 → 后验 的更新:P(Bk) 是看到证据前对原因的判断(先验,Prior),观察到 A 之后修正为 P(Bk∣A)(后验,Posterior)。「检测呈阳性,真的患病的概率有多大」这类问题,正是贝叶斯的经典场景——当病本身很罕见时,即便检测很准,阳性者中真患病的比例也可能低得反直觉。这是现代统计学与机器学习的核心思想。
例(疾病检测的假阳性):某病在人群中患病率仅 0.1%。检测的灵敏度(病人测出阳性)为 99%,特异度(健康人测出阴性)为 98%。某人测出阳性,求他真患病的概率。设 B 为患病、A 为阳性。先用全概率算阳性总概率:
P(A)=P(B)P(A∣B)+P(Bˉ)P(A∣Bˉ)=0.001×0.99+0.999×0.02=0.00099+0.01998=0.02097
再用贝叶斯求后验:
P(B∣A)=0.020970.001×0.99≈0.047
检测看起来很准,可阳性者中真患病的还不到 5%!原因是健康人基数太大,0.999×0.02≈0.02 的假阳性远多于 0.001×0.99≈0.001 的真阳性。罕见病的筛查必须正视这种「假阳性淹没真阳性」的现象,这也是为什么要复检。
例(三门问题,Monty Hall):3 扇门后一辆车两只羊,你选了一扇门,主持人(知道车在哪)从剩下两扇里打开一扇有羊的门,问换不换。设你初选门 1,车在门 i 记为 Bi,先验各 31;事件 A 为「主持人开门 3」。若车在门 1,主持人在门 2,3 间随机开,P(A∣B1)=21;若车在门 2,他只能开门 3,P(A∣B2)=1;若车在门 3,他不会开,P(A∣B3)=0。由贝叶斯:
P(B2∣A)=31⋅21+31⋅1+31⋅031⋅1=2131=32
换门(选门 2)赢的概率是 32,坚持原选只有 31,所以 应该换。关键在于主持人的开门动作泄露了信息。
A,B 独立 ⟺P(AB)=P(A)P(B)⟺P(A∣B)=P(A)。
独立的直觉是 「B 发生与否,丝毫不改变对 A 的判断」:知道 B 这条信息对预测 A 没有任何帮助,所以条件概率 P(A∣B) 退回到无条件的 P(A)。
独立 = 互斥,二者常被混淆,方向其实相反:
- 互斥是「一个发生,另一个就 不可能 发生」——这恰恰是 强关联,绝非无关。
- 独立是「一个发生与否,对另一个 毫无影响」。
所以两个概率都不为 0 的互斥事件 一定不独立:已知 A 发生,B 的概率从 P(B) 直接掉到 0,信息量巨大。
n 个事件 两两独立 是 相互独立 的 必要非充分 条件。相互独立要求所有 2≤k≤n 个事件的乘积概率都等于各自概率之积,比两两独立强得多——两两之间没关联,不代表整体之间没有更高阶的牵连。
例(两两独立 ⊏ 相互独立的反例):掷两枚均匀硬币,设 A=「第一枚正」、B=「第二枚正」、C=「两枚结果相同」。三者概率都是 21。两两交都是 41(如 AC 要求第一枚正且两枚相同,即两正),故 两两独立。但三交 ABC 要求两枚正且相同,即两正,P(ABC)=41=P(A)P(B)P(C)=81,所以 不相互独立。已知 A,B 都发生,C 就必然发生,高阶牵连显现。
n 次独立重复的「成功 / 失败」试验,每次成功概率为 p,则恰好 k 次成功的概率为:
P(X=k)=(kn)pk(1−p)n−k
其中 (kn) 是「在 n 次里挑哪 k 次成功」的组合数,pk(1−p)n−k 是某一种具体成功-失败序列的概率。这就是 二项分布 X∼B(n,p),详见 随机变量与分布。
例:某射手命中率 p=0.8,独立射击 5 次,求「恰好命中 4 次」与「至少命中 4 次」的概率。恰好 4 次:
(45)0.84⋅0.2=5×0.4096×0.2=0.4096
至少 4 次再加上全中:P(X=5)=0.85=0.32768,故 P(X≥4)=0.4096+0.32768≈0.737。算「至少」时把符合的几项分别求和即可;若反例很少,也可用对立面 1−P(X≤3)。