跳到主要内容

随机变量与分布

参考资料

引入

直接和「事件」打交道有时很笨重:我们更想把试验结果变成 ,这样才能求和、求平均、做微积分。随机变量(Random Variable,RV)就是干这件事的——它是定义在 样本空间 上的 实值函数 X:ΩRX:\Omega\to\mathbb{R},把每个样本点 ω\omega 映射到一个实数 X(ω)X(\omega)

比如「掷两枚骰子」,样本点是一对点数,而「点数之和」就是一个随机变量。一旦数值化,研究的焦点就从「事件」转向了 XX分布——它取各个值的「概率规律」。按取值方式,随机变量分为 离散型(取值可列)和 连续型(取值充满区间)两大类。

分布函数

无论离散还是连续,都可以用 分布函数(Cumulative Distribution Function,CDF)统一描述。对任意 xRx\in\mathbb{R}

F(x)=P(Xx)F(x)=P(X\le x)

它表示「XX 不超过 xx 的概率」,是一条从 00 爬到 11 的累积曲线。

性质:

  • 单调不减x1<x2F(x1)F(x2)x_1<x_2\Rightarrow F(x_1)\le F(x_2)
  • 右连续limxx0+F(x)=F(x0)\lim_{x\to x_0^+}F(x)=F(x_0)
  • 两端取值F()=0F(-\infty)=0F(+)=1F(+\infty)=1,且 0F(x)10\le F(x)\le 1
  • 区间概率P(a<Xb)=F(b)F(a)P(a<X\le b)=F(b)-F(a)
提示

分布函数用的是「\le」而非「<<」,这保证了它 右连续。在离散型里,F(x)F(x) 是一条向右跳的阶梯函数,每个取值点跳起的高度恰是该点的概率 P(X=xi)P(X=x_i);这个「跳跃高度」就是单点概率,连续型里跳跃高度为 00,所以 P(X=a)=0P(X=a)=0

例(由分布列写分布函数):XX 取值 1,1,2-1,1,2,概率分别为 0.3,0.5,0.20.3,0.5,0.2F(x)F(x) 是逐段累加的阶梯:

F(x)={0,x<10.3,1x<10.8,1x<21,x2F(x)=\begin{cases}0,&x<-1\\ 0.3,&-1\le x<1\\ 0.8,&1\le x<2\\ 1,&x\ge 2\end{cases}

每个台阶的跳高正是该点概率:x=1x=1 处从 0.30.3 跳到 0.80.8,跳高 0.5=P(X=1)0.5=P(X=1)。要算 P(0<X1)=F(1)F(0)=0.80.3=0.5P(0<X\le 1)=F(1)-F(0)=0.8-0.3=0.5,区间右端含「\le」时直接代差值即可。

离散型随机变量

取值 可列,由 分布列(Probability Mass Function,PMF)pi=P(X=xi)p_i=P(X=x_i) 确定,满足:

pi0,ipi=1p_i\ge 0,\quad \sum_i p_i=1

常见离散分布

分布记号分布列背景
0-10\text{-}1 分布B(1,p)B(1,p)P(X=1)=p, P(X=0)=1pP(X=1)=p,\ P(X=0)=1-p单次伯努利试验
二项分布B(n,p)B(n,p)P(X=k)=(nk)pk(1p)nkP(X=k)=\binom{n}{k}p^k(1-p)^{n-k}nn 次独立试验成功次数
泊松分布P(λ)P(\lambda)P(X=k)=λkk!eλP(X=k)=\dfrac{\lambda^k}{k!}e^{-\lambda}单位时间稀有事件发生次数
几何分布G(p)G(p)P(X=k)=(1p)k1pP(X=k)=(1-p)^{k-1}p首次成功所需试验次数
超几何分布P(X=k)=(Mk)(NMnk)(Nn)P(X=k)=\dfrac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}}不放回抽样中的成功数
  • 0-10\text{-}1 分布(两点分布):只问「成功还是失败」,是一切的原子,比如「这次抛硬币是不是正面」。
  • 二项分布:把 nn 次独立的 0-10\text{-}1 试验叠起来数成功次数,参见 伯努利试验
  • 几何分布:不停做伯努利试验,直到 第一次成功 为止,问做了几次。它具有 无记忆性——前面失败多少次,都不影响「从现在起还要等几次」的分布。
  • 超几何分布:从 NN 件(含 MM 件次品)里 不放回nn 件,数其中次品数。当 NN 很大、抽取比例很小时,「不放回」近似「放回」,超几何分布趋于二项分布。

例(几何分布):某人每次摇号中奖率 p=0.1p=0.1,问「恰好第 33 次首中」与「前 33 次都没中」的概率。首中在第 33 次,即前两次失败、第三次成功:P(X=3)=0.92×0.1=0.081P(X=3)=0.9^2\times 0.1=0.081。前 33 次都没中就是 P(X>3)=0.93=0.729P(X>3)=0.9^3=0.729。几何分布的「至少再等若干次」总能写成 P(X>k)=(1p)kP(X>k)=(1-p)^k

例(超几何分布):一批 2020 件产品含 55 件次品,不放回抽 44 件,求恰好抽到 22 件次品的概率。次品里挑 22、正品里挑 22,除以总组合:

P(X=2)=(52)(152)(204)=10×1054845=105048450.217P(X=2)=\frac{\binom 52\binom{15}{2}}{\binom{20}{4}}=\frac{10\times 105}{4845}=\frac{1050}{4845}\approx 0.217

若改成 有放回 地抽 44 件,次品数就服从 B(4,14)B(4,\tfrac14)P=(42)(14)2(34)2=542560.211P=\binom 42(\tfrac14)^2(\tfrac34)^2=\frac{54}{256}\approx 0.211,两者接近正说明「抽样比例不大时超几何近似二项」。

泊松分布与「二项的极限」

泊松分布(Poisson Distribution)描述「单位时间(或空间)内,某稀有事件发生的次数」——电话交换台的来电数、一页书的错字数、放射性衰变的计数。它的形状由唯一参数 λ\lambda(平均发生率)决定。

它的来历正是二项分布的极限:把一段时间切成 nn 个极短小段,每段「至多发生一次、概率为 pp」,发生次数就是 B(n,p)B(n,p)。让 nn\to\inftyp0p\to 0 而保持平均次数 np=λnp=\lambda 不变,就有:

(nk)pk(1p)nk n λkk!eλ\binom{n}{k}p^k(1-p)^{n-k}\ \xrightarrow{n\to\infty}\ \frac{\lambda^k}{k!}e^{-\lambda}
提示

二项 → 泊松 的近似:当 nn 很大、pp 很小时,可用 λ=np\lambda=np 的泊松分布近似 B(n,p)B(n,p),把麻烦的组合数换成简单的指数式。工程上常以 n20, p0.05n\ge 20,\ p\le 0.05 作为近似阈值。直觉就是「大量机会、每次都很难成功,总成功数服从泊松」。

例(泊松直接计算):某网站平均每分钟收到 λ=3\lambda=3 次请求,设请求数服从泊松分布,求一分钟内「恰好 55 次」与「至少 11 次」的概率。恰好 55 次:

P(X=5)=355!e3=243120e32.025×0.04980.101P(X=5)=\frac{3^5}{5!}e^{-3}=\frac{243}{120}e^{-3}\approx 2.025\times 0.0498\approx 0.101

至少 11 次取对立:P(X1)=1P(X=0)=1e30.950P(X\ge 1)=1-P(X=0)=1-e^{-3}\approx 0.950

例(二项用泊松近似):某产品次品率 p=0.01p=0.01,随机抽 n=200n=200 件,求次品数 至多 22 的概率。直接用 B(200,0.01)B(200,0.01) 组合数繁琐,注意 nnpp 小,取 λ=np=2\lambda=np=2 作泊松近似:

P(X2)e2 ⁣(1+2+222!)=5e20.677P(X\le 2)\approx e^{-2}\!\left(1+2+\frac{2^2}{2!}\right)=5e^{-2}\approx 0.677

「大量产品、单件极少出错」正是泊松的舞台,组合数一律换成 λkk!eλ\frac{\lambda^k}{k!}e^{-\lambda}

连续型随机变量

存在 概率密度函数(Probability Density Function,PDF)f(x)0f(x)\ge 0,使分布函数可写成积分:

F(x)=xf(t)dt,+f(x)dx=1F(x)=\int_{-\infty}^{x}f(t)\,\mathrm{d}t,\quad \int_{-\infty}^{+\infty}f(x)\,\mathrm{d}x=1

密度 f(x)f(x) 不是概率,而是「概率的密集程度」——概率是密度曲线下的 面积。所以单点概率为 00P(X=a)=0P(X=a)=0,区间概率才有意义:

P(a<Xb)=abf(x)dxP(a<X\le b)=\int_a^b f(x)\,\mathrm{d}x

正因单点概率为 00,连续型里 <<\le 可以随意互换。在 ff 连续处,F(x)=f(x)F'(x)=f(x)——密度是分布函数的导数。

密度函数的两条充要性质f(x)0f(x)\ge 0(非负),且 +f(x)dx=1\int_{-\infty}^{+\infty}f(x)\,\mathrm{d}x=1(全积分为 11)。验证一个函数是否为合法密度,就看这两条。

例(由密度求常数与概率):设 f(x)=cx2f(x)=cx^20x10\le x\le 1,其余为 00),求 ccP(X>12)P(X>\tfrac12)。先用归一化定常数:

01cx2dx=c3=1  c=3\int_0^1 cx^2\,\mathrm{d}x=\frac{c}{3}=1\ \Rightarrow\ c=3

再积分求概率:

P ⁣(X>12)=1/213x2dx=[x3]1/21=118=78P\!\left(X>\tfrac12\right)=\int_{1/2}^{1}3x^2\,\mathrm{d}x=\big[x^3\big]_{1/2}^{1}=1-\frac{1}{8}=\frac{7}{8}

「先用全积分为 11 定常数,再积分求区间概率」是连续型最常见的两步走。

例(由分布函数求密度):设 F(x)=1e2xF(x)=1-e^{-2x}x0x\ge 0),F(x)=0F(x)=0x<0x<0),求密度并验证。在 x>0x>0 处求导 f(x)=F(x)=2e2xf(x)=F'(x)=2e^{-2x}x<0x<0f(x)=0f(x)=0。这恰是 λ=2\lambda=2 的指数分布密度。FFff 就是求导,由 ffFF 就是积分,两者互逆。

常见连续分布

分布记号密度
均匀分布U(a,b)U(a,b)f(x)=1ba (axb)f(x)=\dfrac{1}{b-a}\ (a\le x\le b)
指数分布E(λ)E(\lambda)f(x)=λeλx (x0)f(x)=\lambda e^{-\lambda x}\ (x\ge 0)
正态分布N(μ,σ2)N(\mu,\sigma^2)f(x)=12πσexp ⁣((xμ)22σ2)f(x)=\dfrac{1}{\sqrt{2\pi}\,\sigma}\exp\!\left(-\dfrac{(x-\mu)^2}{2\sigma^2}\right)

均匀分布

XU(a,b)X\sim U(a,b) 表示 XX「在 [a,b][a,b] 上完全随机、处处等可能」,密度是一条水平线。落在某子区间的概率正比于子区间长度,这正是 几何概型 在一维上的体现。

例:公交车每 1010 分钟一班,乘客随机到站,等待时间 XU(0,10)X\sim U(0,10),求「等待超过 77 分钟」的概率。落在子区间的概率即长度之比:P(X>7)=10710=0.3P(X>7)=\frac{10-7}{10}=0.3

指数分布与无记忆性

指数分布(Exponential Distribution)描述「等待某个稀有事件首次发生所需的时间」——下一通来电、下一次设备故障的间隔。它与泊松分布是一体两面:若单位时间发生次数服从 P(λ)P(\lambda),则相邻两次的 等待时间 服从 E(λ)E(\lambda)。其分布函数为 F(x)=1eλx (x0)F(x)=1-e^{-\lambda x}\ (x\ge 0)

它最迷人的性质是 无记忆性(Memorylessness):

P(X>s+tX>s)=P(X>t)P(X>s+t\mid X>s)=P(X>t)

意思是「已经等了 ss 这么久还没发生,那么再等 tt 的概率,和从头开始等 tt 完全一样」。元件「不会变老」,过去的等待不留任何痕迹。指数分布是 唯一 具有无记忆性的连续分布(离散情形则是几何分布)。

例:某元件寿命 XE(λ)X\sim E(\lambda),平均寿命 1λ=1000\frac1\lambda=1000 小时,即 λ=0.001\lambda=0.001。求它「用过 10001000 小时仍正常」的概率。P(X>1000)=eλ1000=e10.368P(X>1000)=e^{-\lambda\cdot 1000}=e^{-1}\approx 0.368。若已知它已工作 10001000 小时,问「再撑 10001000 小时」的概率,由无记忆性 P(X>2000X>1000)=P(X>1000)=e1P(X>2000\mid X>1000)=P(X>1000)=e^{-1},与全新元件无异——这就是「不会变老」。

正态分布

正态分布(Normal Distribution,又称高斯分布)是概率论的「主角」,密度是那条著名的 钟形曲线,关于 x=μx=\mu 对称,σ\sigma 越大越「矮胖」、越小越「高瘦」。记号 N(μ,σ2)N(\mu,\sigma^2) 里的两个参数 μ\mu(位置)、σ2\sigma^2(胖瘦)恰好就是它的期望与方差。

它无处不在的原因是 中心极限定理:大量独立小因素叠加的结果总趋于正态——身高、测量误差、考试成绩皆是如此。

标准正态分布

ZN(0,1)Z\sim N(0,1) 称为 标准正态分布,密度记作 φ(z)\varphi(z),分布函数记作 Φ(z)\Phi(z)。由对称性有 Φ(z)=1Φ(z)\Phi(-z)=1-\Phi(z)

标准化:任意正态都能化成标准正态——

XN(μ,σ2)  Z=XμσN(0,1)X\sim N(\mu,\sigma^2)\ \Rightarrow\ Z=\frac{X-\mu}{\sigma}\sim N(0,1)

「减期望、除标准差」把曲线挪到原点、缩放到单位宽度。这样所有正态分布的概率计算都归约到查一张标准正态表上。

例(标准化查表):XN(50,100)X\sim N(50,100),即 μ=50\mu=50σ=10\sigma=10,求 P(40<X<70)P(40<X<70)。两端各标准化为 zz

P(40<X<70)=Φ ⁣(705010)Φ ⁣(405010)=Φ(2)Φ(1)P(40<X<70)=\Phi\!\left(\frac{70-50}{10}\right)-\Phi\!\left(\frac{40-50}{10}\right)=\Phi(2)-\Phi(-1)

查表 Φ(2)0.9772\Phi(2)\approx 0.9772,由对称性 Φ(1)=1Φ(1)10.8413=0.1587\Phi(-1)=1-\Phi(1)\approx 1-0.8413=0.1587,故概率 0.97720.1587=0.8185\approx 0.9772-0.1587=0.8185。处理负的 zz 时一律用 Φ(z)=1Φ(z)\Phi(-z)=1-\Phi(z) 转成查正值。

3σ3\sigma 原则:正态分布的概率高度集中在均值附近 33 个标准差之内——

P(Xμ<σ)0.6827,P(Xμ<2σ)0.9545,P(Xμ<3σ)0.9973P(|X-\mu|<\sigma)\approx 0.6827,\quad P(|X-\mu|<2\sigma)\approx 0.9545,\quad P(|X-\mu|<3\sigma)\approx 0.9973
提示

3σ3\sigma 原则是工业质量控制的依据:正常产品的指标落在 μ±3σ\mu\pm 3\sigma 内几乎是必然(99.73%99.73\%),一旦越界就视为「异常信号」。把单个观测值标准化为 z=xμσz=\frac{x-\mu}{\sigma},看它偏离了几个 σ\sigma,是判断「这个值算不算极端」的通用尺子。

随机变量的函数

很多时候我们关心的不是 XX 本身,而是它的某个函数 Y=g(X)Y=g(X)(如面积 Y=X2Y=X^2)。需要由 XX 的分布求出 YY 的分布。

离散情形

把所有映到同一个 yky_k 的取值概率加起来:

P(Y=yk)=g(xi)=ykP(X=xi)P(Y=y_k)=\sum_{g(x_i)=y_k}P(X=x_i)

连续情形

通用做法是 分布函数法:先求 FY(y)=P(g(X)y)F_Y(y)=P(g(X)\le y),把它化成关于 XX 的事件再用 FXF_X 表示,最后求导得密度。

gg 严格单调且可导 时,有现成的 公式法

fY(y)=fX ⁣(g1(y))ddyg1(y)f_Y(y)=f_X\!\big(g^{-1}(y)\big)\cdot\left|\frac{\mathrm{d}}{\mathrm{d}y}g^{-1}(y)\right|

那个绝对值(雅可比因子)是为了「换元时拉伸 / 压缩坐标」做的体积修正,保证 fYf_Y 仍积分为 11gg 不单调时(如 Y=X2Y=X^2)不能直接套公式,须老老实实用分布函数法分段处理。

例(公式法,单调情形):XU(0,1)X\sim U(0,1),求 Y=1λln(1X)Y=-\frac1\lambda\ln(1-X) 的分布。g(x)=1λln(1x)g(x)=-\frac1\lambda\ln(1-x)(0,1)(0,1) 上严格递增,反函数 x=g1(y)=1eλyx=g^{-1}(y)=1-e^{-\lambda y},导数 ddyg1(y)=λeλy\frac{\mathrm{d}}{\mathrm{d}y}g^{-1}(y)=\lambda e^{-\lambda y}fX1f_X\equiv 1,故

fY(y)=1λeλy=λeλy(y>0)f_Y(y)=1\cdot\big|\lambda e^{-\lambda y}\big|=\lambda e^{-\lambda y}\quad(y>0)

YE(λ)Y\sim E(\lambda)。这正是「逆变换法」:从均匀分布生成任意分布的随机数靠的就是它。

例(分布函数法,非单调 Y=X2Y=X^2):XN(0,1)X\sim N(0,1),求 Y=X2Y=X^2 的密度。gg 不单调,老实用分布函数法。当 y>0y>0

FY(y)=P(X2y)=P(yXy)=2Φ(y)1F_Y(y)=P(X^2\le y)=P(-\sqrt y\le X\le\sqrt y)=2\Phi(\sqrt y)-1

yy 求导(链式法则,ddyy=12y\frac{\mathrm{d}}{\mathrm{d}y}\sqrt y=\frac{1}{2\sqrt y}):

fY(y)=2φ(y)12y=12πyey/2(y>0)f_Y(y)=2\varphi(\sqrt y)\cdot\frac{1}{2\sqrt y}=\frac{1}{\sqrt{2\pi y}}e^{-y/2}\quad(y>0)

这正是自由度为 11χ2\chi^2 分布密度,印证了 数理统计 里「标准正态平方服从 χ2(1)\chi^2(1)」。Y=X2Y=X^2±x\pm x 两支都映到同一个 yy,分布函数法的「双侧」正是为此而设。

二维随机变量

把两个随机变量打包成 (X,Y)(X,Y),研究它们的 联合行为——这是处理「相关性」的起点。

联合分布

  • 二维离散:联合分布列 pij=P(X=xi,Y=yj)p_{ij}=P(X=x_i,Y=y_j),满足 i,jpij=1\sum_{i,j}p_{ij}=1
  • 二维连续:联合密度 f(x,y)0f(x,y)\ge 0 满足 f=1\iint f=1,且
P((X,Y)D)=Df(x,y)dxdyP\big((X,Y)\in D\big)=\iint_D f(x,y)\,\mathrm{d}x\,\mathrm{d}y

联合分布函数F(x,y)=P(Xx,Yy)F(x,y)=P(X\le x,Y\le y)

边缘分布

只关心其中一个变量、把另一个「积掉」,得到 边缘分布(Marginal Distribution):

fX(x)=+f(x,y)dy,fY(y)=+f(x,y)dxf_X(x)=\int_{-\infty}^{+\infty}f(x,y)\,\mathrm{d}y,\quad f_Y(y)=\int_{-\infty}^{+\infty}f(x,y)\,\mathrm{d}x

离散情形对应按行 / 按列求和。注意:边缘分布是「投影」,从联合能唯一确定边缘,但 反过来不行——同样的边缘可以对应完全不同的联合,因为边缘丢掉了「XXYY 如何关联」的信息。

条件分布

固定一个变量的取值,看另一个的分布,就是 条件分布

fYX(yx)=f(x,y)fX(x)(fX(x)>0)f_{Y\mid X}(y\mid x)=\frac{f(x,y)}{f_X(x)}\quad (f_X(x)>0)

这是 条件概率 在密度层面的翻版:联合密度除以边缘密度。三者的关系凑成「联合 = 边缘 × 条件」:f(x,y)=fX(x)fYX(yx)f(x,y)=f_X(x)\,f_{Y\mid X}(y\mid x)

独立性

X,YX,Y 独立 当且仅当「联合等于边缘之积」:

F(x,y)=FX(x)FY(y)    f(x,y)=fX(x)fY(y)F(x,y)=F_X(x)F_Y(y)\iff f(x,y)=f_X(x)f_Y(y)

直觉上,独立意味着 YY 取什么值丝毫不改变 XX 的分布,于是条件分布退化为边缘分布。

例(求边缘、判独立):设 (X,Y)(X,Y) 联合密度 f(x,y)=4xyf(x,y)=4xy0x1, 0y10\le x\le 1,\ 0\le y\le 1,其余为 00)。求两个边缘并判断独立性。沿 yy 积掉得

fX(x)=014xydy=4x12=2x(0x1)f_X(x)=\int_0^1 4xy\,\mathrm{d}y=4x\cdot\frac12=2x\quad(0\le x\le 1)

同理 fY(y)=2yf_Y(y)=2y。由于 fX(x)fY(y)=2x2y=4xy=f(x,y)f_X(x)f_Y(y)=2x\cdot 2y=4xy=f(x,y)联合恰好等于边缘之积,故 X,YX,Y 独立。判独立的实操就是「分别算两个边缘,看乘积是否还原联合」。

例(条件密度):续上,求 fYX(yx)f_{Y\mid X}(y\mid x)。代入定义 fYX(yx)=f(x,y)fX(x)=4xy2x=2yf_{Y\mid X}(y\mid x)=\frac{f(x,y)}{f_X(x)}=\frac{4xy}{2x}=2y,与 xx 无关——正印证了独立时条件分布退化为边缘 fY(y)=2yf_Y(y)=2y

常见二维分布

  • 二维均匀分布(X,Y)(X,Y) 在平面区域 DD 上均匀,密度 f(x,y)=1m(D)f(x,y)=\frac{1}{m(D)}m(D)m(D)DD 的面积),落在子区域的概率正比于面积。

例(二维均匀):(X,Y)(X,Y) 在单位正方形 [0,1]2[0,1]^2 上均匀,密度恒为 11。求 P(X+Y1)P(X+Y\le 1) 及边缘 fXf_X。事件 X+Y1X+Y\le 1 是正方形里对角线下方的三角形,面积 12\frac12,故概率 12\frac12。边缘 fX(x)=011dy=1f_X(x)=\int_0^1 1\,\mathrm{d}y=10x10\le x\le 1),即 XU(0,1)X\sim U(0,1)。正方形上的二维均匀,两个分量独立且各自均匀;但若区域换成三角形,边缘就不再均匀、两分量也不独立了。

  • 二维正态分布 N(μ1,μ2;σ12,σ22;ρ)N(\mu_1,\mu_2;\sigma_1^2,\sigma_2^2;\rho):由两个均值、两个方差和一个相关系数 ρ\rho 描述,等高线是一族椭圆。它有一条漂亮的性质——边缘分布仍是正态,且对二维正态而言「X,YX,Y 不相关」与「X,YX,Y 独立」等价(一般分布并不成立,参见 数字特征)。

常见分布汇总

类型分布记号分布列 / 密度
离散0-10\text{-}1 分布B(1,p)B(1,p)P(X=k)=pk(1p)1k, k=0,1P(X=k)=p^k(1-p)^{1-k},\ k=0,1
离散二项分布B(n,p)B(n,p)P(X=k)=(nk)pk(1p)nkP(X=k)=\binom{n}{k}p^k(1-p)^{n-k}
离散泊松分布P(λ)P(\lambda)P(X=k)=λkk!eλP(X=k)=\dfrac{\lambda^k}{k!}e^{-\lambda}
离散几何分布G(p)G(p)P(X=k)=(1p)k1pP(X=k)=(1-p)^{k-1}p
连续均匀分布U(a,b)U(a,b)f(x)=1ba (axb)f(x)=\dfrac{1}{b-a}\ (a\le x\le b)
连续指数分布E(λ)E(\lambda)f(x)=λeλx (x0)f(x)=\lambda e^{-\lambda x}\ (x\ge 0)
连续正态分布N(μ,σ2)N(\mu,\sigma^2)f(x)=12πσexp ⁣((xμ)22σ2)f(x)=\dfrac{1}{\sqrt{2\pi}\,\sigma}\exp\!\left(-\dfrac{(x-\mu)^2}{2\sigma^2}\right)

它们的期望与方差汇总见 数字特征