二次型(Quadratic Form)是 n 个变量的 齐二次多项式(每一项都是二次):
f(x1,x2,…,xn)=i=1∑nj=1∑naijxixj
它是中学里 ax2+bxy+cy2 向高维的推广。研究目标只有一个:通过 变量替换,把交叉项 xixj 全部消掉,化成纯 平方和 形式,从而一眼看出它的符号性质和几何形状。
为什么值得专门研究?因为二次型无处不在:二次曲线/曲面的分类、多元函数极值的二阶判别(海森矩阵)、概率论里的协方差矩阵、最优化里的目标函数,背后都是同一套二次型理论。
任何二次型都能唯一地写成 对称矩阵 的形式:
f(x)=xTAx,AT=A
对应规则:aii 取 xi2 的系数;aij=aji 各取 xixj 系数的 一半(因为交叉项被 aij 和 aji 平摊)。
矩阵 A 称为二次型的 矩阵,其秩 r(A) 称为二次型的 秩。
「系数减半」是新手最容易错的地方。例如 f=x12+4x1x2+3x22,对角填系数 1 和 3,交叉项 4x1x2 拆成 a12=a21=2:
A=(1223)坚持用 对称矩阵 表示,是因为只有对称矩阵才一定能正交对角化,整套理论才走得通。
做可逆线性替换 x=Cy(C 可逆),二次型变为
f=xTAx=(Cy)TA(Cy)=yT(CTAC)y
于是新矩阵是 CTAC。若存在可逆 C 使 B=CTAC,称 A,B 合同(Congruent),记 A≃B。合同变换对应「换一组坐标看同一个二次型」,它保持二次型的本质(秩、正负惯性指数)不变。
| 关系 | 定义 | 几何意义 |
|---|
| 相似 | P−1AP=B | 同一线性变换在不同基下 |
| 合同 | CTAC=B | 同一二次型在不同坐标下 |
两者一般不同,但有一个重要交汇:当 C 是 正交矩阵 时 CT=C−1,相似与合同 同时成立。这正是用正交变换化标准形既保特征值(相似)又保二次型(合同)的原因。
只含平方项、没有交叉项的二次型称为 标准形(Canonical Form):
f=d1y12+d2y22+⋯+dnyn2
对应矩阵是对角阵 diag(d1,…,dn)。化标准形,就是给二次型的矩阵找一个合同的对角阵。
| 方法 | 思路 |
|---|
| 正交变换法 | 求 A 的特征值 λi 与正交矩阵 Q,令 x=Qy,得 f=λ1y12+⋯+λnyn2 |
| 配方法(拉格朗日) | 逐个把含某变量的项凑成完全平方,再换元,反复直到无交叉项 |
| 初等变换法 | 对 (A∣E) 做 成对的 行列初等变换,左边化对角时右边即变换矩阵 |
三种方法得到的对角元 不唯一(系数大小可以不同),但下文的惯性指数是唯一的。
正交变换法 最特殊:因为 Q 正交,它在化简的同时 保持了几何形状(不拉伸、不扭曲),所以对角元恰好是 特征值,对应各主轴方向的真实缩放。需要研究二次曲面形状时用它;只想快速判断正负性时,配方法 往往更省力。
例(有平方项):把 f=x12+2x22+5x32+2x1x2+2x1x3+6x2x3 化标准形。思路是 先收齐含 x1 的所有项凑成完全平方,再处理剩下的。含 x1 的是 x12+2x1x2+2x1x3,配成 (x1+x2+x3)2 会多出 x22+x32+2x2x3,扣掉:
f=(x1+x2+x3)2+(2x22−x22)+(5x32−x32)+(6x2x3−2x2x3)=(x1+x2+x3)2+x22+4x32+4x2x3
剩下的 x22+4x2x3+4x32 再对 x2 配方,正好是 (x2+2x3)2:
f=(x1+x2+x3)2+(x2+2x3)2
令 y1=x1+x2+x3、y2=x2+2x3、y3=x3(这是可逆线性替换),得标准形 f=y12+y22。秩为 2,正惯性指数 p=2,负惯性指数 q=0。
例(无平方项):把 f=2x1x2+2x1x3−2x2x3 化标准形。全是交叉项、没有平方项,配方无从下手,先做一个 预备替换 造出平方项:令 x1=y1+y2、x2=y1−y2、x3=y3。代入,2x1x2=2(y1+y2)(y1−y2)=2y12−2y22,其余项 2x1x3−2x2x3=2x3(x1−x2)=2y3⋅2y2=4y2y3,于是
f=2y12−2y22+4y2y3
现在有平方项了,对 y2 配方:−2y22+4y2y3=−2(y22−2y2y3)=−2(y2−y3)2+2y32,故
f=2y12−2(y2−y3)2+2y32
再令 z1=y1、z2=y2−y3、z3=y3,得标准形 f=2z12−2z22+2z32。秩为 3,正惯性指数 p=2、负惯性指数 q=1,符号差 p−q=1。「无平方项先凑 xi=yi+yj, xj=yi−yj」是这类题的固定起手。
把标准形里每个非零平方项的系数再通过伸缩化成 ±1,得到 规范形(Normal Form):
f=y12+⋯+yp2−yp+12−⋯−yp+q2
只剩 +1、−1、0 三种系数,是最「素」的形态。
一个二次型用 不同 的可逆线性变换化出的标准形,系数可以各不相同,但其中:
- 正系数的个数 p —— 正惯性指数;
- 负系数的个数 q —— 负惯性指数;
- 非零系数总数 r=p+q —— 二次型的 秩;
这三个数 完全由二次型本身决定,与采用何种变换无关。所以规范形 唯一。p−q 称为 符号差。
例:用正交变换把 f=2x12+2x22−2x1x2 化标准形并写出变换矩阵。二次型矩阵(交叉项系数减半)
A=(2−1−12)
特征方程 ∣A−λE∣=(2−λ)2−1=0 给 λ1=1,λ2=3。对 λ1=1:(A−E)x=(1−1−11)x=0,得 ξ1=(1,1)T;对 λ2=3:(−1−1−1−1)x=0,得 ξ2=(1,−1)T。两特征值互异,特征向量已自动正交,只需单位化:
Q=21(111−1)
令 x=Qy,则 f=λ1y12+λ2y22=y12+3y22。对角元恰是特征值,Q 的列就是主轴方向。因为 Q 正交,这个化简同时保住了图形:f=1 是一个椭圆,长短半轴比由 3:1 决定。
惯性定理是二次型的「身份证」:判断两个实二次型能否互相合同,只看它们的 秩 r 和正惯性指数 p 是否相同即可,不必真的去找变换矩阵。
设 f(x)=xTAx(A 实对称),按它对所有非零 x 取值的符号分类:
| 类型 | 对所有 x=0 |
|---|
| 正定(Positive Definite) | f(x)>0 |
| 负定(Negative Definite) | f(x)<0 |
| 半正定 | f(x)≥0 |
| 半负定 | f(x)≤0 |
| 不定 | 既能取正也能取负 |
正定的几何画面:图像是一个开口向上、最低点在原点的「碗」,从任何方向离开原点函数值都上升。
下列条件相互等价(A 为 n 阶实对称矩阵):
- f 正定;
- A 的 所有特征值 都 >0;
- A 的 所有顺序主子式 都 >0;
- 正惯性指数 p=n;
- 存在可逆矩阵 P 使 A=PTP;
- A 合同于单位阵 E。
挑哪条判定看场景:手头有特征值就用「特征值全正」;只有矩阵 A 就用 顺序主子式判别法(赫尔维茨判据) 最省事 ——
a11>0,a11a21a12a22>0,…,∣A∣>0依次算 1 到 n 阶顺序主子式,全部 >0 即正定。注意是「顺序」主子式(从左上角起的那一串),不是任意主子式。
例(顺序主子式法):判定 f=2x12+5x22+5x32+4x1x2−4x1x3−8x2x3 是否正定。先写矩阵(交叉项减半):
A=22−225−4−2−45
依次算三个顺序主子式:
D1=2>0,D2=2225=10−4=6>0,D3=∣A∣=2(25−16)−2(10−8)+(−2)(−8+10)=18−4−4=10>0
三个全大于 0,故 f 正定。只用矩阵本身、不必求特征值,这是手算判定正定最快的路子。
例(特征值法):判定 A=(3113) 对应的二次型是否正定。特征值 λ=3±1=2,4,全为正,故正定。对照顺序主子式法:D1=3>0、D2=9−1=8>0,同样判定正定,两法结论一致。若手头已经算出了特征值(如做完正交对角化),直接看符号最省事;只有矩阵时用顺序主子式。
- 半正定:所有特征值 ≥0,等价于所有 主子式(含非顺序的)≥0(这里顺序主子式 ≥0 不够,是常见陷阱)。
- 负定:−A 正定 ⟺ 所有特征值 <0 ⟺ 顺序主子式 正负交替,奇数阶 <0、偶数阶 >0。
二次型 xTAx=1 在不同正定性下,描绘出不同的二次曲线/曲面。正交变换把它转到主轴坐标系后,看特征值(即标准形系数)的符号就能定形状:
| 特征值符号(n=3) | 曲面类型 |
|---|
| 全为正 | 椭球面(正定,封闭的「蛋」) |
| 两正一负 | 单叶双曲面 |
| 一正两负 | 双叶双曲面 |
| 有零特征值 | 退化为柱面、抛物面等 |
二维同理:两个特征值同号得 椭圆,异号得 双曲线,有一个为零则退化。特征值的 绝对值 决定各主轴的长短,符号 决定曲线/曲面的开闭与朝向 —— 这就是「特征值即各方向缩放因子」在几何上的直接体现。
- 多元极值:把 多元微积分 里的 海森矩阵 当成二次型矩阵,正定 ⇒ 极小值、负定 ⇒ 极大值、不定 ⇒ 鞍点。
- 二次曲线/曲面分类:如上,靠特征值符号判别椭圆、双曲、抛物等。
- 概率论:随机向量的 协方差矩阵 必半正定,正定则对应「没有退化方向」的非奇异分布。
- 最优化:目标函数的二次近似正定时,问题是凸的,局部极小即全局极小。