Skip to main content

二次型

参考资料

引入

二次型(Quadratic Form)是 nn 个变量的 齐二次多项式(每一项都是二次):

f(x1,x2,,xn)=i=1nj=1naijxixjf(x_1,x_2,\dots,x_n)=\sum_{i=1}^{n}\sum_{j=1}^{n}a_{ij}x_ix_j

它是中学里 ax2+bxy+cy2ax^2+bxy+cy^2 向高维的推广。研究目标只有一个:通过 变量替换,把交叉项 xixjx_ix_j 全部消掉,化成纯 平方和 形式,从而一眼看出它的符号性质和几何形状。

为什么值得专门研究?因为二次型无处不在:二次曲线/曲面的分类、多元函数极值的二阶判别(海森矩阵)、概率论里的协方差矩阵、最优化里的目标函数,背后都是同一套二次型理论。

矩阵表示

任何二次型都能唯一地写成 对称矩阵 的形式:

f(x)=xTAx,AT=Af(\vec x)=\vec x^TA\vec x,\qquad A^T=A

对应规则:aiia_{ii}xi2x_i^2 的系数;aij=ajia_{ij}=a_{ji} 各取 xixjx_ix_j 系数的 一半(因为交叉项被 aija_{ij}ajia_{ji} 平摊)。

矩阵 AA 称为二次型的 矩阵,其秩 r(A)r(A) 称为二次型的

tip

「系数减半」是新手最容易错的地方。例如 f=x12+4x1x2+3x22f=x_1^2+4x_1x_2+3x_2^2,对角填系数 1133,交叉项 4x1x24x_1x_2 拆成 a12=a21=2a_{12}=a_{21}=2

A=(1223)A=\begin{pmatrix}1&2\\2&3\end{pmatrix}

坚持用 对称矩阵 表示,是因为只有对称矩阵才一定能正交对角化,整套理论才走得通。

合同变换

合同

做可逆线性替换 x=Cy\vec x=C\vec yCC 可逆),二次型变为

f=xTAx=(Cy)TA(Cy)=yT(CTAC)yf=\vec x^TA\vec x=(C\vec y)^TA(C\vec y)=\vec y^T(C^TAC)\vec y

于是新矩阵是 CTACC^TAC。若存在可逆 CC 使 B=CTACB=C^TAC,称 A,BA,B 合同(Congruent),记 ABA\simeq B。合同变换对应「换一组坐标看同一个二次型」,它保持二次型的本质(秩、正负惯性指数)不变。

合同与相似

关系定义几何意义
相似P1AP=BP^{-1}AP=B同一线性变换在不同基下
合同CTAC=BC^TAC=B同一二次型在不同坐标下

两者一般不同,但有一个重要交汇:当 CC正交矩阵CT=C1C^T=C^{-1},相似与合同 同时成立。这正是用正交变换化标准形既保特征值(相似)又保二次型(合同)的原因。

标准形

定义

只含平方项、没有交叉项的二次型称为 标准形(Canonical Form):

f=d1y12+d2y22++dnyn2f=d_1y_1^2+d_2y_2^2+\dots+d_ny_n^2

对应矩阵是对角阵 diag(d1,,dn)\operatorname{diag}(d_1,\dots,d_n)。化标准形,就是给二次型的矩阵找一个合同的对角阵。

化标准形的三种方法

方法思路
正交变换法AA 的特征值 λi\lambda_i 与正交矩阵 QQ,令 x=Qy\vec x=Q\vec y,得 f=λ1y12++λnyn2f=\lambda_1y_1^2+\dots+\lambda_ny_n^2
配方法(拉格朗日)逐个把含某变量的项凑成完全平方,再换元,反复直到无交叉项
初等变换法(AE)(A\mid E)成对的 行列初等变换,左边化对角时右边即变换矩阵

三种方法得到的对角元 不唯一(系数大小可以不同),但下文的惯性指数是唯一的。

tip

正交变换法 最特殊:因为 QQ 正交,它在化简的同时 保持了几何形状(不拉伸、不扭曲),所以对角元恰好是 特征值,对应各主轴方向的真实缩放。需要研究二次曲面形状时用它;只想快速判断正负性时,配方法 往往更省力。

配方法算例

例(有平方项):把 f=x12+2x22+5x32+2x1x2+2x1x3+6x2x3f=x_1^2+2x_2^2+5x_3^2+2x_1x_2+2x_1x_3+6x_2x_3 化标准形。思路是 先收齐含 x1x_1 的所有项凑成完全平方,再处理剩下的。含 x1x_1 的是 x12+2x1x2+2x1x3x_1^2+2x_1x_2+2x_1x_3,配成 (x1+x2+x3)2(x_1+x_2+x_3)^2 会多出 x22+x32+2x2x3x_2^2+x_3^2+2x_2x_3,扣掉:

f=(x1+x2+x3)2+(2x22x22)+(5x32x32)+(6x2x32x2x3)=(x1+x2+x3)2+x22+4x32+4x2x3f=(x_1+x_2+x_3)^2+(2x_2^2-x_2^2)+(5x_3^2-x_3^2)+(6x_2x_3-2x_2x_3)=(x_1+x_2+x_3)^2+x_2^2+4x_3^2+4x_2x_3

剩下的 x22+4x2x3+4x32x_2^2+4x_2x_3+4x_3^2 再对 x2x_2 配方,正好是 (x2+2x3)2(x_2+2x_3)^2

f=(x1+x2+x3)2+(x2+2x3)2f=(x_1+x_2+x_3)^2+(x_2+2x_3)^2

y1=x1+x2+x3y_1=x_1+x_2+x_3y2=x2+2x3y_2=x_2+2x_3y3=x3y_3=x_3(这是可逆线性替换),得标准形 f=y12+y22f=y_1^2+y_2^2。秩为 22,正惯性指数 p=2p=2,负惯性指数 q=0q=0

例(无平方项):把 f=2x1x2+2x1x32x2x3f=2x_1x_2+2x_1x_3-2x_2x_3 化标准形。全是交叉项、没有平方项,配方无从下手,先做一个 预备替换 造出平方项:令 x1=y1+y2x_1=y_1+y_2x2=y1y2x_2=y_1-y_2x3=y3x_3=y_3。代入,2x1x2=2(y1+y2)(y1y2)=2y122y222x_1x_2=2(y_1+y_2)(y_1-y_2)=2y_1^2-2y_2^2,其余项 2x1x32x2x3=2x3(x1x2)=2y32y2=4y2y32x_1x_3-2x_2x_3=2x_3(x_1-x_2)=2y_3\cdot2y_2=4y_2y_3,于是

f=2y122y22+4y2y3f=2y_1^2-2y_2^2+4y_2y_3

现在有平方项了,对 y2y_2 配方:2y22+4y2y3=2(y222y2y3)=2(y2y3)2+2y32-2y_2^2+4y_2y_3=-2(y_2^2-2y_2y_3)=-2(y_2-y_3)^2+2y_3^2,故

f=2y122(y2y3)2+2y32f=2y_1^2-2(y_2-y_3)^2+2y_3^2

再令 z1=y1z_1=y_1z2=y2y3z_2=y_2-y_3z3=y3z_3=y_3,得标准形 f=2z122z22+2z32f=2z_1^2-2z_2^2+2z_3^2。秩为 33,正惯性指数 p=2p=2、负惯性指数 q=1q=1,符号差 pq=1p-q=1。「无平方项先凑 xi=yi+yj, xj=yiyjx_i=y_i+y_j,\ x_j=y_i-y_j」是这类题的固定起手。

规范形与惯性定理

规范形

把标准形里每个非零平方项的系数再通过伸缩化成 ±1\pm 1,得到 规范形(Normal Form):

f=y12++yp2yp+12yp+q2f=y_1^2+\dots+y_p^2-y_{p+1}^2-\dots-y_{p+q}^2

只剩 +1+11-100 三种系数,是最「素」的形态。

惯性定理(西尔维斯特惯性定律)

一个二次型用 不同 的可逆线性变换化出的标准形,系数可以各不相同,但其中:

  • 正系数的个数 pp —— 正惯性指数
  • 负系数的个数 qq —— 负惯性指数
  • 非零系数总数 r=p+qr=p+q —— 二次型的

这三个数 完全由二次型本身决定,与采用何种变换无关。所以规范形 唯一pqp-q 称为 符号差

正交变换算例

例:用正交变换把 f=2x12+2x222x1x2f=2x_1^2+2x_2^2-2x_1x_2 化标准形并写出变换矩阵。二次型矩阵(交叉项系数减半)

A=(2112)A=\begin{pmatrix}2&-1\\-1&2\end{pmatrix}

特征方程 AλE=(2λ)21=0|A-\lambda E|=(2-\lambda)^2-1=0λ1=1,λ2=3\lambda_1=1,\lambda_2=3。对 λ1=1\lambda_1=1(AE)x=(1111)x=0(A-E)\vec x=\begin{pmatrix}1&-1\\-1&1\end{pmatrix}\vec x=\vec0,得 ξ1=(1,1)T\vec\xi_1=(1,1)^T;对 λ2=3\lambda_2=3(1111)x=0\begin{pmatrix}-1&-1\\-1&-1\end{pmatrix}\vec x=\vec0,得 ξ2=(1,1)T\vec\xi_2=(1,-1)^T。两特征值互异,特征向量已自动正交,只需单位化:

Q=12(1111)Q=\frac{1}{\sqrt2}\begin{pmatrix}1&1\\1&-1\end{pmatrix}

x=Qy\vec x=Q\vec y,则 f=λ1y12+λ2y22=y12+3y22f=\lambda_1y_1^2+\lambda_2y_2^2=y_1^2+3y_2^2。对角元恰是特征值,QQ 的列就是主轴方向。因为 QQ 正交,这个化简同时保住了图形:f=1f=1 是一个椭圆,长短半轴比由 3:1\sqrt{3}:1 决定。

tip

惯性定理是二次型的「身份证」:判断两个实二次型能否互相合同,只看它们的 rr 和正惯性指数 pp 是否相同即可,不必真的去找变换矩阵。

正定性

定义

f(x)=xTAxf(\vec x)=\vec x^TA\vec xAA 实对称),按它对所有非零 x\vec x 取值的符号分类:

类型对所有 x0\vec x\ne\vec 0
正定(Positive Definite)f(x)>0f(\vec x)>0
负定(Negative Definite)f(x)<0f(\vec x)<0
半正定f(x)0f(\vec x)\ge 0
半负定f(x)0f(\vec x)\le 0
不定既能取正也能取负

正定的几何画面:图像是一个开口向上、最低点在原点的「碗」,从任何方向离开原点函数值都上升。

正定的等价判定

下列条件相互等价(AAnn 阶实对称矩阵):

  1. ff 正定;
  2. AA所有特征值>0>0
  3. AA所有顺序主子式>0>0
  4. 正惯性指数 p=np=n
  5. 存在可逆矩阵 PP 使 A=PTPA=P^TP
  6. AA 合同于单位阵 EE
tip

挑哪条判定看场景:手头有特征值就用「特征值全正」;只有矩阵 AA 就用 顺序主子式判别法(赫尔维茨判据) 最省事 ——

a11>0,a11a12a21a22>0,,A>0a_{11}>0,\quad\begin{vmatrix}a_{11}&a_{12}\\a_{21}&a_{22}\end{vmatrix}>0,\quad\dots,\quad |A|>0

依次算 11nn 阶顺序主子式,全部 >0>0 即正定。注意是「顺序」主子式(从左上角起的那一串),不是任意主子式。

例(顺序主子式法):判定 f=2x12+5x22+5x32+4x1x24x1x38x2x3f=2x_1^2+5x_2^2+5x_3^2+4x_1x_2-4x_1x_3-8x_2x_3 是否正定。先写矩阵(交叉项减半):

A=(222254245)A=\begin{pmatrix}2&2&-2\\2&5&-4\\-2&-4&5\end{pmatrix}

依次算三个顺序主子式:

D1=2>0,D2=2225=104=6>0,D3=A=2(2516)2(108)+(2)(8+10)=1844=10>0D_1=2>0,\quad D_2=\begin{vmatrix}2&2\\2&5\end{vmatrix}=10-4=6>0,\quad D_3=|A|=2(25-16)-2(10-8)+(-2)(-8+10)=18-4-4=10>0

三个全大于 00,故 ff 正定。只用矩阵本身、不必求特征值,这是手算判定正定最快的路子。

例(特征值法):判定 A=(3113)A=\begin{pmatrix}3&1\\1&3\end{pmatrix} 对应的二次型是否正定。特征值 λ=3±1=2,4\lambda=3\pm1=2,4,全为正,故正定。对照顺序主子式法:D1=3>0D_1=3>0D2=91=8>0D_2=9-1=8>0,同样判定正定,两法结论一致。若手头已经算出了特征值(如做完正交对角化),直接看符号最省事;只有矩阵时用顺序主子式。

半正定与负定的判定

  • 半正定:所有特征值 0\ge 0,等价于所有 主子式(含非顺序的)0\ge 0(这里顺序主子式 0\ge 0 不够,是常见陷阱)。
  • 负定A-A 正定     \iff 所有特征值 <0<0     \iff 顺序主子式 正负交替,奇数阶 <0<0、偶数阶 >0>0

几何意义:二次曲面分类

二次型 xTAx=1\vec x^TA\vec x=1 在不同正定性下,描绘出不同的二次曲线/曲面。正交变换把它转到主轴坐标系后,看特征值(即标准形系数)的符号就能定形状:

特征值符号(n=3n=3曲面类型
全为正椭球面(正定,封闭的「蛋」)
两正一负单叶双曲面
一正两负双叶双曲面
有零特征值退化为柱面、抛物面等

二维同理:两个特征值同号得 椭圆,异号得 双曲线,有一个为零则退化。特征值的 绝对值 决定各主轴的长短,符号 决定曲线/曲面的开闭与朝向 —— 这就是「特征值即各方向缩放因子」在几何上的直接体现。

应用

  • 多元极值:把 多元微积分 里的 海森矩阵 当成二次型矩阵,正定 \Rightarrow 极小值、负定 \Rightarrow 极大值、不定 \Rightarrow 鞍点。
  • 二次曲线/曲面分类:如上,靠特征值符号判别椭圆、双曲、抛物等。
  • 概率论:随机向量的 协方差矩阵 必半正定,正定则对应「没有退化方向」的非奇异分布。
  • 最优化:目标函数的二次近似正定时,问题是凸的,局部极小即全局极小。