把矩阵 A 看作一个 线性变换。大多数向量经过 A 之后既被拉伸又被转向,方向变了。但有些特殊向量,变换只把它 沿原方向伸缩、不改变方向 —— 这些方向不变的向量就是 特征向量,伸缩的倍数就是 特征值:
Aξ=λξ
它们是变换的「天然坐标轴」。沿着这些轴看,复杂的矩阵变换被 分解成各方向上简单的独立伸缩,这正是线代后半段的核心思想,也是 PCA、振动分析、量子力学的共同语言。
设 A 为 n 阶方阵。若存在数 λ 和 非零向量 ξ 使
Aξ=λξ
则 λ 称为 A 的 特征值(Eigenvalue),ξ 称为对应于 λ 的 特征向量(Eigenvector)。
注意 ξ 必须非零(0 对任何 λ 都成立,没有意义),而 λ 可以为 0(λ=0 意味着 A 把这个方向压成原点,对应 A 不可逆)。特征向量不唯一:它的任意非零倍数仍是特征向量,整条「特征方向」上的向量同进退。
把定义改写成 (A−λE)ξ=0。要它有 非零解,系数矩阵必须不可逆,于是得 特征方程(Characteristic Equation):
∣A−λE∣=0
展开左边得到一个关于 λ 的 n 次多项式,称为 特征多项式(Characteristic Polynomial)。求根得到全部特征值;再对每个 λi 解齐次方程 (A−λiE)x=0,其基础解系就是对应的特征向量。
步骤很固定:先解特征方程求 λ,再回代解齐次方程求 ξ。 一个 λ 对应的特征向量构成一个子空间(特征子空间),它就是 (A−λE) 的零空间,取它的基础解系即可。
例:求 A=2−10−12−10−12 的特征值与特征向量。先写特征多项式(按第一行展开):
∣A−λE∣=2−λ−10−12−λ−10−12−λ=(2−λ)[(2−λ)2−1]−(−1)[−(2−λ)]
整理得 (2−λ)[(2−λ)2−2]=0。令 μ=2−λ 即 μ(μ2−2)=0,故 μ=0,±2,对应
λ1=2,λ2=2−2,λ3=2+2
三个互异。自检:之和 λ1+λ2+λ3=6=tr(A),吻合。再逐个回代解 (A−λE)x=0。对 λ1=2:
A−2E=0−10−10−10−10行变换100010100
得 x2=0、x1=−x3,取 ξ1=(1,0,−1)T。对 λ=2∓2 同理解出 ξ2,3=(1,±2,1)T(这里 λ2=2−2 配 (1,2,1)T,λ3=2+2 配 (1,−2,1)T)。每个特征向量乘任意非零数仍是特征向量。
例(含重根):求 B=210020003 的特征值与特征向量。它是下三角,特征值就是对角元 λ=2(二重)、λ=3。对 λ=2:
B−2E=010000001
秩为 2,解空间维数 3−2=1,只解出一个 ξ=(0,1,0)T。二重特征值却只有 1 个线性无关特征向量——这正是后面「不可对角化」的信号。
设 A 的 n 个特征值为 λ1,…,λn(计重数),则
i=1∑nλi=tr(A)=i=1∑naii,i=1∏nλi=∣A∣
特征值之和等于 迹(对角线元素之和),之积等于 行列式。这两条来自特征多项式的韦达定理,是验算特征值时的快速自检 —— 算完一定要核对这两个等式。也立刻看出:A 可逆 ⟺ 所有特征值非零。
| 矩阵 | 特征值 |
|---|
| A | λ |
| kA | kλ |
| Am | λm |
| A−1(A 可逆) | λ1 |
| A+kE | λ+k |
| AT | λ(与 A 相同) |
| f(A) | f(λ) |
只要 ξ 是 A 对应 λ 的特征向量,它在以上所有变换下 仍是特征向量,只是特征值按表中规律改变。例如 A2ξ=A(λξ)=λ2ξ。注意 AT 与 A 特征值相同,但特征向量一般 不同。
- 不同特征值 对应的特征向量 线性无关。
- 设 λ 是 k 重特征值(代数重数 为 k),则它的线性无关特征向量个数(几何重数)满足 1≤ 几何重数 ≤k。
- 几何重数 = n−r(A−λE),即特征子空间的维数。
代数重数与几何重数是否相等,正是下面能否对角化的关键。
若存在 可逆矩阵 P 使
P−1AP=B
则称 A 相似于 B,记为 A∼B。相似是一种等价关系(自反、对称、传递)。
相似的本质:A 与 B 是同一个线性变换在不同基下的矩阵表示。 P 就是两组基之间的 过渡矩阵。换个基底看同一个变换,矩阵的「长相」变了,但它描述的几何动作没变 —— 所以下面这些 不变量 才会保持一致。
相似矩阵共享许多量(这些量只依赖变换本身,不依赖坐标系):
- 特征多项式与 特征值(含重数);
- 行列式 ∣A∣=∣B∣、迹 tr(A)=tr(B);
- 秩 r(A)=r(B)、可逆性。
反过来要小心:特征值全相同 不一定 相似(还要看几何重数是否一致)。
若 A 相似于某个对角阵 Λ,即存在可逆 P 使 P−1AP=Λ,则称 A 可 对角化(Diagonalizable)。对角化就是给变换找一组「特征方向」当基,让它在这组基下变成最简单的「各轴独立缩放」。
A 可对角化⟺A 有 n 个线性无关的特征向量
等价表述:每个特征值的几何重数都等于代数重数(即 k 重特征值恰好对应 k 个线性无关特征向量)。两个充分条件值得记住:
- 若 A 有 n 个 互不相同 的特征值,则必可对角化。
- 实对称矩阵 一定可对角化(见下文)。
而像 (0010) 这种二重特征值 0 却只有一个特征向量的矩阵,就 不可对角化。
例(判定能否对角化):A=122212221 能否对角化?特征多项式 ∣A−λE∣=−(λ−5)(λ+1)2,特征值 λ1=5(单根)、λ2=−1(二重)。单根的几何重数必为 1,关键看二重根 λ=−1:
A−(−1)E=A+E=222222222
秩为 1,几何重数 =3−r=3−1=2,恰好等于代数重数 2。两个重数都对得上,故 A 可对角化。λ=−1 的特征子空间取基础解系 (−1,1,0)T,(−1,0,1)T,配上 λ=5 的 (1,1,1)T,凑齐 3 个线性无关特征向量。
例(不可对角化):B=(3013)。特征值 λ=3(二重),B−3E=(0010) 秩为 1,几何重数 =2−1=1<2。重数对不上,B 不可对角化——这种「上三角带非零上元」的矩阵已是若尔当块,无法再化简。
- 由 ∣A−λE∣=0 求出全部特征值 λ1,…,λn。
- 对每个 λi 解 (A−λiE)x=0 求特征向量。
- 若凑齐 n 个线性无关特征向量 ξ1,…,ξn,令 P=(ξ1,…,ξn),则
P−1AP=diag(λ1,…,λn)
特征值的排列顺序要和 P 中特征向量的列顺序 一一对应。
对角化最实用的去处是算高次幂。若 A=PΛP−1,则
Ak=PΛkP−1=Pdiag(λ1k,…,λnk)P−1
中间一堆 P−1P 抵消,只剩对角阵逐元素取 k 次幂,瞬间把「矩阵连乘」化成了「数的乘方」。
例:求 A=(1120) 的 n 次幂。特征方程 λ2−λ−2=0,根 λ1=2,λ2=−1。对 λ1=2:(A−2E)x=0 即 (−112−2)x=0,得 ξ1=(2,1)T;对 λ2=−1:(2121)x=0,得 ξ2=(1,−1)T。令
P=(211−1),P−1=−31(−1−1−12)=31(111−2)
则 An=P(2n00(−1)n)P−1。代入算:
An=31(211−1)(2n00(−1)n)(111−2)=31(2n+1+(−1)n2n−(−1)n2n+1−2(−1)n2n+2(−1)n)
验证 n=1:右边 31(4−12+14+22−2)=31(3360)=(1120)=A,无误。这样任意高次幂都能一步写出,省去逐次相乘。
n 维实向量的 内积(Inner Product):
(α,β)=αTβ=i=1∑naibi
由它定义 长度(范数)∥α∥=(α,α) 和夹角 cosθ=∥α∥∥β∥(α,β)。内积把「长度」「角度」这些几何概念带进了高维空间。满足柯西-施瓦茨不等式 ∣(α,β)∣≤∥α∥∥β∥。
若 (α,β)=0,称两向量 正交(Orthogonal,即垂直)。两两正交且都非零的向量组必 线性无关;若再都是单位向量,则称 标准正交组(规范正交组)。标准正交基是最「好用」的基 —— 求坐标只需做内积,无需解方程。
把线性无关组 α1,α2,…,αs 改造成正交组,思路是「每个新向量都减去它在已有方向上的投影分量」:
β1=α1
β2=α2−(β1,β1)(α2,β1)β1
βk=αk−i=1∑k−1(βi,βi)(αk,βi)βi
再 单位化:ei=∥βi∥βi,就得到标准正交组。式中 (βi,βi)(αk,βi)βi 就是 αk 在 βi 方向上的 正交投影,减掉它后剩下的部分自然与 βi 垂直。
例:把无关组 α1=(1,1,0)T、α2=(1,0,1)T、α3=(0,1,1)T 正交化。第一步 β1=α1=(1,1,0)T。第二步减去在 β1 上的投影,(α2,β1)=1、(β1,β1)=2:
β2=α2−21β1=(1,0,1)T−21(1,1,0)T=(21,−21,1)T
第三步减去在 β1,β2 上的投影,(α3,β1)=1,(α3,β2)=−21+1=21,(β2,β2)=41+41+1=23:
β3=α3−21β1−3/21/2β2=(0,1,1)T−21(1,1,0)T−31(21,−21,1)T=(−32,32,32)T
可验证 (β1,β2)=(β1,β3)=(β2,β3)=0,三者两两正交。再各自除以长度即得标准正交组。
若方阵 Q 满足
QTQ=QQT=E即Q−1=QT
则称 正交矩阵(Orthogonal Matrix)。它的列(行)向量构成标准正交组。正交矩阵代表 保持长度和角度 的变换(旋转或反射),不拉伸不扭曲,所以 ∣Q∣=±1,且 ∥Qx∥=∥x∥。
实对称矩阵(AT=A)是线代里性质最好的一类矩阵,二次型理论全靠它:
- 所有特征值都是 实数;
- 不同特征值 的特征向量自动 互相正交;
- 即使有重特征值也 必可对角化,而且能用 正交矩阵 对角化。
也就是说,存在正交矩阵 Q 使
QTAQ=Q−1AQ=Λ=diag(λ1,…,λn)
因为 Q 正交,这里 相似与合同同时成立,这正是 二次型 用正交变换化标准形的理论依据。
- 求出全部特征值与特征向量。
- 对每个 重特征值,把它的几个特征向量做 施密特正交化(不同特征值之间本就正交,无需处理)。
- 把所有特征向量 单位化,按列拼成正交矩阵 Q,则 QTAQ=Λ。
例:把实对称矩阵 A=122212221 正交对角化。前面已求出特征值 λ1=5、λ2=λ3=−1(二重),及特征向量
λ1=5: ξ1=(1,1,1)T;λ=−1: ξ2=(−1,1,0)T, ξ3=(−1,0,1)T
ξ1 与 ξ2,ξ3 分属不同特征值,自动正交,无需处理。但 ξ2,ξ3 同属 λ=−1,彼此 不正交((ξ2,ξ3)=1=0),要对它们做施密特正交化。取 η2=ξ2=(−1,1,0)T,
η3=ξ3−(η2,η2)(ξ3,η2)η2=(−1,0,1)T−21(−1,1,0)T=(−21,−21,1)T
现在 ξ1,η2,η3 两两正交。各自单位化(长度依次为 3,2,3/2),按列拼成
Q=313131−21210−61−6162,QTAQ=5−1−1
注意第三列:η3=(−21,−21,1)T 长度 41+41+1=3/2,单位化后乘 2/3 得 (−61,−61,62)T。这套「不同特征值天然正交、同特征值内部施密特」的分工,是正交对角化省力的关键。