Skip to main content

特征值与相似矩阵

参考资料

引入

把矩阵 AA 看作一个 线性变换。大多数向量经过 AA 之后既被拉伸又被转向,方向变了。但有些特殊向量,变换只把它 沿原方向伸缩、不改变方向 —— 这些方向不变的向量就是 特征向量,伸缩的倍数就是 特征值

Aξ=λξA\vec\xi=\lambda\vec\xi

它们是变换的「天然坐标轴」。沿着这些轴看,复杂的矩阵变换被 分解成各方向上简单的独立伸缩,这正是线代后半段的核心思想,也是 PCA、振动分析、量子力学的共同语言。

特征值与特征向量

定义

AAnn 阶方阵。若存在数 λ\lambda非零向量 ξ\vec\xi 使

Aξ=λξA\vec\xi=\lambda\vec\xi

λ\lambda 称为 AA特征值(Eigenvalue),ξ\vec\xi 称为对应于 λ\lambda特征向量(Eigenvector)。

注意 ξ\vec\xi 必须非零(0\vec 0 对任何 λ\lambda 都成立,没有意义),而 λ\lambda 可以为 00λ=0\lambda=0 意味着 AA 把这个方向压成原点,对应 AA 不可逆)。特征向量不唯一:它的任意非零倍数仍是特征向量,整条「特征方向」上的向量同进退。

求解

把定义改写成 (AλE)ξ=0(A-\lambda E)\vec\xi=\vec 0。要它有 非零解,系数矩阵必须不可逆,于是得 特征方程(Characteristic Equation):

AλE=0|A-\lambda E|=0

展开左边得到一个关于 λ\lambdann 次多项式,称为 特征多项式(Characteristic Polynomial)。求根得到全部特征值;再对每个 λi\lambda_i 解齐次方程 (AλiE)x=0(A-\lambda_i E)\vec x=\vec 0,其基础解系就是对应的特征向量。

tip

步骤很固定:先解特征方程求 λ\lambda,再回代解齐次方程求 ξ\vec\xi 一个 λ\lambda 对应的特征向量构成一个子空间(特征子空间),它就是 (AλE)(A-\lambda E) 的零空间,取它的基础解系即可。

例:求 A=(210121012)A=\begin{pmatrix}2&-1&0\\-1&2&-1\\0&-1&2\end{pmatrix} 的特征值与特征向量。先写特征多项式(按第一行展开):

AλE=2λ1012λ1012λ=(2λ)[(2λ)21](1)[(2λ)]|A-\lambda E|=\begin{vmatrix}2-\lambda&-1&0\\-1&2-\lambda&-1\\0&-1&2-\lambda\end{vmatrix}=(2-\lambda)\big[(2-\lambda)^2-1\big]-(-1)\big[-(2-\lambda)\big]

整理得 (2λ)[(2λ)22]=0(2-\lambda)\big[(2-\lambda)^2-2\big]=0。令 μ=2λ\mu=2-\lambdaμ(μ22)=0\mu(\mu^2-2)=0,故 μ=0,±2\mu=0,\pm\sqrt2,对应

λ1=2,λ2=22,λ3=2+2\lambda_1=2,\quad \lambda_2=2-\sqrt2,\quad \lambda_3=2+\sqrt2

三个互异。自检:之和 λ1+λ2+λ3=6=tr(A)\lambda_1+\lambda_2+\lambda_3=6=\operatorname{tr}(A),吻合。再逐个回代解 (AλE)x=0(A-\lambda E)\vec x=\vec 0。对 λ1=2\lambda_1=2

A2E=(010101010)行变换(101010000)A-2E=\begin{pmatrix}0&-1&0\\-1&0&-1\\0&-1&0\end{pmatrix} \xrightarrow{\text{行变换}} \begin{pmatrix}1&0&1\\0&1&0\\0&0&0\end{pmatrix}

x2=0x_2=0x1=x3x_1=-x_3,取 ξ1=(1,0,1)T\vec\xi_1=(1,0,-1)^T。对 λ=22\lambda=2\mp\sqrt2 同理解出 ξ2,3=(1,±2,1)T\vec\xi_{2,3}=(1,\pm\sqrt2,1)^T(这里 λ2=22\lambda_2=2-\sqrt2(1,2,1)T(1,\sqrt2,1)^Tλ3=2+2\lambda_3=2+\sqrt2(1,2,1)T(1,-\sqrt2,1)^T)。每个特征向量乘任意非零数仍是特征向量。

例(含重根):求 B=(200120003)B=\begin{pmatrix}2&0&0\\1&2&0\\0&0&3\end{pmatrix} 的特征值与特征向量。它是下三角,特征值就是对角元 λ=2\lambda=2(二重)、λ=3\lambda=3。对 λ=2\lambda=2

B2E=(000100001)B-2E=\begin{pmatrix}0&0&0\\1&0&0\\0&0&1\end{pmatrix}

秩为 22,解空间维数 32=13-2=1,只解出一个 ξ=(0,1,0)T\vec\xi=(0,1,0)^T。二重特征值却只有 11 个线性无关特征向量——这正是后面「不可对角化」的信号。

特征值与迹、行列式

AAnn 个特征值为 λ1,,λn\lambda_1,\dots,\lambda_n(计重数),则

i=1nλi=tr(A)=i=1naii,i=1nλi=A\sum_{i=1}^{n}\lambda_i=\operatorname{tr}(A)=\sum_{i=1}^{n}a_{ii},\qquad \prod_{i=1}^{n}\lambda_i=|A|

特征值之和等于 (对角线元素之和),之积等于 行列式。这两条来自特征多项式的韦达定理,是验算特征值时的快速自检 —— 算完一定要核对这两个等式。也立刻看出:AA 可逆     \iff 所有特征值非零。

矩阵变换下特征值的变化

矩阵特征值
AAλ\lambda
kAkAkλk\lambda
AmA^mλm\lambda^m
A1A^{-1}AA 可逆)1λ\dfrac{1}{\lambda}
A+kEA+kEλ+k\lambda+k
ATA^Tλ\lambda(与 AA 相同)
f(A)f(A)f(λ)f(\lambda)

只要 ξ\vec\xiAA 对应 λ\lambda 的特征向量,它在以上所有变换下 仍是特征向量,只是特征值按表中规律改变。例如 A2ξ=A(λξ)=λ2ξA^2\vec\xi=A(\lambda\vec\xi)=\lambda^2\vec\xi。注意 ATA^TAA 特征值相同,但特征向量一般 不同

重要结论

  • 不同特征值 对应的特征向量 线性无关
  • λ\lambdakk 重特征值(代数重数kk),则它的线性无关特征向量个数(几何重数)满足 11\le 几何重数 k\le k
  • 几何重数 == nr(AλE)n-r(A-\lambda E),即特征子空间的维数。

代数重数与几何重数是否相等,正是下面能否对角化的关键。

相似矩阵

定义

若存在 可逆矩阵 PP 使

P1AP=BP^{-1}AP=B

则称 AA 相似于 BB,记为 ABA\sim B。相似是一种等价关系(自反、对称、传递)。

tip

相似的本质:AABB 是同一个线性变换在不同基下的矩阵表示。 PP 就是两组基之间的 过渡矩阵。换个基底看同一个变换,矩阵的「长相」变了,但它描述的几何动作没变 —— 所以下面这些 不变量 才会保持一致。

相似不变量

相似矩阵共享许多量(这些量只依赖变换本身,不依赖坐标系):

  • 特征多项式与 特征值(含重数);
  • 行列式 A=B|A|=|B| tr(A)=tr(B)\operatorname{tr}(A)=\operatorname{tr}(B)
  • r(A)=r(B)r(A)=r(B)可逆性

反过来要小心:特征值全相同 不一定 相似(还要看几何重数是否一致)。

相似对角化

定义

AA 相似于某个对角阵 Λ\Lambda,即存在可逆 PP 使 P1AP=ΛP^{-1}AP=\Lambda,则称 AA对角化(Diagonalizable)。对角化就是给变换找一组「特征方向」当基,让它在这组基下变成最简单的「各轴独立缩放」。

充要条件

A 可对角化    A 有 n 个线性无关的特征向量A\ \text{可对角化}\iff A\ \text{有 }n\text{ 个线性无关的特征向量}

等价表述:每个特征值的几何重数都等于代数重数(即 kk 重特征值恰好对应 kk 个线性无关特征向量)。两个充分条件值得记住:

  • AAnn互不相同 的特征值,则必可对角化。
  • 实对称矩阵 一定可对角化(见下文)。

而像 (0100)\begin{pmatrix}0&1\\0&0\end{pmatrix} 这种二重特征值 00 却只有一个特征向量的矩阵,就 不可对角化

例(判定能否对角化):A=(122212221)A=\begin{pmatrix}1&2&2\\2&1&2\\2&2&1\end{pmatrix} 能否对角化?特征多项式 AλE=(λ5)(λ+1)2|A-\lambda E|=-(\lambda-5)(\lambda+1)^2,特征值 λ1=5\lambda_1=5(单根)、λ2=1\lambda_2=-1(二重)。单根的几何重数必为 11,关键看二重根 λ=1\lambda=-1

A(1)E=A+E=(222222222)A-(-1)E=A+E=\begin{pmatrix}2&2&2\\2&2&2\\2&2&2\end{pmatrix}

秩为 11,几何重数 =3r=31=2=3-r=3-1=2,恰好等于代数重数 22。两个重数都对得上,故 AA 可对角化λ=1\lambda=-1 的特征子空间取基础解系 (1,1,0)T,(1,0,1)T(-1,1,0)^T,(-1,0,1)^T,配上 λ=5\lambda=5(1,1,1)T(1,1,1)^T,凑齐 33 个线性无关特征向量。

例(不可对角化):B=(3103)B=\begin{pmatrix}3&1\\0&3\end{pmatrix}。特征值 λ=3\lambda=3(二重),B3E=(0100)B-3E=\begin{pmatrix}0&1\\0&0\end{pmatrix} 秩为 11,几何重数 =21=1<2=2-1=1<2。重数对不上,BB 不可对角化——这种「上三角带非零上元」的矩阵已是若尔当块,无法再化简。

对角化步骤

  1. AλE=0|A-\lambda E|=0 求出全部特征值 λ1,,λn\lambda_1,\dots,\lambda_n
  2. 对每个 λi\lambda_i(AλiE)x=0(A-\lambda_i E)\vec x=\vec 0 求特征向量。
  3. 若凑齐 nn 个线性无关特征向量 ξ1,,ξn\vec\xi_1,\dots,\vec\xi_n,令 P=(ξ1,,ξn)P=(\vec\xi_1,\dots,\vec\xi_n),则
P1AP=diag(λ1,,λn)P^{-1}AP=\operatorname{diag}(\lambda_1,\dots,\lambda_n)

特征值的排列顺序要和 PP 中特征向量的列顺序 一一对应

应用:求矩阵的幂

对角化最实用的去处是算高次幂。若 A=PΛP1A=P\Lambda P^{-1},则

Ak=PΛkP1=Pdiag(λ1k,,λnk)P1A^k=P\Lambda^k P^{-1}=P\operatorname{diag}(\lambda_1^k,\dots,\lambda_n^k)P^{-1}

中间一堆 P1PP^{-1}P 抵消,只剩对角阵逐元素取 kk 次幂,瞬间把「矩阵连乘」化成了「数的乘方」。

例:求 A=(1210)A=\begin{pmatrix}1&2\\1&0\end{pmatrix}nn 次幂。特征方程 λ2λ2=0\lambda^2-\lambda-2=0,根 λ1=2,λ2=1\lambda_1=2,\lambda_2=-1。对 λ1=2\lambda_1=2(A2E)x=0(A-2E)\vec x=\vec 0(1212)x=0\begin{pmatrix}-1&2\\1&-2\end{pmatrix}\vec x=\vec0,得 ξ1=(2,1)T\vec\xi_1=(2,1)^T;对 λ2=1\lambda_2=-1(2211)x=0\begin{pmatrix}2&2\\1&1\end{pmatrix}\vec x=\vec0,得 ξ2=(1,1)T\vec\xi_2=(1,-1)^T。令

P=(2111),P1=13(1112)=13(1112)P=\begin{pmatrix}2&1\\1&-1\end{pmatrix},\quad P^{-1}=\frac{1}{-3}\begin{pmatrix}-1&-1\\-1&2\end{pmatrix}=\frac13\begin{pmatrix}1&1\\1&-2\end{pmatrix}

An=P(2n00(1)n)P1A^n=P\begin{pmatrix}2^n&0\\0&(-1)^n\end{pmatrix}P^{-1}。代入算:

An=13(2111)(2n00(1)n)(1112)=13(2n+1+(1)n2n+12(1)n2n(1)n2n+2(1)n)A^n=\frac13\begin{pmatrix}2&1\\1&-1\end{pmatrix}\begin{pmatrix}2^n&0\\0&(-1)^n\end{pmatrix}\begin{pmatrix}1&1\\1&-2\end{pmatrix} =\frac13\begin{pmatrix}2^{n+1}+(-1)^n&2^{n+1}-2(-1)^n\\2^n-(-1)^n&2^n+2(-1)^n\end{pmatrix}

验证 n=1n=1:右边 13(414+22+122)=13(3630)=(1210)=A\frac13\begin{pmatrix}4-1&4+2\\2+1&2-2\end{pmatrix}=\frac13\begin{pmatrix}3&6\\3&0\end{pmatrix}=\begin{pmatrix}1&2\\1&0\end{pmatrix}=A,无误。这样任意高次幂都能一步写出,省去逐次相乘。

向量的内积与正交

内积、长度、夹角

nn 维实向量的 内积(Inner Product):

(α,β)=αTβ=i=1naibi(\vec\alpha,\vec\beta)=\vec\alpha^T\vec\beta=\sum_{i=1}^{n}a_ib_i

由它定义 长度(范数)α=(α,α)\|\vec\alpha\|=\sqrt{(\vec\alpha,\vec\alpha)} 和夹角 cosθ=(α,β)αβ\cos\theta=\dfrac{(\vec\alpha,\vec\beta)}{\|\vec\alpha\|\,\|\vec\beta\|}。内积把「长度」「角度」这些几何概念带进了高维空间。满足柯西-施瓦茨不等式 (α,β)αβ|(\vec\alpha,\vec\beta)|\le\|\vec\alpha\|\,\|\vec\beta\|

正交

(α,β)=0(\vec\alpha,\vec\beta)=0,称两向量 正交(Orthogonal,即垂直)。两两正交且都非零的向量组必 线性无关;若再都是单位向量,则称 标准正交组(规范正交组)。标准正交基是最「好用」的基 —— 求坐标只需做内积,无需解方程。

施密特正交化

把线性无关组 α1,α2,,αs\vec\alpha_1,\vec\alpha_2,\dots,\vec\alpha_s 改造成正交组,思路是「每个新向量都减去它在已有方向上的投影分量」:

β1=α1\vec\beta_1=\vec\alpha_1 β2=α2(α2,β1)(β1,β1)β1\vec\beta_2=\vec\alpha_2-\frac{(\vec\alpha_2,\vec\beta_1)}{(\vec\beta_1,\vec\beta_1)}\vec\beta_1 βk=αki=1k1(αk,βi)(βi,βi)βi\vec\beta_k=\vec\alpha_k-\sum_{i=1}^{k-1}\frac{(\vec\alpha_k,\vec\beta_i)}{(\vec\beta_i,\vec\beta_i)}\vec\beta_i

单位化ei=βiβi\vec e_i=\dfrac{\vec\beta_i}{\|\vec\beta_i\|},就得到标准正交组。式中 (αk,βi)(βi,βi)βi\dfrac{(\vec\alpha_k,\vec\beta_i)}{(\vec\beta_i,\vec\beta_i)}\vec\beta_i 就是 αk\vec\alpha_kβi\vec\beta_i 方向上的 正交投影,减掉它后剩下的部分自然与 βi\vec\beta_i 垂直。

例:把无关组 α1=(1,1,0)T\vec\alpha_1=(1,1,0)^Tα2=(1,0,1)T\vec\alpha_2=(1,0,1)^Tα3=(0,1,1)T\vec\alpha_3=(0,1,1)^T 正交化。第一步 β1=α1=(1,1,0)T\vec\beta_1=\vec\alpha_1=(1,1,0)^T。第二步减去在 β1\vec\beta_1 上的投影,(α2,β1)=1(\vec\alpha_2,\vec\beta_1)=1(β1,β1)=2(\vec\beta_1,\vec\beta_1)=2

β2=α212β1=(1,0,1)T12(1,1,0)T=(12,12,1)T\vec\beta_2=\vec\alpha_2-\frac12\vec\beta_1=(1,0,1)^T-\frac12(1,1,0)^T=\left(\tfrac12,-\tfrac12,1\right)^T

第三步减去在 β1,β2\vec\beta_1,\vec\beta_2 上的投影,(α3,β1)=1(\vec\alpha_3,\vec\beta_1)=1(α3,β2)=12+1=12(\vec\alpha_3,\vec\beta_2)=-\frac12+1=\frac12(β2,β2)=14+14+1=32(\vec\beta_2,\vec\beta_2)=\frac14+\frac14+1=\frac32

β3=α312β11/23/2β2=(0,1,1)T12(1,1,0)T13(12,12,1)T=(23,23,23)T\vec\beta_3=\vec\alpha_3-\frac12\vec\beta_1-\frac{1/2}{3/2}\vec\beta_2=(0,1,1)^T-\frac12(1,1,0)^T-\frac13\left(\tfrac12,-\tfrac12,1\right)^T=\left(-\tfrac23,\tfrac23,\tfrac23\right)^T

可验证 (β1,β2)=(β1,β3)=(β2,β3)=0(\vec\beta_1,\vec\beta_2)=(\vec\beta_1,\vec\beta_3)=(\vec\beta_2,\vec\beta_3)=0,三者两两正交。再各自除以长度即得标准正交组。

正交矩阵

若方阵 QQ 满足

QTQ=QQT=EQ1=QTQ^TQ=QQ^T=E\quad\text{即}\quad Q^{-1}=Q^T

则称 正交矩阵(Orthogonal Matrix)。它的列(行)向量构成标准正交组。正交矩阵代表 保持长度和角度 的变换(旋转或反射),不拉伸不扭曲,所以 Q=±1|Q|=\pm 1,且 Qx=x\|Q\vec x\|=\|\vec x\|

实对称矩阵

实对称矩阵(AT=AA^T=A)是线代里性质最好的一类矩阵,二次型理论全靠它:

  • 所有特征值都是 实数
  • 不同特征值 的特征向量自动 互相正交
  • 即使有重特征值也 必可对角化,而且能用 正交矩阵 对角化。

也就是说,存在正交矩阵 QQ 使

QTAQ=Q1AQ=Λ=diag(λ1,,λn)Q^TAQ=Q^{-1}AQ=\Lambda=\operatorname{diag}(\lambda_1,\dots,\lambda_n)

因为 QQ 正交,这里 相似与合同同时成立,这正是 二次型 用正交变换化标准形的理论依据。

正交对角化步骤

  1. 求出全部特征值与特征向量。
  2. 对每个 重特征值,把它的几个特征向量做 施密特正交化(不同特征值之间本就正交,无需处理)。
  3. 把所有特征向量 单位化,按列拼成正交矩阵 QQ,则 QTAQ=ΛQ^TAQ=\Lambda

例:把实对称矩阵 A=(122212221)A=\begin{pmatrix}1&2&2\\2&1&2\\2&2&1\end{pmatrix} 正交对角化。前面已求出特征值 λ1=5\lambda_1=5λ2=λ3=1\lambda_2=\lambda_3=-1(二重),及特征向量

λ1=5: ξ1=(1,1,1)T;λ=1: ξ2=(1,1,0)T, ξ3=(1,0,1)T\lambda_1=5:\ \vec\xi_1=(1,1,1)^T;\qquad \lambda=-1:\ \vec\xi_2=(-1,1,0)^T,\ \vec\xi_3=(-1,0,1)^T

ξ1\vec\xi_1ξ2,ξ3\vec\xi_2,\vec\xi_3 分属不同特征值,自动正交,无需处理。但 ξ2,ξ3\vec\xi_2,\vec\xi_3 同属 λ=1\lambda=-1,彼此 不正交(ξ2,ξ3)=10(\vec\xi_2,\vec\xi_3)=1\ne0),要对它们做施密特正交化。取 η2=ξ2=(1,1,0)T\vec\eta_2=\vec\xi_2=(-1,1,0)^T

η3=ξ3(ξ3,η2)(η2,η2)η2=(1,0,1)T12(1,1,0)T=(12,12,1)T\vec\eta_3=\vec\xi_3-\frac{(\vec\xi_3,\vec\eta_2)}{(\vec\eta_2,\vec\eta_2)}\vec\eta_2=(-1,0,1)^T-\frac{1}{2}(-1,1,0)^T=\left(-\tfrac12,-\tfrac12,1\right)^T

现在 ξ1,η2,η3\vec\xi_1,\vec\eta_2,\vec\eta_3 两两正交。各自单位化(长度依次为 3,2,3/2\sqrt3,\sqrt2,\sqrt{3/2}),按列拼成

Q=(13121613121613026),QTAQ=(511)Q=\begin{pmatrix}\frac{1}{\sqrt3}&-\frac{1}{\sqrt2}&-\frac{1}{\sqrt6}\\[2pt]\frac{1}{\sqrt3}&\frac{1}{\sqrt2}&-\frac{1}{\sqrt6}\\[2pt]\frac{1}{\sqrt3}&0&\frac{2}{\sqrt6}\end{pmatrix},\qquad Q^TAQ=\begin{pmatrix}5&&\\&-1&\\&&-1\end{pmatrix}

注意第三列:η3=(12,12,1)T\vec\eta_3=(-\frac12,-\frac12,1)^T 长度 14+14+1=3/2\sqrt{\frac14+\frac14+1}=\sqrt{3/2},单位化后乘 2/3\sqrt{2/3}(16,16,26)T(-\frac{1}{\sqrt6},-\frac{1}{\sqrt6},\frac{2}{\sqrt6})^T。这套「不同特征值天然正交、同特征值内部施密特」的分工,是正交对角化省力的关键。