特征值与相似矩阵

参考资料

引入

把矩阵 $A$ 看作一个 线性变换。大多数向量经过 $A$ 之后既被拉伸又被转向，方向变了。但有些特殊向量，变换只把它 沿原方向伸缩、不改变方向 —— 这些方向不变的向量就是 特征向量，伸缩的倍数就是 特征值：

A\vec\xi=\lambda\vec\xi

它们是变换的「天然坐标轴」。沿着这些轴看，复杂的矩阵变换被 分解成各方向上简单的独立伸缩，这正是线代后半段的核心思想，也是 PCA、振动分析、量子力学的共同语言。

特征值与特征向量

定义

设 $A$ 为 $n$ 阶方阵。若存在数 $\lambda$ 和 非零向量 $\vec\xi$ 使：

A\vec\xi=\lambda\vec\xi

则 $\lambda$ 称为 $A$ 的 特征值（Eigenvalue）， $\vec\xi$ 称为对应于 $\lambda$ 的 特征向量（Eigenvector）。

注意 $\vec\xi$ 必须非零（ $\vec 0$ 对任何 $\lambda$ 都成立，没有意义），而 $\lambda$ 可以为 $0$ （ $\lambda=0$ 意味着 $A$ 把这个方向压成原点，对应 $A$ 不可逆）。特征向量不唯一：它的任意非零倍数仍是特征向量，整条「特征方向」上的向量同进退。

求解

把定义改写成 $(A-\lambda E)\vec\xi=\vec 0$ 。要它有 非零解，系数矩阵必须不可逆，于是得 特征方程（Characteristic Equation）：

|A-\lambda E|=0

展开左边得到一个关于 $\lambda$ 的 $n$ 次多项式，称为 特征多项式（Characteristic Polynomial）。求根得到全部特征值；再对每个 $\lambda_i$ 解齐次方程 $(A-\lambda_i E)\vec x=\vec 0$ ，其基础解系就是对应的特征向量。

tip

步骤很固定：先解特征方程求 $\lambda$ ，再回代解齐次方程求 $\vec\xi$ 。 一个 $\lambda$ 对应的特征向量构成一个子空间（特征子空间），它就是 $(A-\lambda E)$ 的零空间，取它的基础解系即可。

例：求 $A=\begin{pmatrix}2&-1&0\\-1&2&-1\\0&-1&2\end{pmatrix}$ 的特征值与特征向量。先写特征多项式（按第一行展开）：

|A-\lambda E|=\begin{vmatrix} 2-\lambda & -1 & 0 \\ -1 & 2-\lambda & -1 \\ 0 & -1 & 2-\lambda \end{vmatrix}=(2-\lambda)\big[(2-\lambda)^2-1\big]-(-1)\big[-(2-\lambda)\big]

整理得 $(2-\lambda)\big[(2-\lambda)^2-2\big]=0$ 。令 $\mu=2-\lambda$ 即 $\mu(\mu^2-2)=0$ ，故 $\mu=0,\pm\sqrt2$ ，对应：

\lambda_1=2,\lambda_2=2-\sqrt2,\lambda_3=2+\sqrt2

三个互异。自检：之和 $\lambda_1+\lambda_2+\lambda_3=6=\operatorname{tr}(A)$ ，吻合。再逐个回代解 $(A-\lambda E)\vec x=\vec 0$ 。对 $\lambda_1=2$ ：

A-2E=\begin{pmatrix} 0 & -1 & 0 \\ -1 & 0 & -1 \\ 0 & -1 & 0 \end{pmatrix} \xrightarrow{\text{行变换}} \begin{pmatrix} 1 & 0 & 1 \\ 0 & 1 & 0 \\ 0 & 0 & 0 \end{pmatrix}

得 $x_2=0$ 、 $x_1=-x_3$ ，取 $\vec\xi_1=(1,0,-1)^T$ 。对 $\lambda=2\mp\sqrt2$ 同理解出 $\vec\xi_{2,3}=(1,\pm\sqrt2,1)^T$ （这里 $\lambda_2=2-\sqrt2$ 配 $(1,\sqrt2,1)^T$ ， $\lambda_3=2+\sqrt2$ 配 $(1,-\sqrt2,1)^T$ ）。每个特征向量乘任意非零数仍是特征向量。

例（含重根）：求 $B=\begin{pmatrix}2&0&0\\1&2&0\\0&0&3\end{pmatrix}$ 的特征值与特征向量。它是下三角，特征值就是对角元 $\lambda=2$ （二重）、 $\lambda=3$ 。对 $\lambda=2$ ：

B-2E=\begin{pmatrix} 0 & 0 & 0 \\ 1 & 0 & 0 \\ 0 & 0 & 1 \end{pmatrix}

秩为 $2$ ，解空间维数 $3-2=1$ ，只解出一个 $\vec\xi=(0,1,0)^T$ 。二重特征值却只有 $1$ 个线性无关特征向量——这正是后面「不可对角化」的信号。

特征值与迹、行列式

设 $A$ 的 $n$ 个特征值为 $\lambda_1,\dots,\lambda_n$ （计重数），则：

\sum_{i=1}^n\lambda_i=\operatorname{tr}(A)=\sum_{i=1}^na_{ii},\prod_{i=1}^n\lambda_i=|A|

特征值之和等于迹（对角线元素之和），之积等于 行列式。这两条来自特征多项式的韦达定理，是验算特征值时的快速自检 —— 算完一定要核对这两个等式。也立刻看出： $A$ 可逆 $\iff$ 所有特征值非零。

矩阵变换下特征值的变化

矩阵	特征值
$A$	$\lambda$
$kA$	$k\lambda$
$A^m$	$\lambda^m$
$A^{-1}$ （ $A$ 可逆）	$\dfrac{1}{\lambda}$
$A+kE$	$\lambda+k$
$A^T$	$\lambda$ （与 $A$ 相同）
$f(A)$	$f(\lambda)$

只要 $\vec\xi$ 是 $A$ 对应 $\lambda$ 的特征向量，它在以上所有变换下 仍是特征向量，只是特征值按表中规律改变。例如 $A^2\vec\xi=A(\lambda\vec\xi)=\lambda^2\vec\xi$ 。注意 $A^T$ 与 $A$ 特征值相同，但特征向量一般不同。

重要结论

不同特征值 对应的特征向量 线性无关。
设 $\lambda$ 是 $k$ 重特征值（代数重数 为 $k$ ），则它的线性无关特征向量个数（几何重数）满足 $1\le$ 几何重数 $\le k$ 。
几何重数 $=$ $n-r(A-\lambda E)$ ，即特征子空间的维数。

代数重数与几何重数是否相等，正是下面能否对角化的关键。

相似矩阵

定义

若存在 可逆矩阵 $P$ 使：

P^{-1}AP=B

则称 $A$ 相似于 $B$ ，记为 $A\sim B$ 。相似是一种等价关系（自反、对称、传递）。

tip

相似的本质： $A$ 与 $B$ 是同一个线性变换在不同基下的矩阵表示。 $P$ 就是两组基之间的 过渡矩阵。换个基底看同一个变换，矩阵的「长相」变了，但它描述的几何动作没变 —— 所以下面这些 不变量 才会保持一致。

相似不变量

相似矩阵共享许多量（这些量只依赖变换本身，不依赖坐标系）：

特征多项式与 特征值（含重数）；
行列式 $|A|=|B|$ 、迹 $\operatorname{tr}(A)=\operatorname{tr}(B)$ ；
秩 $r(A)=r(B)$ 、可逆性。

反过来要小心：特征值全相同 不一定 相似（还要看几何重数是否一致）。

相似对角化

定义

若 $A$ 相似于某个对角阵 $\Lambda$ ，即存在可逆 $P$ 使 $P^{-1}AP=\Lambda$ ，则称 $A$ 可 对角化（Diagonalizable）。对角化就是给变换找一组「特征方向」当基，让它在这组基下变成最简单的「各轴独立缩放」。

充要条件

A\text{可对角化}\iff A\text{有 }n\text{ 个线性无关的特征向量}

等价表述：每个特征值的几何重数都等于代数重数（即 $k$ 重特征值恰好对应 $k$ 个线性无关特征向量）。两个充分条件值得记住：

若 $A$ 有 $n$ 个 互不相同 的特征值，则必可对角化。
实对称矩阵 一定可对角化（见下文）。

而像 $\begin{pmatrix}0&1\\0&0\end{pmatrix}$ 这种二重特征值 $0$ 却只有一个特征向量的矩阵，就 不可对角化。

例（判定能否对角化）： $A=\begin{pmatrix}1&2&2\\2&1&2\\2&2&1\end{pmatrix}$ 能否对角化？特征多项式 $|A-\lambda E|=-(\lambda-5)(\lambda+1)^2$ ，特征值 $\lambda_1=5$ （单根）、 $\lambda_2=-1$ （二重）。单根的几何重数必为 $1$ ，关键看二重根 $\lambda=-1$ ：

A-(-1)E=A+E=\begin{pmatrix} 2 & 2 & 2 \\ 2 & 2 & 2 \\ 2 & 2 & 2 \end{pmatrix}

秩为 $1$ ，几何重数 $=3-r=3-1=2$ ，恰好等于代数重数 $2$ 。两个重数都对得上，故 $A$ 可对角化。 $\lambda=-1$ 的特征子空间取基础解系 $(-1,1,0)^T,(-1,0,1)^T$ ，配上 $\lambda=5$ 的 $(1,1,1)^T$ ，凑齐 $3$ 个线性无关特征向量。

例（不可对角化）： $B=\begin{pmatrix}3&1\\0&3\end{pmatrix}$ 。特征值 $\lambda=3$ （二重）， $B-3E=\begin{pmatrix}0&1\\0&0\end{pmatrix}$ 秩为 $1$ ，几何重数 $=2-1=1<2$ 。重数对不上， $B$ 不可对角化——这种「上三角带非零上元」的矩阵已是若尔当块，无法再化简。

对角化步骤

由 $|A-\lambda E|=0$ 求出全部特征值 $\lambda_1,\dots,\lambda_n$ 。
对每个 $\lambda_i$ 解 $(A-\lambda_i E)\vec x=\vec 0$ 求特征向量。
若凑齐 $n$ 个线性无关特征向量 $\vec\xi_1,\dots,\vec\xi_n$ ，令 $P=(\vec\xi_1,\dots,\vec\xi_n)$ ，则：

P^{-1}AP=\operatorname{diag}(\lambda_1,\dots,\lambda_n)

特征值的排列顺序要和 $P$ 中特征向量的列顺序 一一对应。

应用：求矩阵的幂

对角化最实用的去处是算高次幂。若 $A=P\Lambda P^{-1}$ ，则：

A^k=P\Lambda^k P^{-1}=P\operatorname{diag}(\lambda_1^k,\dots,\lambda_n^k)P^{-1}

中间一堆 $P^{-1}P$ 抵消，只剩对角阵逐元素取 $k$ 次幂，瞬间把「矩阵连乘」化成了「数的乘方」。

例：求 $A=\begin{pmatrix}1&2\\1&0\end{pmatrix}$ 的 $n$ 次幂。特征方程 $\lambda^2-\lambda-2=0$ ，根 $\lambda_1=2,\lambda_2=-1$ 。对 $\lambda_1=2$ ： $(A-2E)\vec x=\vec 0$ 即 $\begin{pmatrix}-1&2\\1&-2\end{pmatrix}\vec x=\vec0$ ，得 $\vec\xi_1=(2,1)^T$ ；对 $\lambda_2=-1$ ： $\begin{pmatrix}2&2\\1&1\end{pmatrix}\vec x=\vec0$ ，得 $\vec\xi_2=(1,-1)^T$ 。令：

P=\begin{pmatrix} 2 & 1 \\ 1 & -1 \end{pmatrix},P^{-1}=\frac{1}{-3}\begin{pmatrix} -1 & -1 \\ -1 & 2 \end{pmatrix}=\frac{1}{3}\begin{pmatrix} 1 & 1 \\ 1 & -2 \end{pmatrix}

则 $A^n=P\begin{pmatrix}2^n&0\\0&(-1)^n\end{pmatrix}P^{-1}$ 。代入算：

A^n=\frac{1}{3}\begin{pmatrix} 2 & 1 \\ 1 & -1 \end{pmatrix}\begin{pmatrix} 2^n & 0 \\ 0 & (-1)^n \end{pmatrix}\begin{pmatrix} 1 & 1 \\ 1 & -2 \end{pmatrix} =\frac{1}{3}\begin{pmatrix} 2^{n+1}+(-1)^n & 2^{n+1}-2(-1)^n \\ 2^n-(-1)^n & 2^n+2(-1)^n \end{pmatrix}

验证 $n=1$ ：右边 $\frac{1}{3}\begin{pmatrix}4-1&4+2\\2+1&2-2\end{pmatrix}=\frac{1}{3}\begin{pmatrix}3&6\\3&0\end{pmatrix}=\begin{pmatrix}1&2\\1&0\end{pmatrix}=A$ ，无误。这样任意高次幂都能一步写出，省去逐次相乘。

向量的内积与正交

内积、长度、夹角

$n$ 维实向量的内积（Inner Product）：

(\vec\alpha,\vec\beta)=\vec\alpha^T\vec\beta=\sum_{i=1}^na_ib_i

由它定义长度（范数） $\|\vec\alpha\|=\sqrt{(\vec\alpha,\vec\alpha)}$ 和夹角 $\cos\theta=\dfrac{(\vec\alpha,\vec\beta)}{\|\vec\alpha\|\|\vec\beta\|}$ 。内积把「长度」「角度」这些几何概念带进了高维空间。满足柯西-施瓦茨不等式 $|(\vec\alpha,\vec\beta)|\le\|\vec\alpha\|\|\vec\beta\|$ 。

正交

若 $(\vec\alpha,\vec\beta)=0$ ，称两向量正交（Orthogonal，即垂直）。两两正交且都非零的向量组必 线性无关；若再都是单位向量，则称 标准正交组（规范正交组）。标准正交基是最「好用」的基 —— 求坐标只需做内积，无需解方程。

施密特正交化

把线性无关组 $\vec\alpha_1,\vec\alpha_2,\dots,\vec\alpha_s$ 改造成正交组，思路是「每个新向量都减去它在已有方向上的投影分量」：

\vec\beta_1=\vec\alpha_1

\vec\beta_2=\vec\alpha_2-\frac{(\vec\alpha_2,\vec\beta_1)}{(\vec\beta_1,\vec\beta_1)}\vec\beta_1

\vec\beta_k=\vec\alpha_k-\sum_{i=1}^{k-1}\frac{(\vec\alpha_k,\vec\beta_i)}{(\vec\beta_i,\vec\beta_i)}\vec\beta_i

再 单位化： $\vec e_i=\dfrac{\vec\beta_i}{\|\vec\beta_i\|}$ ，就得到标准正交组。式中 $\dfrac{(\vec\alpha_k,\vec\beta_i)}{(\vec\beta_i,\vec\beta_i)}\vec\beta_i$ 就是 $\vec\alpha_k$ 在 $\vec\beta_i$ 方向上的 正交投影，减掉它后剩下的部分自然与 $\vec\beta_i$ 垂直。

例：把无关组 $\vec\alpha_1=(1,1,0)^T$ 、 $\vec\alpha_2=(1,0,1)^T$ 、 $\vec\alpha_3=(0,1,1)^T$ 正交化。第一步 $\vec\beta_1=\vec\alpha_1=(1,1,0)^T$ 。第二步减去在 $\vec\beta_1$ 上的投影， $(\vec\alpha_2,\vec\beta_1)=1$ 、 $(\vec\beta_1,\vec\beta_1)=2$ ：

\vec\beta_2=\vec\alpha_2-\frac{1}{2}\vec\beta_1=(1,0,1)^T-\frac{1}{2}(1,1,0)^T=\left(\tfrac12,-\tfrac12,1\right)^T

第三步减去在 $\vec\beta_1,\vec\beta_2$ 上的投影， $(\vec\alpha_3,\vec\beta_1)=1$ ， $(\vec\alpha_3,\vec\beta_2)=-\frac{1}{2}+1=\frac{1}{2}$ ， $(\vec\beta_2,\vec\beta_2)=\frac{1}{4}+\frac{1}{4}+1=\frac{3}{2}$ ：

\vec\beta_3=\vec\alpha_3-\frac{1}{2}\vec\beta_1-\frac{1/2}{3/2}\vec\beta_2=(0,1,1)^T-\frac{1}{2}(1,1,0)^T-\frac{1}{3}\left(\tfrac12,-\tfrac12,1\right)^T=\left(-\tfrac23,\tfrac23,\tfrac23\right)^T

可验证 $(\vec\beta_1,\vec\beta_2)=(\vec\beta_1,\vec\beta_3)=(\vec\beta_2,\vec\beta_3)=0$ ，三者两两正交。再各自除以长度即得标准正交组。

正交矩阵

若方阵 $Q$ 满足：

Q^TQ=QQ^T=E\text{ i.e. }Q^{-1}=Q^T

则称 正交矩阵（Orthogonal Matrix）。它的列（行）向量构成标准正交组。正交矩阵代表 保持长度和角度 的变换（旋转或反射），不拉伸不扭曲，所以 $|Q|=\pm 1$ ，且 $\|Q\vec x\|=\|\vec x\|$ 。

实对称矩阵

实对称矩阵（ $A^T=A$ ）是线代里性质最好的一类矩阵，二次型理论全靠它：

所有特征值都是实数；
不同特征值 的特征向量自动 互相正交；
即使有重特征值也 必可对角化，而且能用 正交矩阵 对角化。

也就是说，存在正交矩阵 $Q$ 使：

Q^TAQ=Q^{-1}AQ=\Lambda=\operatorname{diag}(\lambda_1,\dots,\lambda_n)

因为 $Q$ 正交，这里 相似与合同同时成立，这正是二次型用正交变换化标准形的理论依据。

正交对角化步骤

求出全部特征值与特征向量。
对每个 重特征值，把它的几个特征向量做 施密特正交化（不同特征值之间本就正交，无需处理）。
把所有特征向量 单位化，按列拼成正交矩阵 $Q$ ，则 $Q^TAQ=\Lambda$ 。

例：把实对称矩阵 $A=\begin{pmatrix}1&2&2\\2&1&2\\2&2&1\end{pmatrix}$ 正交对角化。前面已求出特征值 $\lambda_1=5$ 、 $\lambda_2=\lambda_3=-1$ （二重），及特征向量：

\lambda_1=5:\vec\xi_1=(1,1,1)^T;\lambda=-1:\vec\xi_2=(-1,1,0)^T,\vec\xi_3=(-1,0,1)^T

$\vec\xi_1$ 与 $\vec\xi_2,\vec\xi_3$ 分属不同特征值，自动正交，无需处理。但 $\vec\xi_2,\vec\xi_3$ 同属 $\lambda=-1$ ，彼此 不正交（ $(\vec\xi_2,\vec\xi_3)=1\ne0$ ），要对它们做施密特正交化。取 $\vec\eta_2=\vec\xi_2=(-1,1,0)^T$ ：

\vec\eta_3=\vec\xi_3-\frac{(\vec\xi_3,\vec\eta_2)}{(\vec\eta_2,\vec\eta_2)}\vec\eta_2=(-1,0,1)^T-\frac{1}{2}(-1,1,0)^T=\left(-\tfrac12,-\tfrac12,1\right)^T

现在 $\vec\xi_1,\vec\eta_2,\vec\eta_3$ 两两正交。各自单位化（长度依次为 $\sqrt3,\sqrt2,\sqrt{3/2}$ ），按列拼成：

Q=\begin{pmatrix} \frac{1}{\sqrt3} & -\frac{1}{\sqrt2} & -\frac{1}{\sqrt6} \\[2pt] \frac{1}{\sqrt3} & \frac{1}{\sqrt2} & -\frac{1}{\sqrt6} \\[2pt] \frac{1}{\sqrt3} & 0 & \frac{2}{\sqrt6} \end{pmatrix},Q^TAQ=\begin{pmatrix} 5 & & \\ & -1 & \\ & & -1 \end{pmatrix}

注意第三列： $\vec\eta_3=(-\frac{1}{2},-\frac{1}{2},1)^T$ 长度 $\sqrt{\frac{1}{4}+\frac{1}{4}+1}=\sqrt{3/2}$ ，单位化后乘 $\sqrt{2/3}$ 得 $(-\frac{1}{\sqrt6},-\frac{1}{\sqrt6},\frac{2}{\sqrt6})^T$ 。这套「不同特征值天然正交、同特征值内部施密特」的分工，是正交对角化省力的关键。

参考资料​

引入​

特征值与特征向量​

定义​

求解​

特征值与迹、行列式​

矩阵变换下特征值的变化​

重要结论​

相似矩阵​

定义​

相似不变量​

相似对角化​

定义​

充要条件​

对角化步骤​

应用：求矩阵的幂​

向量的内积与正交​

内积、长度、夹角​

正交​

施密特正交化​

正交矩阵​

实对称矩阵​

正交对角化步骤​