矩阵

参考资料

引入

矩阵（Matrix）是按 矩形阵列 排列的数表，记为 $A=(a_{ij})_{m\times n}$ ，表示 $m$ 行 $n$ 列。

矩阵有两套互相补充的直觉，学线代要随时在两者间切换：

数据表的视角：矩阵就是一张表格，每行是一个样本、每列是一个特征（或反之）。机器学习里的数据集、图像的像素网格、图的邻接矩阵都是这种用法。
线性映射的视角：一个 $m\times n$ 矩阵代表一个把 $n$ 维向量变成 $m$ 维向量的 线性变换 $\vec x\mapsto A\vec x$ 。矩阵的每一列，正是标准基向量 $\vec e_j$ 被变换后落到的位置。

线性映射的视角更深刻，它解释了所有看似古怪的运算规则。比如矩阵乘法之所以那样定义，是因为它要对应 变换的复合。

基本运算

加法与数乘

(A+B)_{ij}=a_{ij}+b_{ij},(kA)_{ij}=ka_{ij}

要求 $A,B$ 同型（行列数都相同）。加法和数乘都是 逐元素 进行的，满足交换律、结合律、分配律，规则和普通数的加法、数乘一致。

矩阵乘法

设 $A$ 为 $m\times n$ ， $B$ 为 $n\times p$ ，则乘积 $C=AB$ 为 $m\times p$ ，其中：

c_{ij}=\sum_{k=1}^na_{ik}b_{kj}

即「 $C$ 的第 $i$ 行第 $j$ 列 = $A$ 的第 $i$ 行与 $B$ 的第 $j$ 列对应相乘再相加」。

例：算 $\begin{pmatrix}1&2\\3&4\end{pmatrix}\begin{pmatrix}5&6\\7&8\end{pmatrix}$ 。左行配右列逐个点乘：

\begin{aligned} c_{11} & =1\cdot5+2\cdot7=19, & c_{12} & =1\cdot6+2\cdot8=22, \\ c_{21} & =3\cdot5+4\cdot7=43, & c_{22} & =3\cdot6+4\cdot8=50 \end{aligned}

故乘积为 $\begin{pmatrix}19&22\\43&50\end{pmatrix}$ 。若反过来算 $\begin{pmatrix}5&6\\7&8\end{pmatrix}\begin{pmatrix}1&2\\3&4\end{pmatrix}=\begin{pmatrix}23&34\\31&46\end{pmatrix}$ ，结果完全不同，正印证乘法不交换。

例：行向量乘列向量得一个数（内积）， $\begin{pmatrix}1&2&3\end{pmatrix}\begin{pmatrix}4\\5\\6\end{pmatrix}=4+10+18=32$ ；反过来列乘行得一个 $3$ 阶矩阵 $\begin{pmatrix}4\\5\\6\end{pmatrix}\begin{pmatrix}1&2&3\end{pmatrix}=\begin{pmatrix}4&8&12\\5&10&15\\6&12&18\end{pmatrix}$ 。同样两个矩阵，乘的次序不同连形状都变了。

tip

为什么定义得这么「绕」？因为矩阵乘法对应 变换的复合：先做 $B$ 再做 $A$ ，等于做一次 $AB$ 。即 $A(B\vec x)=(AB)\vec x$ 。复合变换的规则一旦展开，就长成上面这个求和式。理解了这一点，乘法就不是死记的公式了。

相乘的前提是「左列 = 右行」：左矩阵的列数必须等于右矩阵的行数，否则无法相乘。

乘法不满足交换律

一般情况下：

AB\ne BA

几何直觉很清楚：变换的次序会影响结果。先旋转再投影，和先投影再旋转，得到的图形通常完全不同。所以矩阵乘法天然是「有先后」的，交换次序会变。

不过矩阵乘法仍然满足：

(AB)C=A(BC),A(B+C)=AB+AC,k(AB)=(kA)B=A(kB)

即 结合律 与 分配律 成立，只是 交换律 不成立。另外两个常见陷阱： $AB=O$ 推不出 $A=O$ 或 $B=O$ ； $AB=AC$ 且 $A\ne O$ 也推不出 $B=C$ （除非 $A$ 可逆）。

转置

(A^T)_{ij}=a_{ji}

转置就是沿主对角线「翻折」，把行变成列。常用性质：

(A+B)^T=A^T+B^T,(kA)^T=kA^T,(A^T)^T=A

(AB)^T=B^T A^T

注意乘积转置要反序，和求逆 $(AB)^{-1}=B^{-1}A^{-1}$ 的规律一致。

矩阵的幂

仅对方阵定义幂： $A^m=\underbrace{A\cdot A\cdots A}_m$ ，且约定 $A^0=E$ 。由结合律有 $A^mA^k=A^{m+k}$ 、 $(A^m)^k=A^{mk}$ 。

但因为不交换，二项式定理一般不成立： $(A+B)^2=A^2+AB+BA+B^2$ ，只有当 $AB=BA$ 时才能合并成 $A^2+2AB+B^2$ 。求高次幂的实用办法是 相似对角化（详见特征值与相似矩阵）。

特殊矩阵

名称	定义
零矩阵 $O$	所有元素为 $0$
单位矩阵 $E$ （或 $I$ ）	对角线为 $1$ ，其余为 $0$ ，满足 $AE=EA=A$
数量矩阵 $kE$	对角线为 $k$ 的对角阵，左右乘相当于数乘 $k$
对角矩阵	非对角线元素全为 $0$ ，记 $\operatorname{diag}(d_1,\dots,d_n)$
上（下）三角矩阵	主对角线下（上）方元素全为 $0$
对称矩阵	$A^T=A$
反对称矩阵	$A^T=-A$ ，对角线必为 $0$
正交矩阵	$A^TA=AA^T=E$ ，即 $A^{-1}=A^T$
幂等矩阵	$A^2=A$ （对应投影变换）

单位矩阵是矩阵乘法的「 $1$ 」：它对应「什么都不做」的恒等变换。对角矩阵对应「各坐标轴方向独立缩放」，是最简单的一类变换，后续对角化追求的就是把矩阵化到这种形态。

逆矩阵

定义

若存在矩阵 $B$ 使 $AB=BA=E$ ，则称 $A$ 可逆（Invertible）， $B$ 为其 逆矩阵（Inverse Matrix），记为 $A^{-1}$ 。逆矩阵若存在则唯一。

几何上， $A^{-1}$ 就是把 $A$ 的变换「撤销」的那个变换。能撤销的前提是 $A$ 没有把空间压扁 —— 一旦压扁（信息丢失），就回不去了，这正对应 $|A|=0$ 不可逆。

可逆的充要条件

下列条件彼此等价（对 $n$ 阶方阵 $A$ ）：

A\text{可逆}\iff |A|\ne 0\iff r(A)=n\iff A\vec x=\vec 0\text{只有零解}

也等价于： $A$ 的列（行）向量 线性无关， $A$ 可表示为若干 初等矩阵的乘积。

伴随矩阵法

伴随矩阵（Adjugate Matrix） $A^*$ 由代数余子式转置排成：第 $i$ 行第 $j$ 列的元素是 $A_{ji}$ （注意下标颠倒）。它满足核心恒等式：

AA^*=A^*A=|A|E

于是当 $|A|\ne 0$ 时：

A^{-1}=\frac{1}{|A|}A^*

tip

伴随矩阵法适合 二阶、三阶 的手算，尤其二阶有口诀：

\begin{pmatrix} a & b \\ c & d \end{pmatrix}^{-1}=\frac{1}{ad-bc}\begin{pmatrix} d & -b \\ -c & a \end{pmatrix}

「主对角线对调、副对角线变号，再除以行列式」。高阶时代数余子式太多，改用初等变换法。

例：用伴随矩阵法求 $A=\begin{pmatrix}1&2&3\\2&2&1\\3&4&3\end{pmatrix}$ 的逆。先算行列式：

|A|=1(2\cdot3-1\cdot4)-2(2\cdot3-1\cdot3)+3(2\cdot4-2\cdot3)=2-6+6=2

逐个算九个代数余子式 $A_{ij}=(-1)^{i+j}M_{ij}$ （每个是划去第 $i$ 行第 $j$ 列后的二阶行列式）：

\begin{aligned} A_{11} & =+\begin{vmatrix} 2 & 1 \\ 4 & 3 \end{vmatrix}=2, & A_{12} & =-\begin{vmatrix} 2 & 1 \\ 3 & 3 \end{vmatrix}=-3, & A_{13} & =+\begin{vmatrix} 2 & 2 \\ 3 & 4 \end{vmatrix}=2, \\ A_{21} & =-\begin{vmatrix} 2 & 3 \\ 4 & 3 \end{vmatrix}=6, & A_{22} & =+\begin{vmatrix} 1 & 3 \\ 3 & 3 \end{vmatrix}=-6, & A_{23} & =-\begin{vmatrix} 1 & 2 \\ 3 & 4 \end{vmatrix}=2, \\ A_{31} & =+\begin{vmatrix} 2 & 3 \\ 2 & 1 \end{vmatrix}=-4, & A_{32} & =-\begin{vmatrix} 1 & 3 \\ 2 & 1 \end{vmatrix}=5, & A_{33} & =+\begin{vmatrix} 1 & 2 \\ 2 & 2 \end{vmatrix}=-2 \end{aligned}

伴随矩阵 $A^*$ 是代数余子式的转置（第 $i$ 行第 $j$ 列放 $A_{ji}$ ）：

A^*=\begin{pmatrix} A_{11} & A_{21} & A_{31} \\ A_{12} & A_{22} & A_{32} \\ A_{13} & A_{23} & A_{33} \end{pmatrix}=\begin{pmatrix} 2 & 6 & -4 \\ -3 & -6 & 5 \\ 2 & 2 & -2 \end{pmatrix}

于是 $A^{-1}=\dfrac{1}{|A|}A^*=\dfrac12\begin{pmatrix}2&6&-4\\-3&-6&5\\2&2&-2\end{pmatrix}=\begin{pmatrix}1&3&-2\\-\frac{3}{2}&-3&\frac{5}{2}\\1&1&-1\end{pmatrix}$ 。可乘回 $AA^{-1}=E$ 验算。注意伴随矩阵的转置一步极易出错——代数余子式按行算出来，填进 $A^*$ 时要按列放。

初等变换法

把 $A$ 和单位阵并排写成 $(A|E)$ ，对它做 初等行变换，当左边化成 $E$ 时，右边就是 $A^{-1}$ ：

(A|E)\xrightarrow{\text{行变换}}(E|A^{-1})

原理：每次行变换相当于左乘一个初等矩阵，把 $A$ 化成 $E$ 的那串初等矩阵之积正好是 $A^{-1}$ ，它们作用在 $E$ 上就得到 $A^{-1}$ 。这是高阶求逆的标准方法。

例：用初等行变换求 $A=\begin{pmatrix}1&2&3\\2&5&3\\1&0&8\end{pmatrix}$ 的逆。写出 $(A\mid E)$ ，逐步把左半化成 $E$ ：

\left(\begin{array}{ccc|ccc} 1 & 2 & 3 & 1 & 0 & 0 \\ 2 & 5 & 3 & 0 & 1 & 0 \\ 1 & 0 & 8 & 0 & 0 & 1 \end{array}\right) \xrightarrow{r_2-2r_1,r_3-r_1} \left(\begin{array}{ccc|ccc} 1 & 2 & 3 & 1 & 0 & 0 \\ 0 & 1 & -3 & -2 & 1 & 0 \\ 0 & -2 & 5 & -1 & 0 & 1 \end{array}\right)

用第 $2$ 行消第 $1$ 、 $3$ 行的第 $2$ 列（ $r_1-2r_2$ 、 $r_3+2r_2$ ）：

\xrightarrow{r_1-2r_2,r_3+2r_2} \left(\begin{array}{ccc|ccc} 1 & 0 & 9 & 5 & -2 & 0 \\ 0 & 1 & -3 & -2 & 1 & 0 \\ 0 & 0 & -1 & -5 & 2 & 1 \end{array}\right)

把第 $3$ 行乘 $-1$ 使主元为 $1$ ，再消第 $1$ 、 $2$ 行的第 $3$ 列（ $r_1-9r_3$ 、 $r_2+3r_3$ ）：

\xrightarrow{-r_3} \left(\begin{array}{ccc|ccc} 1 & 0 & 9 & 5 & -2 & 0 \\ 0 & 1 & -3 & -2 & 1 & 0 \\ 0 & 0 & 1 & 5 & -2 & -1 \end{array}\right) \xrightarrow{r_1-9r_3,r_2+3r_3} \left(\begin{array}{ccc|ccc} 1 & 0 & 0 & -40 & 16 & 9 \\ 0 & 1 & 0 & 13 & -5 & -3 \\ 0 & 0 & 1 & 5 & -2 & -1 \end{array}\right)

左半成了 $E$ ，右半即 $A^{-1}=\begin{pmatrix}-40&16&9\\13&-5&-3\\5&-2&-1\end{pmatrix}$ 。整个过程只用行变换，比算九个代数余子式利落得多。

运算性质

(A^{-1})^{-1}=A,(kA)^{-1}=\frac{1}{k}A^{-1}(k\ne 0)

(AB)^{-1}=B^{-1}A^{-1},(A^T)^{-1}=(A^{-1})^T,|A^{-1}|=\frac{1}{|A|}

解矩阵方程

形如 $AX=B$ 的矩阵方程，当 $A$ 可逆时两边左乘 $A^{-1}$ 得 $X=A^{-1}B$ ；若是 $XA=B$ 则两边右乘 $A^{-1}$ 得 $X=BA^{-1}$ 。次序不能错——乘法不交换，左方程左乘、右方程右乘。

例：解 $AX=B$ ，其中 $A=\begin{pmatrix}2&1\\1&1\end{pmatrix}$ 、 $B=\begin{pmatrix}1&3\\2&5\end{pmatrix}$ 。 $A$ 可逆， $|A|=1$ ，由二阶口诀 $A^{-1}=\begin{pmatrix}1&-1\\-1&2\end{pmatrix}$ ，于是：

X=A^{-1}B=\begin{pmatrix} 1 & -1 \\ -1 & 2 \end{pmatrix}\begin{pmatrix} 1 & 3 \\ 2 & 5 \end{pmatrix}=\begin{pmatrix} -1 & -2 \\ 3 & 7 \end{pmatrix}

更省事的办法是把 $A^{-1}$ 和 $B$ 一并算掉：对 $(A\mid B)$ 做初等行变换，左半化成 $E$ 时右半就是 $X=A^{-1}B$ ，免去单独求逆。验算 $AX=\begin{pmatrix}2&1\\1&1\end{pmatrix}\begin{pmatrix}-1&-2\\3&7\end{pmatrix}=\begin{pmatrix}1&3\\2&5\end{pmatrix}=B$ ，正确。

初等变换与初等矩阵

三种初等行（列）变换

交换两行（列）： $r_i\leftrightarrow r_j$ 。
某行（列）乘非零常数： $kr_i$ （ $k\ne 0$ ）。
某行（列）加另一行（列）的 $k$ 倍： $r_i+kr_j$ 。

初等矩阵

对单位矩阵 $E$ 做一次初等变换得到的矩阵，称为 初等矩阵（Elementary Matrix）。关键规律：

对 $A$ 做一次 行变换 $=$ 用对应的初等矩阵左乘 $A$ 。
对 $A$ 做一次 列变换 $=$ 用对应的初等矩阵右乘 $A$ 。

初等矩阵都可逆，其逆仍是同类型的初等矩阵。「 $A$ 可逆」等价于「 $A$ 是有限个初等矩阵之积」，这把求逆、解方程、求秩统一到了同一套行变换工具上。

例：取 $A=\begin{pmatrix}a&b\\c&d\end{pmatrix}$ ，用初等矩阵直观看「左乘动行、右乘动列」。把交换行的初等矩阵 $P=\begin{pmatrix}0&1\\1&0\end{pmatrix}$ （由 $E$ 交换两行得到）左乘 $A$ ：

PA=\begin{pmatrix} 0 & 1 \\ 1 & 0 \end{pmatrix}\begin{pmatrix} a & b \\ c & d \end{pmatrix}=\begin{pmatrix} c & d \\ a & b \end{pmatrix}

正是把 $A$ 的两行对调。同一个 $P$ 改成右乘：

AP=\begin{pmatrix} a & b \\ c & d \end{pmatrix}\begin{pmatrix} 0 & 1 \\ 1 & 0 \end{pmatrix}=\begin{pmatrix} b & a \\ d & c \end{pmatrix}

变成把两列对调。再看「第 $2$ 行加第 $1$ 行 $k$ 倍」的初等矩阵 $\begin{pmatrix}1&0\\k&1\end{pmatrix}$ 左乘 $A$ 得 $\begin{pmatrix}a&b\\c+ka&d+kb\end{pmatrix}$ ，恰好是行变换 $r_2+kr_1$ 。「行变换 $=$ 左乘、列变换 $=$ 右乘」这条规律就此一目了然。

行阶梯形与行最简形

行阶梯形（Row Echelon Form）：每个非零行的首非零元（主元，Pivot）所在列号比上一行严格靠右，全零行都在底部。
行最简形（Reduced Row Echelon Form，RREF）：在行阶梯形基础上，每个主元为 $1$ ，且主元所在列的其他元素全为 $0$ 。

任何矩阵都可经初等行变换化为唯一的行最简形。它是求秩、解方程组、判断线性相关性的公共工具。

等价标准形

对 $A$ 同时做行、列变换，总能化成左上角是单位块、其余为零的 等价标准形：

A\to\begin{pmatrix} E_r & O \\ O & O \end{pmatrix},r=r(A)

这说明任意 $m\times n$ 矩阵在「行列变换等价」下完全由它的秩 $r$ 决定。

矩阵的秩

定义

矩阵 $A$ 的秩（Rank） $r(A)$ 有几种等价说法，它们指的是同一个数：

$A$ 化成行阶梯形后 非零行的个数；
$A$ 的 最高阶非零子式 的阶数；
$A$ 的列（行）向量组的 极大无关组 所含向量个数。

秩的本质是：变换 $A$ 的 像空间的维数，也就是「这堆向量真正张成了几维」。秩越小，空间被压得越扁。

求法

把 $A$ 用初等行变换化成行阶梯形，数非零行的个数即可。初等变换 不改变秩，这是求秩的标准做法。

例：求 $A=\begin{pmatrix}1&2&3&4\\2&4&6&8\\1&3&5&7\end{pmatrix}$ 的秩。化行阶梯形：

\xrightarrow{r_2-2r_1,r_3-r_1} \begin{pmatrix} 1 & 2 & 3 & 4 \\ 0 & 0 & 0 & 0 \\ 0 & 1 & 2 & 3 \end{pmatrix} \xrightarrow{r_2\leftrightarrow r_3} \begin{pmatrix} 1 & 2 & 3 & 4 \\ 0 & 1 & 2 & 3 \\ 0 & 0 & 0 & 0 \end{pmatrix}

第 $2$ 行恰好是第 $1$ 行的两倍，消成了全零行；非零行有 $2$ 个，故 $r(A)=2$ 。它说明这三行里只有两行「真正独立」，第二行是多余的。

常用性质

0\le r(A)\le\min(m,n)

r(A^T)=r(A),r(kA)=r(A)(k\ne 0)

r(A+B)\le r(A)+r(B),r(AB)\le\min\big(r(A),r(B)\big)

可逆矩阵不改变秩： $P,Q$ 可逆时 $r(PAQ)=r(A)$ 。另有西尔维斯特不等式 $r(A)+r(B)-n\le r(AB)$ （ $A$ 为 $m\times n$ ， $B$ 为 $n\times p$ ）。

满秩

行满秩： $r(A)=m$ （行向量线性无关）。
列满秩： $r(A)=n$ （列向量线性无关）。
方阵 $A$ 满秩（ $r(A)=n$ ） $\iff |A|\ne 0\iff A$ 可逆。

分块矩阵

把矩阵划分为若干子块，就能把整块子矩阵当成「元素」来运算（前提是分块方式相容，能对上行列数）。分块是处理大矩阵、推导结构性结论的利器。

分块运算

加法、数乘逐块进行；乘法在「相邻块行列数对得上」时也逐块进行，规则与普通矩阵乘法一致，只是元素换成了子块（注意子块乘法不可交换次序）。

常见结论

分块对角阵的逆，逐块求逆即可：

\begin{pmatrix} A_1 & O \\ O & A_2 \end{pmatrix}^{-1}=\begin{pmatrix} A_1^{-1} & O \\ O & A_2^{-1} \end{pmatrix}

例：求 $M=\begin{pmatrix}2&0&0\\0&1&2\\0&3&4\end{pmatrix}$ 的逆。它是分块对角阵 $\begin{pmatrix}A_1&O\\O&A_2\end{pmatrix}$ ，其中 $A_1=(2)$ 、 $A_2=\begin{pmatrix}1&2\\3&4\end{pmatrix}$ 。逐块求逆： $A_1^{-1}=(\frac{1}{2})$ ， $A_2^{-1}=\frac{1}{1\cdot4-2\cdot3}\begin{pmatrix}4&-2\\-3&1\end{pmatrix}=-\frac{1}{2}\begin{pmatrix}4&-2\\-3&1\end{pmatrix}=\begin{pmatrix}-2&1\\\frac{3}{2}&-\frac{1}{2}\end{pmatrix}$ ，拼回去：

M^{-1}=\begin{pmatrix} \frac{1}{2} & 0 & 0 \\ 0 & -2 & 1 \\ 0 & \frac{3}{2} & -\frac{1}{2} \end{pmatrix}

大矩阵拆成小块各自处理，省去整体求逆。

分块三角阵的行列式，等于对角块行列式之积：

\begin{vmatrix} A & O \\ C & B \end{vmatrix}=\begin{vmatrix} A & C \\ O & B \end{vmatrix}=|A|\cdot|B|

副对角分块还会带定向因子：

\begin{vmatrix} O & A \\ B & O \end{vmatrix}=(-1)^{mn}|A|\cdot|B|

其中 $A$ 为 $m$ 阶、 $B$ 为 $n$ 阶方阵。

例：算 $\begin{vmatrix}1&2&0&0\\3&4&0&0\\5&6&2&1\\7&8&1&2\end{vmatrix}$ 。它是分块下三角 $\begin{vmatrix}A&O\\C&B\end{vmatrix}$ ，对角块 $A=\begin{pmatrix}1&2\\3&4\end{pmatrix}$ 、 $B=\begin{pmatrix}2&1\\1&2\end{pmatrix}$ ，行列式等于对角块之积：

|A|\cdot|B|=(1\cdot4-2\cdot3)(2\cdot2-1\cdot1)=(-2)(3)=-6

左下角的 $C=\begin{pmatrix}5&6\\7&8\end{pmatrix}$ 完全不影响结果——分块三角阵的行列式只看对角块。

参考资料​

引入​

基本运算​

加法与数乘​

矩阵乘法​

乘法不满足交换律​

转置​

矩阵的幂​

特殊矩阵​

逆矩阵​

定义​

可逆的充要条件​

伴随矩阵法​

初等变换法​

运算性质​

解矩阵方程​

初等变换与初等矩阵​

三种初等行（列）变换​

初等矩阵​

行阶梯形与行最简形​

等价标准形​

矩阵的秩​

定义​

求法​

常用性质​

满秩​

分块矩阵​

分块运算​

常见结论​