Back
Featured image of post 学习笔记|高等代数

学习笔记|高等代数

复旦大学谢启鸿老师高等代数学课程笔记

课程介绍

谢启鸿老师高等代数学,参考网站:谢启鸿高等代数官方博客,b站课程:数学专业 高等代数学-复旦大学-谢启鸿-高清

第一章 行列式

可以由递归形式方便的定义n阶行列式,并且定义余子式和代数余子式。下面先介绍行列式的一些性质:

性质1 上下三角行列式的值等于其对角线元素之积。
性质2 行列式的某行或某列全为零,则行列式等于零。
性质3 用常数$c$乘行列式的某一列或某一行,得到的行列式的值等于原行列式的$c$倍。
性质4 交换行列式不同的两行(列),行列式的值改变符号。
性质5 若行列式两行或两列成比例,则行列式的值等于零。特别,若行列式两行或两列相同,则行列式的值等于零。
性质6 若行列式中某行(列)元素均为两项之和,则行列式可以表示为两个行列式之和。
性质7 行列式的某一行(列)乘以某个数加到另外一行(列)上,行列式的值不变。
性质8 行列式和其转置具有相同的值。

定理1 行列式可以按照任意一行或任意一列的形式进行展开,如果线性组合的行(列)和对应的余子式(代数余子式)不匹配,计算结果等于零。

定理2(Cramer法则) 设有线性方程组

$$ \left\{\begin{array}{c} a_{11} x_1+a_{12} x_2+\cdots+a_{1 n} x_n=b_1 \\ a_{21} x_1+a_{22} x_2+\cdots+a_{2 n} x_n=b_2 \\ \cdots \cdots \cdots \\ a_{n 1} x_1+a_{n 2} x_2+\cdots+a_{n n} x_n=b_n \end{array}\right. $$
记这个方程组的系数行列式为 $|\boldsymbol{A}|$ ,若 $|\boldsymbol{A}| \neq 0$ ,则方程组有且仅有一组解: $$ x_1=\frac{\left|A_1\right|}{|\boldsymbol{A}|}, x_2=\frac{\left|A_2\right|}{|\boldsymbol{A}|}, \cdots, x_n=\frac{\left|A_n\right|}{|\boldsymbol{A}|} $$ 其中 $\left|\boldsymbol{A}_{\boldsymbol{j}}\right|(j=1,2, \cdots, n)$ 是一个 $n$ 阶行列式,它由 $|\boldsymbol{A}|$ 去掉第 $j$ 列换上方程组的常数项 $b_1, b_2, \cdots, b_n$ 组成的列而成.

例1 对于行列式的计算,优先利用性质将行列式进行降阶,构造出0和1。特殊的,对于Vandermonde行列式:

$$ \begin{aligned} V_n=\left|\begin{array}{ccccc} 1 & x_1 & x_1^2 & \cdots & x_1^{n-1} \\ 1 & x_2 & x_2^2 & \cdots & x_2^{n-1} \\ \vdots & \vdots & \vdots & & \\ 1 & x_n & x_n^2 & \cdots & x_n^{n-1} \end{array}\right|=\prod_{1 \leqslant i < j \leqslant n}\left(x_j-x_i\right) \end{aligned} $$

计算降次的Vandermonde行列式时,将上式修改为 $(x_i-x_j)$。

定义3(行列式的组合定义) 设方阵 $A=\left(a_{i j}\right) \in M_n(\mathbb{F})$ ,则 $A$ 的行列式定义为

$$ |A|=\sum_{\left(i_1, i_2, \cdots, i_n\right) \in S_n}(-1)^{N\left(i_1, i_2, \cdots, i_n\right)} a_{i_1 1} a_{i_2 2} \cdots a_{i_n n} $$

其中 $S_n$ 是 ${1,2, \cdots, n}$ 的所有全排列构成的集合, $N\left(i_1, i_2, \cdots, i_n\right)$ 是全排列 $\left(i_1, i_2, \cdots, i_n\right)$ 的逆序数 ,$a_{i_1 1} a_{i_2 2} \cdots a_{i_n n}$ 称为行列式 $|A|$ 中的单项,它从 $A$ 的每行每列各取一个元素相乘得到, $(-1)^{N\left(i_1, i_2, \cdots, i_n\right)}$ 称为这个单项的符号. 容易看出:当 $n \geq 2$ 时,符号为 $\pm 1$ 的单项各为一半,即 $\frac{1}{2} n!$ 个.

定理4 (Laplace 定理) 设 $|\boldsymbol{A}|$ 是 $n$ 阶行列式,在 $|\boldsymbol{A}|$ 中任取 $k$ 行(列),那么含于这 $k$ 行(列)的全部 $k$ 阶子式与它们所对应的代数余子式的乘积之和等于 $|A|$ .即若取定 $k$ 个行: $1 \leq i_1<i_2<\cdots<i_k \leq n$ ,则

$$ \begin{aligned} |\boldsymbol{A}|=\sum_{1 \leq j_1<j_2<\cdots<j_k \leq n} \boldsymbol{A}\left(\begin{array}{cccc} i_1 & i_2 & \cdots & i_k\\ j_1 & j_2 & \cdots & j_k \end{array}\right) \widehat{\boldsymbol{A}}\left(\begin{array}{cccc} i_1 & i_2 & \cdots & i_k \\ j_1 & j_2 & \cdots & j_k \end{array}\right) . \end{aligned} $$

同样若取定 $k$ 个列: $1 \leq j_1<j_2<\cdots<j_k \leq n$ ,则

$$ \begin{aligned} |\boldsymbol{A}|=\sum_{1 \leq i_1<i_2<\cdots<i_k \leq n} \boldsymbol{A}\left( \begin{array}{cccc} i_1 & i_2 & \cdots & i_k \\ j_1 & j_2 & \cdots & j_k \end{array}\right) \widehat{\boldsymbol{A}}\left(\begin{array}{cccc} i_1 & i_2 & \cdots & i_k \\ j_1 & j_2 & \cdots & j_k \end{array}\right) . \end{aligned} $$

注. Laplace定理可以让我们以任意几行或者几列将行列式进行展开,在理论分析中有重要作用, 可以证明以下推论:

推论 5 以分块的形式表示行列式,若$|A|$为分块上三角或分块下三角行列式,有

$$ \begin{aligned} |A| & =\left|\begin{array}{ll} B & C \\ 0 & D \end{array}\right|=\left|\begin{array}{ll} B & 0 \\ C & D \end{array}\right| =|B||D| \end{aligned} $$

第二章 矩阵

矩阵运算

矩阵的加、减、数乘、相乘、转置,共轭,这里重点关注矩阵相乘。

定义 1(矩阵相乘) 设 $m\times k$ 矩阵 $A=(a_{ij})$,以及 $k\times n$ 矩阵 $B=(b_{ij})$,设 $C = AB$,则 $C$ 为 $m\times n$ 矩阵且: $$ c_{ij} = \sum_{r=1}^k a_{ir} b_{rj} $$

注. 介绍矩阵相乘的一些性质和需要注意的点:

  1. 矩阵相乘具有结合律、分配律的性质,但是不具有交换律。
  2. $cI_n$ 被称为纯量阵,有 $AcI_n=cA$.
  3. 当 $AB=BA$时,可以使用正常数乘中性质,例如$(AB)^r = A^rB^r$.
  4. 矩阵乘法不可交换,所以消去律一般不成立,即若 $AB=AC$,一般不可以推出 $B=C$,同样的,两个非零矩阵相乘可能为零矩阵。
  5. 补充一点关于转置的性质:$(AB)^{’} = B^{’}A^{’}$

可以定义矩阵的行列式为一种从$M_n(\mathbb{R})$到$\mathbb{R}$的映射,这种映射本身具有一些性质

  1. 一般的,$|A|+|B|\neq|A+B|$
  2. $|cA| = c^n|A|$
  3. $|A||B| = |AB|$
  4. $|A^{’}| = |A|$
  5. $|\bar{A}| = \bar{|A|}$
  6. $|A|^{-1} = |A^{-1}|$
  7. 设$n$大于等于$2$,则$|A^{*}| = |A|^{n-1}$

初等变换和初等矩阵

矩阵的行(列)互换,行(列)数乘一个非零常数,行(列)乘常数加到另外一行(列)上为矩阵的三种初等变换。

定义 1(相抵). 将一个矩阵$A$经过有限次初等变换后变成$B$,则称$A$和$B$是等价的,或者$A$和$B$相抵,记作$A~B$.

定理 2(相抵标准型). 任意 $m\times n$矩阵必然相抵于下列 $m\times n$矩阵 $$ \begin{aligned} \left(\begin{array}{ll} I_r & 0 \\ 0 & 0 \end{array}\right) \end{aligned} $$ 该矩阵被称为原始矩阵的相抵标准型,与如何初等变换无关,这是矩阵自身的性质。

定理 3. 只使用初等行变换,矩阵最多可以简化为上阶梯型矩阵。

定理 4(初等矩阵). 对单位阵施以第一类,第二类,第三类初等变换后得到的矩阵分别称为第一类、第二类、第三类初等矩阵,分别记为 $P_{ij},P_i(c),T_{ij}(c)$.

定理 5. 初等行(列)变换等价于左(右)乘对应的初等矩阵,即

  • 初等行变换: $P_{ij}A,P_i(c)A,T_{ij}(c)A$
  • 初等列变换:$AP_{ij},AP_i(c),AT_{ji}(c)$

一些推论.

  1. 初等阵都是可逆矩阵,且其逆矩阵都为同类型的初等阵,有 $$ P_{ij}^{-1} = P_{ij},P_i(c)^{-1} = P_i(\frac{1}{c}),T_{ij}(c)^{-1} = T_{ij}(-c) $$
  2. $|P_{ij}| = -1,|P_i(c)| = c,T_{ij}(c) = 1$,对矩阵实施第三类初等变换, 矩阵行列式的值不变。
  3. 奇异(非奇异)矩阵经过初等变换后依然是奇异(非奇异)矩阵。

推论 6. 设 $m\times n$阶矩阵 $A$,存在$m$阶非奇异阵 $P$和 $n$阶非奇异阵 $Q$,可使得 $A$ 变化为相抵标准型,即 $$ PAQ = \begin{aligned} \left(\begin{array}{ll} I_r & 0 \\ 0 & 0 \end{array}\right) \end{aligned} $$

有了初等变换的关系后,我们现在来判定初等变换符合什么类型的关系。

定义 6(等价关系). 若集合 $A$ 上的二元关系 $R$ 满足以下条件:

  1. 自反性:$\forall x \in A, x R x$
  2. 对称性:$\forall x, y \in A, x R y \Longrightarrow y R x$
  3. 传递性:$\forall x, y, z \in A, \quad(x R y \wedge y R z) \Longrightarrow x R z$
    则称 $R$ 是一个定义在 $A$ 上的等价关系。习惯上会把等价关系的符号由 $R$ 改写为 $\sim$ 。

定理 7. 相抵关系是一种等价关系。
注. 高等代数中会接触三种关系:相抵、相似和合同关系,都是等价关系。

应用 (求解逆矩阵). 可以通过构造 $ \left(\begin{array}{c:c} A&I_n \end{array}\right) $ 然后再通过初等行变换得到 $ \left(\begin{array}{c:c} I_n&A^{-1} \end{array}\right) $ ,或者构造 $ \left(\begin{array}{c} A \\ \hdashline I_n \\ \end{array}\right) $, 然后通过初等列变换得到 $ \left(\begin{array}{c} I_n \\ \hdashline A^{-1} \\ \end{array}\right) $,总之,使得分块矩阵的变换统一,必须同时进行相同的变换。

注. 该方法同样可以用来求解线性方程组,假设 $AX = B$,则$X = A^{-1}B$,可以构造 $ \left(\begin{array}{c:c} A&B \end{array}\right) $ 然后再通过初等行变换得到 $ \left(\begin{array}{c:c} I_n&A^{-1}B \end{array}\right) $,对于$XA=B$,解$X = BA^{-1}$,则可以通过构造矩阵然后初等列变换求得。

逆矩阵

定义 1(矩阵的逆). 设$A$为n阶方阵,若存在一个n阶方阵$B$,使得 $$ AB = BA = I_n $$ 则$B$为$A$的逆矩阵,记为$B=A^{-1}$,称有逆矩阵的方阵为非奇异阵或可逆矩阵。
性质. 假设以下提到的方阵都可逆且同阶数

  1. $(AB)^{-1} = B^{-1}A^{-1}$
  2. $(A^{’})^{-1} = (A^{-1})^{’}$
  3. 消去律存在
  4. 若A可逆,$AB=0$,则$B$为零矩阵。

定义 2. 设 $\boldsymbol{A}$ 是 $n$ 阶方阵,$A_{i j}$ 是行列式 $|\boldsymbol{A}|$ 中第 $(i, j)$ 元素 $a_{i j}$ 的代数余子式,则称下列方阵为 $\boldsymbol{A}$ 的伴随阵:

$$ \left(\begin{array}{cccc} A_{11} & A_{21} & \cdots & A_{n 1} \\ A_{12} & A_{22} & \cdots & A_{n 2} \\ \vdots & \vdots & & \vdots \\ A_{1 n} & A_{2 n} & \cdots & A_{n n} \end{array}\right) \quad $$ $A$ 的伴随阵通常记为 $A^*$ .

引理 3. 方阵$A$和其伴随阵 $A^{*}$ 有以下关系: $$ AA^{*} = A^{*}A = |A|I_n $$

定理 4. 若$|A|\neq 0$,则$A$为非奇异阵,且 $$ A^{-1} = \frac{1}{|A|}A^{*} $$

定理 5. 若$A,B$都是n阶矩阵,则 $$ |AB| = |A||B| $$

一些推论.

  1. 方阵可逆的充分必要条件为行列式不等于0.
  2. 可逆方阵的乘积依然为可逆方阵,只要乘积中间有一个奇异阵,最后的矩阵为奇异阵。
  3. 若$A$可逆,则$|A^{-1}| = |A|^{-1}$
  4. 若$A,B$都为n阶方阵,$AB = I_n$可以推导出$BA = I_n$,反之亦然。

非奇异矩阵有一些很好的性质,我们将其归结于如下的定理:
定理 6. 对于$n$阶矩阵$A$,以下几种表述等价:

  1. $A$ 为非奇异矩阵。
  2. $A$ 的相抵标准型为 $I_n$。
  3. $A$ 可以只通过初等行变换或初等列变换变为 $I_n$。
  4. $A$ 可以分解为若干个初等矩阵的乘积。

分块矩阵

分块矩阵是为了运算和分析更简便自然推广出的表示方法,一般表示为$A = (A_{ij})_{r\times s}$,$r\times s$表示分块成$r$分块行和$s$分块列,记$(m_1,m_2,\cdots,m_r)$为行分块方式,$(n_1,n_2,\cdots,n_r)$为列分块方式。

定义 1. 若分块矩阵$A,B$的行分块方式和列分块方式相同,且每个矩阵块相同,则分块矩阵$A,B$相等。

关于分块矩阵的运算,和普通矩阵的运算方式大致相同,是普通矩阵运算的推广,以下列出需要注意的几点:

  1. 分块矩阵相乘:$AB$,需要保证$A$的列分块方式和$B$的行分块方式相同。
  2. 分块矩阵转置除了对换行列元素外,每个矩阵块也应该转置。

例. 设 $\boldsymbol{A}$ 是一个 $m \times n$ 矩阵, $\boldsymbol{B}$ 是一个 $n \times r$ 矩阵,可对 $\boldsymbol{B}$ 作列分块,即将 $B$ 的每个列向量分作一块,记为 $\boldsymbol{\beta}_j(j=1,2, \cdots, r)$ ,则 $$ \boldsymbol{B}=\left(\boldsymbol{\beta}_1, \boldsymbol{\beta}_2, \cdots, \boldsymbol{\beta}_r\right) $$ 又将 $A$ 看成是只分成一块的矩阵,则 $A B$ 可按分块矩阵相乘,且 $A B$ 的列分块为 $$ \boldsymbol{A} \boldsymbol{B}=\left(\boldsymbol{A} \boldsymbol{\beta}_1, \boldsymbol{A} \boldsymbol{\beta}_2, \cdots, \boldsymbol{A} \boldsymbol{\beta}_r\right) $$ 同样,可对 $\boldsymbol{A}$ 作行分块,即将 $\boldsymbol{A}$ 的每个行向量分作一块,记为 $\boldsymbol{\alpha}_i(i=1,2, \cdots, m)$ ,则 $$ A=\left(\begin{array}{c} \boldsymbol{\alpha}_1 \\ \boldsymbol{\alpha}_2 \\ \vdots \\ \boldsymbol{\alpha}_m \end{array}\right) $$ 又将 $B$ 看成是只有一块的矩阵,则 $\boldsymbol{A B}$ 可按分块矩阵相乘,且 $\boldsymbol{A B}$ 的行分块为 $$ A B=\left(\begin{array}{c} \alpha_1 B \\ \alpha_2 B \\ \vdots \\ \alpha_m B \end{array}\right) $$

推论 2. 若分块对角阵的每一个矩阵块都可逆,则分块对角矩阵可逆。

定义 3. 对于分块矩阵$A = (A_{ij})_{r\times s}$,可以定义三类分块初等变换:

  1. 对换$A$的分块行(分块列)。
  2. 某个非奇异阵左乘$A$的某一个分块行,或者右乘某一个分块列。
  3. 某个矩阵左乘$A$的某一分块行加到另一分块行上,或右乘某一分块列加到另一分块列上。

注. 分块初等变换是初等变换的推广,分块初等变换1可以看作初等变换1的复合,分块初等变换2可以看作初等变换2、3的复合,分块初等变换3可以看作初等变换3的复合,所以分块初等变换也满足初等变换具有的一些性质,也可以对分块单位矩阵进行分块初等变换定义分块初等矩阵,依然用 $P_{ij},P_i(M),T_{ij}(M)$ 表示。

定理 4. 分块初等矩阵具有以下性质:

  1. 分块初等阵都是可逆阵 $$ P_{ij}^{-1} = P_{ij}^{’},P_i(M)^{-1} = P_i(M^{-1}),T_{ij}(M)^{-1} = T_{ij}(-M) $$
  2. $|P_{ij}| = (-1)^{l},l=m_i\cdot m_j+(m_i+m_j)\sum_{i<r<j}m_r$
    $|P_i(M)| = |M|,T_{ij}(M) = 1$
  3. 分块初等行(列)变换等价于左(右)乘对应的分块初等矩阵。
    • 分块初等行变换: $P_{ij}A,P_i(M)A,T_{ij}(M)A$
    • 分块初等列变换:$AP_{ij}^{’},AP_i(M),AT_{ji}(M)$

注. 分块矩阵进行第三类分块初等变换,分块矩阵的行列式不变,我们可以用该方法简化分块行列式的计算。

定理 5. 若 $\boldsymbol{A}$ 是 $m$ 阶可逆阵, $\boldsymbol{D}$ 是 $n$ 阶矩阵, $\boldsymbol{B}$ 为 $m \times n$ 矩阵, $\boldsymbol{C}$ 为 $n \times m$ 矩阵,则 $$ \left|\begin{array}{ll} A & B \\ C & D \end{array}\right|=|A|\left|D-C A^{-1} B\right| $$ 若 $\boldsymbol{D}$ 可逆(这时 $\boldsymbol{A}$ 不必假设可逆),则有 $$ \left|\begin{array}{ll} A & B \\ C & D \end{array}\right|=\left|D | A-B D^{-1} C\right| $$ 证明 用第三类分块初等变换,以 $-\boldsymbol{C} \boldsymbol{A}^{-1}$ 左乘以第一分块行加到第二分块行上得到 $$ \left(\begin{array}{ll} A & B \\ C & D \end{array}\right) \rightarrow\left(\begin{array}{cc} A & B \\ O & D-C A^{-1} B \end{array}\right) $$ 第三类分块初等变换不改变行列式的值,由引理即得结论.另一结论类似可证.证毕。

注 1. 当 $\boldsymbol{A}$ 和 $\boldsymbol{D}$ 都是可逆阵时,我们得到等式 $$ \left|D \right|\left| A-B D^{-1} C\right|=|A|\left|D-C A^{-1} B\right| $$ 这个等式称为行列式的降阶公式.因为当 $\boldsymbol{D}$ 和 $\boldsymbol{A}$ 的阶不等时,可以利用它把高阶行列式的计算化为低阶行列式的计算:如果我们要计算矩阵$M$的行列式,可以构造 $M = A-BD^{-1}C$,然后利用 $|M| = |A-BD^{-1}C| = |D|^{-1}|A|\left|D-C A^{-1} B\right|$得到 $M$ 的行列式。

注 2. 利用分块矩阵的三类初等变换,同样可以求分块矩阵的逆矩阵,或者求解线性方程组。

Cauchy-Binet 公式

定理 1. 设 $\boldsymbol{A}=\left(a_{i j}\right)$ 是 $m \times n$ 矩阵, $\boldsymbol{B}=\left(b_{i j}\right)$ 是 $n \times m$ 矩阵,$r$ 是一个正整数且 $r \leq m$ . (1)若 $r>n$ ,则 $A B$ 的任意一个 $r$ 阶子式等于零; (2)若 $r \leq n$ ,则 $\boldsymbol{A} \boldsymbol{B}$ 的 $r$ 阶子式 $$ \begin{aligned} &\boldsymbol{A} \boldsymbol{B}\left(\begin{array}{llll} i_1 & i_2 & \cdots & i_r \\ j_1 & j_2 & \cdots & j_r \end{array}\right)\\ & =\sum_{1 \leq k_1<k_2<\cdots<k_r \leq n} \boldsymbol{A}\left(\begin{array}{cccc} i_1 & i_2 & \cdots & i_r \\ k_1 & k_2 & \cdots & k_r \end{array}\right) \boldsymbol{B}\left(\begin{array}{cccc} k_1 & k_2 & \cdots & k_r \\ j_1 & j_2 & \cdots & j_r \end{array}\right) \text {. } \end{aligned} $$

注. 若 $r = m$,则$AB$的$r$阶子式就是 $|AB|$,$i,j$的顺序就是$1,2,\cdots,n$;若 $ r = 1 $,该公式表示矩阵乘法。

推论 2. 若 $A$ 为 $m\times n$,则 $AA^{’}$的任意主子式都非负。
注. 若$r$阶子式的行指标和列指标相同,称该子式为主子式。

推论 3. 若 $AB$ 为 $n$ 阶方阵,则 $(AB)^{*} = B^{*}A^{*} $.

推论 4. $(AB)^{*} = B^{*}A^{*}$


对转置,求逆,伴随的一些总结

  1. $(A^{-1})^{’} = (A^{’})^{-1},(A^{’})^{*} = (A^{*})^{’},(A^{-1})^{*} = (A^{*})^{-1}$,三种符号均可以交换顺序
  2. $(AB)^{*} = B^{*}A^{*},(AB)^{-1} = B^{-1}A^{-1},(AB)^{’} = B^{’}A^{’}$,拆开括号后顺序相反各自运算
  3. $(A^{’})^{’} = A,(A^{-1})^{-1} = A$ $ (A^{*})^{*} = \left\{ \begin{array}{lc} |A|^{n-2}A &, n \geq3 \\ A&,n=2\\ \end{array} \right.$,二次运算后不完全相同
  4. $(cA)^{’} = cA^{’},(cA)^{-1} = c^{-1}A^{-1},(cA)^{*} = c^{n-1}A^{*}$
  5. $AA^{*} = A^{*}A = |A|I_n,A^{-1}A = A^{-1}A = I_n,AA^{’}$半正定
  6. $|A^{*}| = |A|^{n-1},|A^{’}| = |A|,|A^{-1}| = |A|^{-1}$

补充. 相抵标准型有一些很好的性质,易于求伴随就是其中一项,令$A = P\begin{aligned} \left(\begin{array}{ll} I_r & 0 \\ 0 & 0 \end{array}\right) \end{aligned}Q$是一种分析和证明的方法。

第三章 线性空间

数域、线性空间以及线性关系

定义 1(数域,数环). 设 $\mathbb{K}$ 是复数集 $\mathbb{C}$ 的子集,且至少有两个不同的元素(等价定义:至少含有1和0),如果 $\mathbb{K}$ 中任意两个数的加减乘除运算依然属于 $\mathbb{K}$,则 $\mathbb{K}$ 被称为一个数域,如果 $\mathbb{K}$ 对加减乘三个运算封闭,则 $\mathbb{K}$ 被称为一个数环,所以数域也是数环。
注. $\mathbb{Z\subseteq Q\subseteq R\subseteq C} $,即整数属于有理数属于实数属于复数,有理数、实数、复数都是数域,整数是数环。

定理 2. 任何一个数域都包含有理数域 $\mathbb{Q}$,即有理数域是最小的数域。

定义 3(线性空间). 设 $\mathbb{K}$ 是一个数域,$V$ 是一个集合.在 $V$ 上定义了一个加法"+ ": $V\times V\rightarrow V$, 即对 $V$ 中任意两个元素 $\alpha, \beta$ ,总存在 $V$ 中唯一的元素 $\gamma$ 与之对应,记为 $\gamma=$ $\alpha+\beta$ .在数域 $\mathbb{K}$ 与 $V$ 之间定义了一种运算,称为数乘"$\cdot$": $\mathbb{K} \times V \rightarrow V $ ,即对 $\mathbb{K}$ 中任一数 $k$ 及 $V$中任一元素 $\boldsymbol{\alpha}$ ,在 $V$ 中总有唯一的元素 $\delta$ 与之对应,记为 $\delta=k \boldsymbol{\alpha}$ .若上述加法及数乘满足下列运算规则:
(1)加法交换律:$\alpha+\beta=\beta+\alpha$ ;
(2)加法结合律:$(\boldsymbol{\alpha}+\boldsymbol{\beta})+\boldsymbol{\gamma}=\boldsymbol{\alpha}+(\boldsymbol{\beta}+\boldsymbol{\gamma})$ ;
(3)在 $V$ 中存在一个元素 0 ,对于 $V$ 中任一元素 $\alpha$ ,都有 $\alpha+0=\alpha$ ;
(4)对于 $V$ 中每个元素 $\alpha$ ,存在元素 $\boldsymbol{\beta}$ ,使 $\alpha+\beta=0$ ;
(5) $1 \cdot \alpha=\alpha$ ;
(6)$k(\boldsymbol{\alpha}+\boldsymbol{\beta})=k \boldsymbol{\alpha}+k \boldsymbol{\beta}$ ;
(7)$(k+l) \boldsymbol{\alpha}=k \boldsymbol{\alpha}+l \boldsymbol{\alpha}$ ;
(8)$k(l \boldsymbol{\alpha})=(k l) \boldsymbol{\alpha}$ ,
其中 $\boldsymbol{\alpha}, \boldsymbol{\beta}, \boldsymbol{\gamma}$ 是 $V$ 中任意的元素,$k, l$ 是 $\mathbb{K}$ 中任意的数,则集合 $V$ 称为数域 $\mathbb{K}$ 上的线性空间或向量空间,$\mathbb{K}$被称为线性空间$V$的基域。$V$ 中的元素称为向量 $V$ 中适合(3)的元素 0 称为零向量.对 $V$ 中的元素 $\alpha$ ,适合 $\alpha+\beta=0$ 的元素 $\beta$ 称为 $\alpha$ 的负向量,记为 $-\alpha$ .
注 1. 在实际问题中,我们经常会碰到满足上述八条性质的集合,例如信号处理中使用的信号空间,并且有必要将其抽象成线性空间,来研究其统一性质,对于抽象的线性空间,向量只是该集合的一个元素,没有任何其它附加的含义。
注 2. 数域 $\mathbb{K}$ 上的 $n$ 维行向量(列向量)集合被称为 $\mathbb{K}$ 上的线性空间,经常将其记为 $\mathbb{K}_n(\mathbb{K}^n)$。

命题 4. 现在说明一些线性空间的基本性质:

  1. 零向量唯一。
  2. 负向量唯一。
  3. 加法满足消去律:等式两边可以同时减去一个数并且保证等式成立。
  4. $-\alpha = (-1)\alpha$
  5. 若 $k\alpha = 0$,则 $k = 0$ 或 $\alpha = 0$。

问题. 考虑线性方程组问题:$Ax = \beta$,$A\in M_{m\times n}(\mathbb{K})$。
可以将 $A$ 写为列分块的方式进行计算: $$ Ax =\left(\alpha_1,\alpha_2,\cdots,\alpha_n \right)\left(\begin{array}{c} x_1 \\ x_2 \\ \vdots \\ x_n \end{array}\right) = \sum_{i = 1}^{n} x_i\alpha_i = \beta $$

定义 5. $V$ 是 $\mathbb{K}$ 上的线性空间(以后简记为$V_\mathbb{K}$),向量 $\alpha_1,\alpha_2,\cdots,\alpha_n,\beta\in V$,若存在 $\mathbb{K}$ 中的 $n$ 个数 $k_1,k_2\cdots k_n$,s.t.
$$ \sum_{i = 1}^{n} k_i\alpha_i = \beta $$ 则称 $\beta$ 为 $\alpha_1,\alpha_2,\cdots,\alpha_n$ 的线性组合或者 $\beta$可以由 $\alpha_1,\alpha_2,\cdots,\alpha_n$ 线性表示。

定义 6. 设 $V$ 是数域 $\mathbb{K}$ 上的线性空间, $\boldsymbol{\alpha}_1, \boldsymbol{\alpha}_2, \cdots, \boldsymbol{\alpha}_n$ 是 $V$ 中的 $n$ 个向量,若存在 $\mathbb{K}$ 中不全为零的 $n$ 个数 $k_1, k_2, \cdots, k_n$ ,使 $$ k_1 \boldsymbol{\alpha}_1+k_2 \boldsymbol{\alpha}_2+\cdots+k_n \boldsymbol{\alpha}_n=\mathbf{0} $$ 则称 $\boldsymbol{\alpha}_1, \boldsymbol{\alpha}_2, \cdots, \boldsymbol{\alpha}_n$ 线性相关.反之,若不存在 $\mathbb{K}$ 中不全为零的数 $k_1, k_2, \cdots, k_n$ ,使上式成立,则称 $\boldsymbol{\alpha}_1, \boldsymbol{\alpha}_2, \cdots, \boldsymbol{\alpha}_n$ 线性无关或线性独立.
注. 线性相关性的存在与否极大程度上依赖于线性空间的基域,如果基域发生变化。线性相关性可能会发生变化,线性无关也有等价定义:使其线性组合为0的系数全为0.

定理 7. 若 $\boldsymbol{\alpha}_1, \boldsymbol{\alpha}_2, \cdots, \boldsymbol{\alpha}_m$ 是一组线性相关的向量,则任一包含这组向量的向量组必线性相关,又若 $\boldsymbol{\alpha}_1, \boldsymbol{\alpha}_2, \cdots, \boldsymbol{\alpha}_m$ 是一组线性无关的向量,则从这一组向量中任意取出一组向量必线性无关。

定理 8. 设 $\alpha_1, \alpha_2, \cdots, \alpha_m$ 是线性空间 $V$ 中的向量,则 $\alpha_1, \alpha_2, \cdots, \alpha_m$线性相关的充分必要条件是其中至少有一个向量可以表示为其余向量的线性组合.

定理 9(线性表示唯一的条件). 设 $\alpha_1, \alpha_2, \cdots, \alpha_m, \beta$ 是线性空间 $V$ 中的向量.已知 $\beta$ 可表示为 $\alpha_1, \alpha_2, \cdots, \alpha_m$ 的线性组合,即 $$ \boldsymbol{\beta}=k_1 \boldsymbol{\alpha}_1+k_2 \boldsymbol{\alpha}_2+\cdots+k_m \boldsymbol{\alpha}_m $$ 则表示唯一的充分必要条件是向量 $\boldsymbol{\alpha}_1, \boldsymbol{\alpha}_2, \cdots, \boldsymbol{\alpha}_m$ 线性无关.


线性相关的几何意义及思考
对于二维欧氏空间 $\mathbb{R}^2$,存在向量 $OA = (a_1,a_2),OB = (b_1,b_2)$,若二者线性相关,则 $OAB$共线;若线性无关,则 $OAB$ 构成一个非退化的三角形,面积为$\frac{1}{2}\left|\begin{array}{ll} a_1 & a_2 \\ b_1 & b_2 \end{array}\right|$,该行列式不为0.
对于三维欧氏空间 $\mathbb{R}^3$,存在向量 $OA = (a_1,a_2,a_3),OB = (b_1,b_2,b_3),OC = (c_1,c_2,c_2)$,若三者线性相关,则 $OABC$四点共面;若线性无关,则 $OABC$ 构成一个非退化的四面体,体积为$\frac{1}{6}\left|\begin{array}{lll} a_1 & a_2 &a_3\\ b_1 & b_2 &b_3\\ c_1&c_2&c_3 \end{array}\right|$,该行列式不为0.
$\cdots$
以此类推,$n$ 维欧氏空间的向量组线性无关的条件是否为行列式不等零?

向量组的秩

定义 1 (极大线性无关组). 在线性空间 $V$ 中,向量的集合称为向量族,向量的有限集合称为向量组.设 $S$ 是向量族,若在 $S$ 中存在一组向量 $\left\{\alpha_1, \alpha_2, \cdots, \alpha_r\right\}$ 满足如下条件:
(1) $\boldsymbol{\alpha}_1, \boldsymbol{\alpha}_2, \cdots, \boldsymbol{\alpha}_r$ 线性无关;
(2)$S$ 中任意一个向量都可以用 $\boldsymbol{\alpha}_1, \boldsymbol{\alpha}_2, \cdots, \boldsymbol{\alpha}_r$ 线性表示,
则称 $\left\{\boldsymbol{\alpha}_1, \boldsymbol{\alpha}_2, \cdots, \boldsymbol{\alpha}_r\right\}$ 是向量族 $S$ 的极大线性无关组,简称极大无关组.

定理 2. $S$ 为一个向量组且至少包含一个非零向量,则 $S$ 的极大线性无关组存在。

随便举一些例子我们可以发现,向量组的极大线性无关组可能不同,但是这些极大无关组中的元素数量相同,该结论对一般的向量是否存在。

定理 3. 设 $A,B$ 为 $S$ 的向量组,$A$中任意向量都是 $B$中向量的线性组合,如果 $A$中的向量线性无关,则 $\# A \leq \# B$.
注. 该命题的逆否命题非常有用:若元素多的向量组可以被元素少的向量组线性表示,则元素多的向量组线性相关。

推论 4. 若 $A,B$ 为两个线性无关的向量组,并且所有元素均可以互相线性表示,则 $\# A = \# B$.
注. 由该推论不难得到:若 $A,B$ 都为某向量组的极大无关组,则 $\# A = \# B$.

极大线性无关组中元素的个数在一定程度上反应了向量本身的性质,并且可以作为向量族线性无关程度的度量,我们给出如下定义:

定义 5(向量组的秩). 向量组 $S$中极大无关组的向量个数被称为 $S$ 的秩,被记为$rank(S)$ 或 $r(S)$.
注. 只含有零向量的向量族没有极大线性无关组,我们约定 $r\left(\{0\}\right) = 0$

定义了向量组的秩后,我们介绍一个关于秩的定理,并将秩这一概念应用于线性空间这一向量族之中。

定义 6 (向量组等价关系). 如果 $A,B$ 两个向量组可以互相线性表示,则 $A,B$ 向量组等价。

推论 9. 等价的向量组具有相同的秩。

现在我们将秩这一概念推广到线性空间的维度:

定义 10 (线性空间的维度). 设 $V$ 是数域 $\mathbb{K}$ 上的线性空间,若在 $V$ 中存在线性无关的向量 $e_1, e_2, \cdots, e_n$ ,使得 $V$ 中任一向量均可表示为这组向量的线性组合,则称 $\left\{e_1, e_2\right.$, $\left.\cdots, e_n\right\}$ 是 $V$ 的一组基,线性空间 $V$ 称为 $n$ 维线性空间($\dim_{\mathbb{K}}(V) = n$).如果不存在有限个向量组成 $V$ 的一组基,则称 $V$ 是无限维线性空间.
注. 可见,将向量族变为线性空间,极大线性无关组就是线性空间的基,向量族的秩(极大无关组的元素个数)就是线性空间的维度。

如果已知线性空间(向量族)的维度(秩)为 $n$,那么不需要再去寻找基(极大无关组),使其满足两个条件,接下来的定理告诉我们,只需要找到一个条件即可:

定理 11. $n$ 维线性空间 $V$, $\{e_1,e_2,\cdots,e_n\}$ 为给定向量组,若下列条件之一成立,则该向量组为 $V$的一组基:
(1) $\{e_1,e_2,\cdots,e_n\}$线性无关。
(2) $V$ 中任意向量可以表示为 $\{e_1,e_2,\cdots,e_n\}$的线性组合。

定理 12(基扩张定理). 设 $n$ 维线性空间 $V$,则
(1)$V$ 中任意 $m$ 个线性无关的向量可以扩张为 $V$ 的一组基。
(2)$V$ 中的任意一个子空间的基可以扩张为 $V$ 的一组基。

矩阵的秩

定义 1(矩阵的秩). 矩阵的行向量组的秩为矩阵的行秩,列向量组的秩为矩阵的列秩。

引理 2. 设 $\boldsymbol{A}$ 是 $m \times n$ 矩阵 且 $\boldsymbol{A}$ 的第 $j_1, \cdots,j_r$ 列向量是 $\boldsymbol{A}$ 的列向量的极大无关组, 则对任意的 $m$ 阶非异阵 $\boldsymbol{Q}$ , 矩阵 $\boldsymbol{Q A}$ 的第 $j_1, \cdots ,j_r$ 列 向量也是 $Q A$ 的列向量的极大无关组.
注. 若 $Q$不是非异阵,则该结论不成立,而是有弱一点的结论成立:$QA$的每一个列向量 可以由 $\{Q\alpha_{i_1},Q\alpha_{i_2},\cdots,Q\alpha_{i_r}\}$线性组合得到 ($\{\alpha_{i_1},\alpha_{i_2},\cdots,\alpha_{i_r}\}$为$A$的列极大无关组), 但是 $\{Q\alpha_{i_1},Q\alpha_{i_2},\cdots,Q\alpha_{i_r}\}$未必线性无关(因为消去律不存在), 则由上一节的定理3,$r(QA)\leq r(A)$.这也蕴含着一个结论,矩阵相乘之后的秩不可能增加(乘非异阵后秩不变)。

定理 3. 矩阵的行秩和列秩在初等变换下不发生改变。
注. 矩阵乘非异阵,秩不变;分块矩阵在分块初等变换下秩不变。

定理 4. 矩阵的行秩等于列秩。
注. 由于该定理,我们将矩阵的行秩和列秩统称为矩阵的秩,记为 $r(A)$ 或 $rank(A)$.

一些推论.

  1. $r(A) = r(A^{’})$
  2. 若 $P,Q$ 分别为 $m,n$ 阶非异阵,则 $r(PAQ) = r(A)$.
  3. 若$r(A) = r$,存在非异阵 $P,Q$,使得 $PAQ$ 为 $A$ 的相抵标准型,且相抵标准型 中的单位矩阵为 $I_r$.
  4. $A,B$相抵,当且仅当 $r(A) = r(B)$.

定义 5(满秩). 设 $A\in M_{m\times n}(\mathbb{K})$,若 $r(A) = m$ (等价于m个行向量线性无关),称 $A$ 为行满秩;若 $r(A) = n$(等价于n个列向量线性无关), 称 $A$为列满秩;若 $A\in M_{m\times m}(\mathbb{K})$,$A$的行满秩、列满秩等价, 当且仅当 $r(A) = m$,此时称 $A$ 为满秩阵。

定理 6. $A$为非异阵,当且仅当 $A$为满秩阵。
注. $|A|\neq 0\Leftrightarrow A\text{非异}\Leftrightarrow A\text{满秩}\Leftrightarrow \text{相抵于}I_n$

定义了矩阵的秩后,我们自然会有一个问题,如何计算一个实际数值矩阵的秩呢,一种直观的 方式就是利用初等变换将矩阵转化为相抵标准型,但是这种方法比较复杂,有没有更简单的方法呢。

定理 7(阶梯型矩阵的秩). $A$ 为阶梯型矩阵,$a_{1,k_1},a_{1,k_2},\cdots,a_{1,k_r}$ 为 $A$的阶梯点,则 $r(A) = r$,基矩阵的秩等于非零行个数,并且阶梯点所在的列向量可以构成 $A$ 的列向量组的极大无关组。
注. 利用该方法可以将数值矩阵只通过初等行变换得到阶梯型矩阵,再通过阶梯点的位置和引理 2 得到极大无关组,共有三种经典的题型:

  1. 求矩阵的秩以及其列向量的极大无关组:直接用定理7。
  2. 求行(列)向量的秩和线性关系:先以行(列)向量的形式拼成矩阵,再用定理7计算其秩,最后 比较秩和向量组的元素个数。
  3. 求行(列)向量的一组极大无关组:都以列向量的方式拼接为矩阵, 找到其相抵阶梯型对应的列极大无关组, 并且使用引理2得到原向量组中的极大无关组。

定理 8(子式判别法). $A\in M_{m\times n}(\mathbb{K})$ ,$r(A) = r$当且仅当 $A$ 有一个 $r$阶子式不为零,且所有的 $r+1$ 阶子式为 0.
注. 当 $A$ 为方阵且满秩时,该定理与定理6一致,即行列式不为零等价于满秩。

一些关于秩的常见等式、不等式.

  1. $C = \left(\begin{array}{ll} A & 0 \\ 0 & B \end{array}\right),r(C) = r(A)+r(B)$.
  2. $C = \left(\begin{array}{ll} A & D \\ 0 & B \end{array}\right)$ 或 $C = \left(\begin{array}{ll} A & 0 \\ D & B \end{array}\right) $,$r(C) \geq r(A)+r(B)$.
  3. 在分块矩阵章节中我们提到过计算行列式的降阶公式,利用同样的方法和分块矩阵秩的求法 也可以得到秩的降阶公式,和行列式的降阶公式基本一致,这里不再赘述。
  4. $A$ 为幂等阵($A^2 = A$)的充分必要条件是 $r(A)+r(I_n-A) = n$.
  5. $A\in M_{m\times n}(\mathbb{K})$,$B\in M_{n\times p}(\mathbb{K})$, 则 $r(A)+r(B)-n\leq r(AB)\leq min\{r(A),r(B)\}$,前一个不等式为Sylvesten不等式。

坐标向量

引理 1. $n$ 维线性空间 $V$, $\{e_1,\cdots,e_n\}$ 为基底,若 $\alpha\in V$,则 $\alpha$ 的表示唯一。

该定理告诉我们,如果我们固定基底的顺序,则线性空间的每一个元素可以用一个数组来表示, 数组中的第 $i$ 个元素对应第 $i$个坐标,该有序数组为在给定基底下的坐标向量。
从向量到有序数组是一个映射,将其表达为 $\phi:V\rightarrow K^n$,即从线性空间 到列空间的映射(也可以映射到行空间),该映射是一个一一对应关系(双射,单射加满射)。

定义 2(同构). 设 $U,V$ 为 $K$ 上的线性空间,并且有 $\phi:V\rightarrow U$ 的双射, 若对于 $\alpha,\beta\in V$,满足以下条件
(1). $\phi(\alpha+\beta) = \phi(\alpha)+\phi(\beta)$
(2). $\phi(k\alpha) = k\phi(\alpha)$
则称 $\phi:V\rightarrow U$为线性同构,简称 $V$同构于 $U$,记为 $V \cong U$.
注. 这两个条件也可以理解为该映射保持了线性空间中的线性组合关系; 前文中定义的 $\phi:V\rightarrow K^n$就是一种线性同构。

定理 3. 设 $\phi:V\rightarrow U$ 为线性同构,有

  1. $V$ 空间中的线性组合映射为 $U$空间的线性组合,且不同向量的线性相关关系不变。
  2. 若 $\phi:V\rightarrow K^n$,$\{\alpha_1,\cdots,\alpha_n\}$ 为 $V$中的一组 向量,若映射为 $\{\tilde{\alpha_1},\cdots,\tilde{\alpha_n}\}$,则两个向量组 的秩相同且极大无关组的指标一致。

注. 由于线性同构不改变向量的线性关系,所以可以通过将向量映射为有序数组的方式, 运用矩阵去便捷的求取一些量,例如秩,线性关系,极大无关组。

基变换与过渡矩阵

定义 1(过渡矩阵). 设 $\left\{e_1, e_2, \cdots, e_n\right\}$ 是数 域 $\mathbb{K}$ 上线性空间 $V$ 的一组基, $\left\{f_1, f_2\right.$ , $\left.\cdots, f_n\right\}$ 是另一组基,则 $f_1, f_2, \cdots, f_n$ 可用 $e_1, e_2, \cdots, e_n$ 的下列线性组合表示: $$ \left\{\begin{array}{c} \boldsymbol{f}_1=a_{11} \boldsymbol{e}_1+a_{21} e_2+\cdots+a_{n1} \boldsymbol{e}_n \\ \boldsymbol{f}_2=a_{12} \boldsymbol{e}_1+a_{22} \boldsymbol{e}_2+\cdots+a_{n2} \boldsymbol{e}_n \\ \cdots \cdots \cdots \cdots \\ \boldsymbol{f}_n=a_{n 1} \boldsymbol{e}_1+a_{2n} \boldsymbol{e}_2+\cdots+a_{n n} \boldsymbol{e}_n \end{array}\right. $$ 上述表示式中 $e_i$ 的系数组成了一个元素在 $\mathbb{K}$ 上的 $n$ 阶矩阵,这个矩阵的转置 $$ \boldsymbol{A}=\left(\begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{n n} \end{array}\right) $$ 称为从基 $\left\{\boldsymbol{e}_1, \boldsymbol{e}_2, \cdots, \boldsymbol{e}_n\right\}$ 到基 $\left\{\boldsymbol{f}_1, \boldsymbol{f}_2, \cdots, \boldsymbol{f}_n\right\}$ 的过渡矩阵.
注. 使用列分块的方式将基向量组成一个矩阵 $\left(e_1, e_2, \cdots, e_n\right)$,用该方法可以 将上述定义该写为 $(f_1,\cdots,f_n) = (e_1,\cdots,e_n)A$

推论 2. 设向量 $\alpha$在 $\left\{e_1, e_2, \cdots, e_n\right\}$ 基底下的坐标 为 $(\lambda_1,\cdots,\lambda_n)^{’}$,在 $\left\{f_1, f_2, \cdots, f_n\right\}$ 基底下的坐标 为 $(\mu_1,\cdots,\mu_n)^{’}$,若过渡矩阵的定义与上述一致,则有 $$ \left(\begin{array}{c} \lambda_1 \\ \lambda_2 \\ \vdots \\ \lambda_n \end{array}\right)=A\left(\begin{array}{c} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_n \end{array}\right) $$ 证明. $$ \begin{aligned} \alpha & =\left(\begin{array}{llll} e_1 & e_2 & \cdots & e_n \end{array}\right)\left(\begin{array}{c} \lambda_1 \\ \lambda_2 \\ \vdots \\ \lambda_n \end{array}\right) . \\ & =\left(\begin{array}{llll} f_1 & f_2 & \cdots & f_n \end{array}\right)\left(\begin{array}{c} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_n \end{array}\right) . \\ & =\left(\begin{array}{llll} e_1 & e_2 & \cdots & e_n \end{array}\right) A\left(\begin{array}{c} \mu_n \\ \mu_2 \\ \vdots \\ \mu_n \end{array}\right) \end{aligned} $$ 最后一步直接用了过渡矩阵的定义。QED

定理 3. 线性空间 $V_K$,取三组基:$\left\{e_1, e_2, \cdots, e_n\right\}$, $\left\{f_1, f_2, \cdots, f_n\right\}$ ,$\left\{g_1, g_2, \cdots, g_n\right\}$,定义从$e\rightarrow f$的过渡矩阵$A$, 从$f\rightarrow g$的过渡矩阵$B$,从$e\rightarrow g$的过渡矩阵$X$有
(1)任何过渡矩阵非异
(2)$X = AB$
注. 使用定理3的第二条求过渡矩阵是很有帮助的,若题目直接给两个基底,可以找 标准基底到这两个基底的过渡矩阵,再利用该定理求出需要求得的过渡矩阵,值得注意的是, 标准基底到任何基底的过渡矩阵都是直接将其他基底以列向量的形式拼成矩阵,因为标准基底 拼成的矩阵为单位阵。

线性子空间

定义 1(子空间). $V_K$ 为线性空间,$V_0$ 为 $V$ 的非空子集,若 $\forall \alpha\beta\in V_0$, $\forall k\in K$,有 $\alpha+\beta \in V_0,k\alpha\in V_0$,则称 $V_0$ 为 $V$ 的线性子空间, 简称为子空间。
注.
(1). 线性子空间的条件就是满足向量线性运算的封闭性,线性子空间本身也是线性空间, 既 $V_0$在 $V_K$ 的加法和数乘下是 $K$上的线性空间,因此将其称作子线性空间 也没什么不好的。
(2). 所有的线性空间都含有至少两个线性子空间;零空间$\{0\}$和全空间 $V$,我们将这两个 子空间称作平凡子空间,其余的子空间称作非平凡子空间。

定理 2(子空间的维度). 若 $V_0$ 为 $V$ 的子空间,则有 $$ 0\leq\dim V_0\leq\dim V $$ 若 $V_0$ 为非平凡子空间,则不等号变为严格不等号。

定义 3(交空间,和空间) 设 $V_1,V_2$ 为 $V$ 的子空间,定义 $V_1,V_2$ 的交为 集合交 $V_1\cap V_2 = \{ \alpha\mid \alpha\in V_1,\alpha\in V_2\}$,定义二者的和为 $ V_1+V_2 = \{\alpha+\beta\mid \alpha\in V_1,\beta\in V_2\}$。
注. 交空间与和空间都是 $V$ 的子空间,虽然有并空间这一说, 但是并空间一般不是子空间,实际上,若使用张成子空间的概念,有$L(V_1\cup V_2) = V_1+V_2$.

定义 4(张成子空间). $S$ 为线性空间 $V$ 中的一个向量族,$S\subseteq V$,记 $L(S)$ 为 $S$ 中所有可能的线性组合构成的集合,即 $$ L(S) = \{\lambda_1\alpha_1+\cdots+\lambda_m\alpha_m\mid \lambda_i\in K,\alpha_i\in S,0\leq i\leq m\} $$ 容易证明,$L(S)$ 为 $V$ 的子空间,称 $L(S)$ 为 $S$ 张成的子空间。

定理 5. 定理5包含两个定理:
(1)$L(S)$ 是 $V$ 中包含 $S$ 的最小子空间。
(2)若 $S$ 存在极大无关组 $\{\alpha_1,\cdots,\alpha_r\}$, 则 $L(S) = L(\{\alpha_1,\cdots,\alpha_r\})$,且 $\{\alpha_1,\cdots,\alpha_r\}$ 为 $L(S)$ 的基,有 $\dim L(S) = r(S)$。

定理 6(维度公式). 设 $V_1,V_2$ 为 $V$ 的子空间,有$$\dim (V_1+V_2) = \dim V_1+\dim V_2-\dim(V_1\cap V_2)$$
注. 该定理成立蕴含着 $V_1+V_2$ 的基底可以由 $V_1,V_2,V_1\cap V_2$ 的基底拼接而成(需要去掉重复部分)。注意 若 $V_1\cap V_2 = \{0\}$,则有 $\dim (V_1+V_2) = \dim V_1+\dim V_2$,这样的性质是很好的, 我们是否可以推广这一性质呢?

定义 7(直和). 设 $V_1, V_2, \cdots, V_m$ 是线性空间 $V$ 的子空间,若对一切 $i(i=$ $1,2, \cdots, m)$ , $$ \begin{aligned} & V_i \cap\left(V_1+\cdots+V_{i-1}+V_{i+1}+\cdots+V_m\right)=0 \end{aligned} $$ 则称和 $V_1+V_2+\cdots+V_m$ 为直接和,简称直和,记为 $$ V_1 \oplus V_2 \oplus \cdots \oplus V_m $$ 注. 等式右边的 $0$指的是 $\{0\}$,而不是空集。

定理 8. 设 $V_1, V_2, \cdots, V_m$ 是线性空间 $V$ 的子空间,$V_0=V_1+V_2+\cdots+$ $V_m$ ,则下列命题等价:
(1)$V_0=V_1 \oplus V_2 \oplus \cdots \oplus V_m$ 是直和;
(2)对任意的 $2 \leq i \leq m$ , $$ V_i \cap\left(V_1+V_2+\cdots+V_{i-1}\right)=0 $$
(3) $\operatorname{dim}\left(V_1+V_2+\cdots+V_m\right)=\operatorname{dim} V_1+\operatorname{dim} V_2+\cdots+\operatorname{dim} V_{m i}$
(4)$V_1, V_2, \cdots, V_m$ 的一组基可以拼成 $V_0$ 的一组基;
(5)分块表示唯一:$V_0$ 中的向量表示为 $V_1, V_2, \cdots, V_m$ 中的向量之和时其表示唯一,即苦 $\alpha \in$ $V_0$ 且 $$ \alpha=v_1+v_2+\cdots+v_m=u_1+u_2+\cdots+u_m $$ 其中 $\boldsymbol{v}_i, \boldsymbol{u}_i \in V_i$ ,则 $\boldsymbol{u}_i=\boldsymbol{v}_i(i=1,2, \cdots, m)$ .

求解线性方程组

定理 1(线性方程组求解的判定定理). 设线性方程组的系数矩阵为 $A\in M_{m\times n}(K)$($n$ 为未定元的个数),增广矩阵为 $\tilde{A}$, 则线性方程组的解是否存在可以由以下几点判定:

  1. 若 $r(A) = r(\tilde{A}) = n$,则方程有且仅有一组解。
  2. 若 $r(A) = r(\tilde{A}) < n$,则方程有无穷多组解。
  3. 若 $r(A)\neq r(\tilde{A})$,(或者 $r(\tilde{A}) = r(A)+1$),方程无解。

如何将无穷多组解用简洁的形式表示呢,这是解线性方程组的终极目标。

引理 2(齐次线性方程组的解). 设 $\gamma$ 是 非齐次线性方程组 $Ax = \beta$($\beta = 0$:齐次;反之,非齐次) 的一个解,则 $\alpha$ 为该线性方程组的解当且仅当 $\alpha-\gamma$ 是相伴的齐次线性方程组的解。

下面考虑齐次线性方程组,并探索解的结构定理。考虑齐次线性方程组 $Ax = 0$,令 $V_A = \{x\in K^n\mid Ax = 0\}$为该方程组的解集,注意,$0$必然在该解集中。

定理 3(解空间). $V_A$ 是 $K^n$ 的线性子空间,称其为解空间。

定理 4(齐次线性方程组解的结构定理). 设 $Ax = \beta$,若 $r(A) = r$,令 $r(A)<n$, 则 $V_A$ 是 $K^n$ 的 $n-r$维子空间,从而存在解空间的一组基 $\{\eta_1,\eta_2,\cdots,\eta_{n-r}\}$, 使得 $Ax = 0$ 的所有解都可以写做其的线性组合,称这一组基为齐次线性方程组的基础解系。
注. 一种直观理解的方式:因为秩为 $r$,所以可以用极大无关组的性质,唯一的确定 $r$ 个未定元, 这时还剩 $n-r$ 个未定元未确定,也就是解空间的自由度为 $n-r$,即 $n-r$ 维子空间;实际上, 在理论推导的过程中,会将 $A$通过初等行变换和初等列变换(一)转化为 $C = \left(\begin{array}{ll} I_r & C \\ 0 & 0 \end{array}\right)$

定理 5(非齐次线性方程组解的结构定理). 设 $r(A) = r$,$\gamma$为 $Ax = \beta$的一个特解, $\{\eta_1,\eta_2,\cdots,\eta_{n-r}\}$为其相伴的齐次线性方程组的基础解系,则 $Ax = \beta$的通解为: $$ x = \gamma +k_1 \eta_1+k_2\eta_2+\ldots+k_{n-r}\eta_{n-r} $$ 其中 $k_i\in K$。


线性方程组一般求解方法:

  1. 通过初等行变换把 $\tilde{A}$ 变为阶梯型,判断 $r(A)$ 是否等于 $r(\tilde{A})$以及解的情况。
  2. 继续对阶梯矩阵实行初等行变换和列对换,将其变为解线性方程组的标准型:$C = \left(\begin{array}{lll} I_r & C &\gamma\\ 0 & 0 &0 \end{array}\right)$,找到特解 $\left(\begin{array}{l} \gamma\\ 0 \end{array}\right)$以及基础解系 $$ \gamma=\left(\begin{array}{c} d_1 \\ \vdots \\ d_r \\ 0 \\ \vdots\\ 0 \end{array}\right), \boldsymbol{\eta}_1=\left(\begin{array}{c} -c_{1, r+1} \\ \vdots \\ -c_{r, r+1} \\ 1 \\ \vdots \\ 0 \end{array}\right), \cdots, \boldsymbol{\eta}_{n-r}=\left(\begin{array}{c} -c_{1 n} \\ \vdots \\ -c_{r n} \\ 0 \\ \vdots \\ 1 \end{array}\right) $$
  3. 根据列对换情况,调整 $\gamma, \boldsymbol{\eta}_1, \cdots, \boldsymbol{\eta}_{n-r}$ 的各分量,得到原方程组的特解 $\delta$ 以及原方程组相伴齐次线性方程组的基础解系 $\xi_1, \cdots, \xi_{n-r}$ .最后写出原方程组的解: $$ k_1 \boldsymbol{\xi}_1+\cdots+k_{n-r} \boldsymbol{\xi}_{n-r}+\boldsymbol{\delta} $$ 其中 $k_1, \cdots, k_{n-r}$ 为参变数.

注. 这是严格按照证明方法的求解过程,可以保证解正确,根据我们之前的结论,向量组的极大无关组不唯一, 如何更快捷的找到一组合适的极大无关组呢?可以延续上述方法,先化为解线性方程组的标准型, 此时我们可以唯一的确定几个未定元(也可能无法确定,只有约束其的方程), 我们可以将其他没有约束条件的未定元写成未知数的形式(线性组合的系数),根据约束条件表示另外的未定元, 举个例子: $$ \left(\begin{array}{c} x_2+x_3 \\ x_2 \\ x_3 \\ 1 \end{array}\right)=\left(\begin{array}{c} 0 \\ 0 \\ 0 \\ 1 \end{array}\right)+x_2\left(\begin{array}{c} 1 \\ 1 \\ 0 \\ 0 \end{array}\right)+x_3\left(\begin{array}{c} 1 \\ 0 \\ 1 \\ 0 \end{array}\right) $$ $x_2,x_3$可以取 $K$ 中的任何常数。

线性方程组结构定理的几何视角
若 $n=3$,即整个线性空间是 $\mathbb{R}^3$,当解空间是 $2$ 维时,对于齐次线性方程组来说, 解空间是过原点的平面,对于对应的非齐次线性方程组, 则是在该平面的基础上平移一个特解向量,非齐次线性方程组的解空间称为仿射子空间。


推论 6. $Ax = \beta$ 的特解为 $\gamma$,相伴齐次线性方程组的基础解系为 $\{\eta_1,\eta_2,\cdots,\eta_{n-r}\}$,则有

  1. $\gamma,\gamma+\eta_1,\cdots,\gamma+\eta_{n-r}$ 线性无关。
  2. $\gamma,\gamma+\eta_1,\cdots,\gamma+\eta_{n-r}$可以构成仿射子空间的一组基, 且任意解的线性组合系数之和为 $1$。

我们在本节得到了一个重要结论,对于 $Ax = 0$的解空间,有 $\dim V_A = n-r(A)$,该定理可以得到以下推论:

  1. $A$ 为非异阵当且仅当 $Ax = 0$ 只有零解。
  2. $r(AA^{’}) = r(A^{’}A) = r(A) = r(A^{’})$(证明思路:$Ax=0$和$A^{’}Ax = 0$同解,构造 $x^{’}A^{’}Ax = (Ax)^{’}Ax = 0$的二次型)

第四章 线性映射

线性映射的概念及其运算

映射具有单值性,一对多的东西不是映射,那个东西不是 Well-define 的。

定义 1(关于映射). 对于 $A,B$ 集合,定义一个映射 $f:A\rightarrow B$,$\forall a\in A$, 都有唯一的 $b\in b$ 使得 $f(a) = b$,有以下定义:

  1. 若 $I_m f = B$(映射的像集$I_m = f(A)$),称该映射为满射。
  2. 若 $f(a) = f(b)$,必有 $a=b$,则该映射为单射。
  3. 若映射既是单射又是满射,则称该映射为双射或一一对应。
  4. $g:A\rightarrow A$ 的映射通常称为变换。
  5. 映射 $f,g:A\rightarrow b$,$f = g\iff f(a) = g(a),\forall a\in A$.
  6. 可以定义映射的复合,$f:A\rightarrow B,g:B\rightarrow C$,则 $g\circ f:A\rightarrow C$, 并且这种复合具有结合律。
  7. 设 $f:A\rightarrow B,g:B\rightarrow A$,若 $f\circ g =1_B,g\circ f= 1_A $ ($1_A$为集合$A$中的恒等映射),则称 $g$ 为 $f$ 的逆映射,记为 $g = f^{-1}$。

引理 2. $f:A\rightarrow B$映射,则 $f^{-1}$存在$\iff f$为双射。

定义 3(线性映射). 设 $V,U$ 为 $K$ 上的线性空间,$\phi:V\rightarrow U$,若对 所有的 $\alpha,\beta\in V;k,l\in K$,有 $$ \phi(k\alpha+l\beta) = k\phi(\alpha)+l\phi(\beta) $$ 则该映射为线性映射,特别的,若 $U = V$,该映射为线性变换; 若该映射是单(双)射,称其为单(双)线性映射,若为满射,则称其为线性同构。
注. 这里线性同构的定义和上一章坐标向量的一节一致。

推论 4. 线性映射 $\phi:V\rightarrow U$,有

  1. $\phi(0_V) = 0_U$
  2. 双射的逆也为双射,若 $\phi$ 为线性同构,则 $\phi^{-1}$ 为线性同构。
  3. 线性映射(同构)的复合为线性映射(同构)
  4. 线性同构是等价关系
  5. 线性空间存在同构关系 $\iff$ 线性空间的维度相同

注. 线性空间存在同构并不意味着所有对于该线性空间的映射都是同构,同构是对于映射而言的。

命题 5. 设 $\mathcal{L}(V,U)$ 为 $V\rightarrow U$ 的线性映射全体构成的集合,在之前定义的 线性映射计算规则下,$\mathcal{L}(V,U)$ 是 $K$ 上的线性空间;特别的,$\mathcal{L}(V,K)$ 是 $V$ 的共轭空间或对偶空间,$\mathcal{L}(V,V) = \mathcal{L}(V)$中还可以定义映射的复合,可见其不止是一个线性空间, 实际上这是一个 $K$ 上的代数。

定义 6(代数). 设 $A$ 是数域 $\mathbb{K}$ 上的线性空间,如果在 $A$ 上 定义了一个乘法 “$\cdot$” (通常可以省略),使对任意的 $A$ 中元素 $a, b, c$ 及 $\mathbb{K}$ 中元素 $k$ ,适合下列条件:
(1)乘法结合律:$a \cdot(b \cdot c)=(a \cdot b) \cdot c$ ;
(2)存在 $A$ 中元 $e$ ,使对一切 $a \in A$ ,均有 $$ e \cdot a=a \cdot e=a $$ (3)分配律: $$ \begin{aligned} & a \cdot(b+c)=a \cdot b+a \cdot c \\ & (b+c) \cdot a=b \cdot a+c \cdot a \end{aligned} $$ (4)乘法与数乘的相容性: $$ (k a) \cdot b=k(a \cdot b)=a \cdot(k b) $$ 则称 $A$ 是数域 $\mathbb{K}$ 上的代数,元素 $e$ 称为 $A$ 的恒等元.

定理 7(线性函数全体是代数). 设 $V$ 是数域 $\mathbb{K}$ 上的线性空间,则 $\mathcal{L}(V)$ 是 $\mathbb{K}$ 上的代数.

我们可以在该代数上定义映射的幂,通过一系列定义(详见书本)可以发现,该定义和矩阵的运算规则极其相似, 线性映射和矩阵到底有何关系,是否可以通过一些方法将二者联系起来呢?

线性映射与矩阵

定理 1(线性扩张定理). 设 $V,U$ 是 $K$ 上的两个线性空间,$\{e_1,\cdots,e_n\}$为 $V$ 的一组基,$\{f_1,\cdots,f_n\}$ 为 $U$ 中的一组向量,则存在唯一的线性映射 $\phi:V\rightarrow U $,使得 $\phi(e_i) = f_i$.
注. 该定理表示,只要定义线性映射在基向量上的取值,就可以扩张到整个线性空间,所以定义线性映射时,常常只说明在基向量上的映射。

定义 2(表示矩阵). 设 $\left\{e_1, e_2, \cdots, e_n\right\}$ 是数 域 $\mathbb{K}$ 上线性空间 $V$ 的一组基, $\left\{f_1, f_2\right.$ , $\left.\cdots, f_m\right\}$ 是 $U$ 上的一组基,线性映射$\phi:V\rightarrow U $ 设: $$ \left\{\begin{array}{c} \phi(e_1)=a_{11} \boldsymbol{f}_1+a_{21} f_2+\cdots+a_{m1} \boldsymbol{f}_m \\ \phi(e_2)=a_{12} \boldsymbol{f}_1+a_{22} \boldsymbol{f}_2+\cdots+a_{m2} \boldsymbol{f}_m \\ \cdots \cdots \cdots \cdots \\ \phi(e_n)=a_{n 1} \boldsymbol{f}_1+a_{2n} \boldsymbol{f}_2+\cdots+a_{m n} \boldsymbol{f}_m \end{array}\right. $$ 上述表示式中 $f_i$ 的系数组成了一个元素在 $\mathbb{K}$ 上的 $n$ 阶矩阵,这个矩阵的转置 $$ \boldsymbol{A}=\left(\begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{n n} \end{array}\right) $$ 称为给定基下线性映射 $\phi$ 的过渡矩阵。
注. 与过渡矩阵类似,可以将该表达式写为 $(\phi(e_1),\cdots,\phi(e_n)) = (e_1,\cdots,e_n)A$

定理 3(坐标的线性映射). 设向量 $\alpha$在 $\left\{e_1, e_2, \cdots, e_n\right\}$ 基底下的坐标 为 $(\lambda_1,\cdots,\lambda_n)^{’}$,在 $\left\{f_1, f_2, \cdots, f_n\right\}$ 基底下经过线性映射 $\phi$ 的坐标 为 $(\mu_1,\cdots,\mu_n)^{’}$,若表示矩阵的定义与上述一致,则有 $$ \left(\begin{array}{c} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_n \end{array}\right)=A\left(\begin{array}{c} \lambda_1 \\ \lambda_2 \\ \vdots \\ \lambda_n \end{array}\right) $$ 注. 这里与基变换略有不同,基变换是矩阵乘新坐标得到旧坐标,这里是矩阵乘原像得到像,顺序不一样。

命题 4(线性映射与矩阵). 定义映射 $T:\mathcal{L}(U,V)\rightarrow M_{m\times n}(K)$, $\phi$ 在给定基下的表示矩阵为 $A$,映射 $T$ 具有如下性质:
(1)映射 $T$ 是满射,单射,是一一对应,是线性同构
(2)设 $\varphi \in \mathcal{L}(V, U), T(\varphi)=\boldsymbol{A}$ 是 $\varphi$ 在给定基下的表示矩阵.我们约定用 $\varphi_A$ 表示从 $\mathbb{K}_n \rightarrow \mathbb{K}_m$ 的线性映射,即若 $\boldsymbol{x} \in \mathbb{K}_n$ ,则 $\varphi_A(x)=A x$ .于是有,$\eta_2 \varphi=\varphi_A \eta_1$ ,即有下图所示的交换图. $$ \begin{CD} V @>\varphi>> U \\ @V\eta_1VV @VV\eta_2V \\ \mathbb{K}_n @>\varphi_A>> \mathbb{K}_m \end{CD} $$ 注 1. $T$ 为线性同构意味着线性映射和表示矩阵一一对应:矩阵就意味着线性映射,任何一个线性映射都可以写为矩阵的形式;交换图意味着我们可以将几何问题等价的看作代数问题。
注 2. 该交换图是几何和代数之间的桥梁,有了该定理,当遇到几何问题时,可以将其翻译成代数语言进行证明,或者遇到代数问题时,可以将其翻译成几何语言进行证明。

映射 $T$ 似乎不只是线性同构,我们在上一节中注意到,线性映射和矩阵有很多相似之处。

定理 5. 设线性映射 $\phi:V\rightarrow U$,$\varphi:U\rightarrow W$,则有 $$ T(\varphi\circ\phi) = T(\varphi)T(\phi) $$

可见,这两个线性空间之间存在乘法的相容性,矩阵乘法的意义是线性变换的复合,映射 $T$ 是 $K$ 上的代数!

推论 6. 定义映射 $T:\mathcal{L}(V)\rightarrow M_{n}(K)$,有
(1)$T(1_V) = I_N$
(2)$\phi\in\mathcal{L}(V)$,则 $\phi$ 自同构 $\iff T(\phi)$可逆,且有 $T(\phi^{-1}) = T(\phi)^{-1}$

定义 7(矩阵相似). 设 $A,B\in M_n(K)$,若存在 $n$ 阶非异阵,使得 $$B = P^{-1}AP$$ 则称 $A$ 与 $B$ 相似,记为 $A\approx B$.
注. 相似是等价关系,满足自反性、对称性、传递性。

定理 8(线性变换在不同基下的表示矩阵相似). $V$ 是数域 $\mathbb{K}$ 上的线性空间,$\varphi \in \mathcal{L}(V)$ ,又设 $\left\{e_1, e_2, \cdots, e_n\right\}$和 $\left\{f_1, f_2, \cdots, f_n\right\}$ 是 $V$ 的两组基且从 $\left\{e_1, e_2, \cdots, e_n\right\}$ 到 $\left\{f_1, f_2, \cdots, f_n\right\}$ 的过渡矩阵为 $P$ .若 $\varphi$ 在基 $\left\{e_1, e_2, \cdots, e_n\right\}$ 下的表示矩阵为 $A$ ,在基 $\left\{f_1, f_2, \cdots, f_n\right\}$下的表示矩阵为 $\boldsymbol{B}$ ,则 $$ B=P^{-1} A P $$


我们自然会有这样的问题:既然线性变换可以在不同基底下表示且满足相似关系,那么是否存在一个矩阵可以更简单的描述线性变换呢,或者说,任意一个矩阵是否相似于一个比较简单的矩阵?

线性映射的像与核

定义 1(像与核). $\phi:V\rightarrow U$线性映射,则有
(1)$\phi$ 的像:$Im\phi = \{\phi(v)\mid v\in V\}$
(2)$\phi$ 的核:$\ker\phi = \{v\in V\mid \phi(v) = 0_U\}$
称 $\dim Im\phi$ 为 $\phi$ 的秩,记为 $r(\phi)$;称 $\dim \ker \phi$ 为 $\phi$ 的零度。
注. 像与核是针对线性映射而言的,以下描述默认映射为线性映射 $\phi:V\rightarrow U$。

引理 2(像空间,核空间). $Im \phi$ 为 $U$ 的子空间,$\ker \phi$ 为 $V$ 的子空间, 所以称它们为像空间和核空间。

使用像空间和核空间有一个好处,就是可以利用二者的性质推断映射的性质:

定理 3. 若 $\phi$ 为满射,则 $\dim Im\phi = \dim U$;若 $\phi$ 为单射,则 $\dim \ker \phi = 0$,即 $\ker \phi$ 为零子空间。

命题 4(线性映射的限制). 设 $\varphi: V \rightarrow U$ 为线性映射,$V^{\prime} \subseteq V, U^{\prime} \subseteq U$ 为子空间且满足 $\varphi\left(V^{\prime}\right) \subseteq U^{\prime}$ ,则通过定义域的限制可得线性映射 $\varphi^{\prime}: V^{\prime} \rightarrow U^{\prime}$ ,使得 $\varphi^{\prime}$ 与 $\varphi$ 具有相同的映射法则.进一步,若 $\varphi$ 是单映射,则 $\varphi^{\prime}$ 也是单映射.

映射的秩和零度可以利用上一节的交换图来推导,即将线性映射和其对应的矩阵联系起来:

定理 5. 设 $V, U$ 分别是数域 $\mathbb{K}$ 上的 $n$ 维和 $m$ 维线性空间,又设 $\left\{e_1, e_2\right.$ , $\left.\cdots, e_n\right\}$ 是 $V$ 的基,$\left\{f_1, f_2, \cdots, f_m\right\}$ 是 $U$ 的基.设 $\varphi$ 是 $V \rightarrow U$ 的线性映射,它在给定基下的表示矩阵为 $A$ ,则 $$ \operatorname{dim} \operatorname{Im} \varphi=\operatorname{rank}(\boldsymbol{A}), \quad \operatorname{dim} \operatorname{Ker} \varphi=n-\operatorname{rank}(\boldsymbol{A}) $$ 注. 该定理尤为重要,其中的思想可以表示为:将线性映射和矩阵联系在一起,则$\ker \phi$ 是 $Ax = 0$ 的解空间(可以利用解空间的结构定理判断维度); $\operatorname{Im}\phi$ 是 $A$ 的列向量张成的子空间,可以用 $A$ 的秩判断维度。

一些推论. 由定理5得到的一些推论如下(线性映射的定义与定理5一致):

  1. $n = \dim V = \dim\operatorname{Im}\phi+\dim \ker \phi$.
  2. $\phi$ 为满射 $\iff r(A) = \dim U = m$,$A$ 行满秩。
  3. $\phi$ 为单射 $\iff r(A) = \dim V = n$,$A$ 列满秩。
  4. 若 $\dim V = \dim U = n$,则 $\phi$同构 $\iff\phi$ 单射$\iff\phi$ 满射。
  5. $\phi\in\mathcal{L}(V)$,则 $\phi$ 是单射 $\iff\phi$ 满射$\iff\phi$ 在任意基底下的表示矩阵非异。

关于像空间和列空间的计算
有些题目会给出线性映射的表示矩阵或者线性映射本身,要求计算线性映射的像空间和核空间,此时只需记住定理5的注:$\ker \phi$ 是 $Ax = 0$ 的解空间; $\operatorname{Im}\phi$ 是 $A$ 的列向量张成的子空间。按照求解线性方程组的方法找解空间的基础解系和 $A$ 的列向量的极大无关组经过线性映射得到的表示,再进行线性组合即可;注意映射的像空间和核空间元素是抽象的向量而不是坐标向量。

不变子空间

定义 1(不变子空间). 设 $\varphi$ 是线性空间 $V$ 上的线性变换,$U$ 是 $V$ 的子空间,若 $U$ 适合条件 $$ \varphi(U) \subseteq U $$ 则称 $U$ 是 $\varphi$ 的不变子空间(或 $\varphi$-不变子空间).这时把 $\varphi$ 的定义域限制在 $U$ 上,则 $\varphi$ 在 $U$ 上定义了一个线性变换,称为由 $\varphi$ 诱导出的线性变换,或称为 $\varphi$ 在 $U$上的限制,记为 $\left.\varphi\right|_U$ .
注. 可以证明,$0,V,\ker \phi,Im\phi$ 都是 $\phi$不变子空间。

引理 2. $\phi\in \mathcal{L}(V),U = L(\alpha_1,\cdots,\alpha_m)$是张成的子空间,则 $U$ 是 $\phi$不变子空间 $\iff$ $\phi(\alpha_i)\in U$

定理 3. 设 $U$ 是 $V$ 上线性变换 $\varphi$ 的不变子空间,且设 $U$ 的基为 $\left\{e_1, e_2\right.$ , $\left.\cdots, e_r\right\}$ 。将 $\left\{e_1, e_2, \cdots, e_r\right\}$ 扩充为 $V$ 的一组基 $\left\{e_1, e_2, \cdots, e_r, e_{r+1}, \cdots, e_n\right\}$ ,则 $\varphi$ 在这组基下的表示矩阵是分块上三角阵:$\left(\begin{array}{ll} A_{r\times r} & B \\ 0 & D \end{array}\right)$
注. 该定理的逆命题同样成立,$\varphi$ 在一组基底下的表示矩阵为上述分块上三角阵,则这组基的前 $r$ 个基底张成的线性空间是 $\phi$ 不变子空间。

推论 4. 设 $V=V_1 \oplus V_2$ 且 $V_1, V_2$ 都是线性变换 $\varphi$ 的不变子空间.又 $\left\{e_1, \cdots, e_r\right\}$ 是 $V_1$ 的基,$\left\{e_{r+1}, \cdots, e_n\right\}$ 是 $V_2$ 的基,则 $\varphi$ 在基 $\left\{e_1, e_2, \cdots, e_n\right\}$下的表示矩阵为分块对角阵 $$ \left(\begin{array}{cc} A_1 & O \\ O & A_2 \end{array}\right) $$ 其中 $\boldsymbol{A}_1$ 为 $r$ 阶方阵, $\boldsymbol{A}_2$ 为 $n-r$ 阶方阵。
注. 该定理同样可以推广到高维状态的分块对角阵,若每一个直和元素都是一维度的不变子空间,则该分块对角阵就是对角阵。

第五章 多项式

一元多项式代数与整除

定义 1(一元多项式). 设 $\mathbb{K}$ 是数域,$x$ 为一个形式符号(称为未定元),若 $a_0, a_1, \cdots, a_n \in$ $\mathbb{K}\left(a_n \neq 0, n \geq 0\right)$ ,称形式表达式 $$ a_n x^n+a_{n-1} x^{n-1}+\cdots+a_1 x+a_0 $$ 为数域 $\mathbb{K}$ 上关于未定元 $x$ 的一元 $n$ 次多项式. $\mathbb{K}$ 上的一元多项式全体记为 $\mathbb{K}[x]$ .

多项式并不是函数,而只是一个抽象的元素的定义,我们可以对该抽象元素定义加法和数乘,其定义方式和性质都与我们的直觉一致,这里不再描述。

可以证明,$K[x]$ 是 $K$ 上的线性空间,并且在乘法的定义下,是 $K$ 上的代数,并且是交换代数。

定理 2(多项式的次数). $f(x),g(x)\in K[x],\deg f(x)$ 为 $f(x)$ 的首项次数,有
(1)$\deg(f(x)g(x)) = \deg f(x)+\deg g(x)$
(2)$\deg(f(x)+g(x))\leq \max\{\deg f(x),\deg g(x)\}$

接下来对比 $K[x]$ 与整数环之间有没有相同的性质,整数环中可以定义整除,每个元素都可以写成若干素数的乘积,并且还有最小公倍数、最大公因数等等定义,现在放在多项式空间中研究这些性质。

定义 3(整除). 设 $f(x), g(x) \in \mathbb{K}[x]$ ,若存在 $h(x) \in \mathbb{K}[x]$ ,使 $$ f(x)=g(x) h(x) $$ 则称 $g(x)$ 是 $f(x)$ 的因式,或 $g(x)$ 可以整除 $f(x)$ ,或 $f(x)$ 可以被 $g(x)$ 整除,记为 $g(x) \mid f(x)$ .否则称 $g(x)$ 不能整除 $f(x)$ ,或 $f(x)$ 不能被 $g(x)$ 整除.

定义 4(相伴). 若 $f(x) = cg(x),0\neq c\in K$, 则称 $f(x)$ 与 $g(x)$ 相伴,记为 $f(x)\sim g(x)$.
注. 相伴是等价关系。

定理 5(带余数除法). 设 $f(x), g(x) \in \mathbb{K}[x], g(x) \neq 0_2$ 则必存在唯一的 $q(x), r(x) \in$ $\mathbb{K}[x]$ ,使 $$ f(x)=g(x) q(x)+r(x) $$ 且 $\operatorname{deg} r(x)<\operatorname{deg} g(x)$ .

最大公因式

定义 1(g.c.d.,l.c.m.). 设 $f(x), g(x) \in \mathbb{K}[x]$ ,若 $d(x)$ 是 $f(x)$ 与 $g(x)$ 的公因式,且对 $f(x)$ 与 $g(x)$ 的任一公因式 $h(x)$ 均有 $h(x) \mid d(x)$ ,则称 $d(x)$ 为 $f(x)$ 与 $g(x)$ 的最大公因式(或称 $d(x)$ 为 $f(x), g(x)$ 的 g.c.d.),记为 $d(x)=(f(x), g(x))=g.c.d.(f(x),g(x))$
同理,若 $m(x)$ 是 $f(x)$ 与 $g(x)$ 的公倍式,且对 $f(x)$ 与 $g(x)$ 的任一公倍式 $l(x)$ 均有 $m(x) \mid l(x)$ ,则称 $m(x)$ 为 $f(x)$ 与 $g(x)$ 的最小公倍式(或称 $m(x)$ 为 $f(x), g(x)$ 的 l.c.m.),记为 $m(x)=[f(x), g(x)] = l.c.m.(f(x),g(x)) $
注. 该定义可以推广到一个序列的最大公因式和最小公倍式。

定理 2(辗转相除法求最大公因式). 设 $f(x), g(x) \in \mathbb{K}[x]$ ,则 $f(x)$ 与 $g(x)$ 的最大公因式 $d(x)$ 必存在,且有 $u(x), v(x) \in \mathbb{K}[x]$ ,使 $$ f(x) u(x)+g(x) v(x)=d(x) $$ 注 1. 该定理的证明过程可以作为一种寻找最大公因式的方式,由于余式的次数小于除式子,所以可以构造 $$ \begin{gathered} f(x)=g(x) q_1(x)+r_1(x),\deg r_1(x)<\deg g(x) \\ g(x)=r_1(x) q_2(x)+r_2(x),\deg r_2(x)<\deg r_1(x) \\ r_1(x)=r_2(x) q_3(x)+r_3(x),\deg r_3(x)<\deg r_2 \\ \ldots \cdots \cdots \cdots \\ r_{s-2}(x)=r_{s-1}(x) q_s(x)+r_s(x) ,0=\deg r_s(x)<\deg r_{s-1}(x) \end{gathered} $$ 总可以迭代到一定的次数,使得 $r_s = 0$,此时 $r_{s-1}$就是最大公因式,即 $d(x)$,将该过程第一个式子的 $r_1$ 代入第二个式子后,将 $r_2$ 代入第三个式子,以此类推,便可以得到如下形式: $$ f(x) u(x)+g(x) v(x)=r_{s-1}(x) $$ 该过程就是Enclid辗转相除法。
注 2. 该定理并不表示最大公因式唯一,容易证明,不同的最大公因式是相伴关系,于是我们定义以后说的最大公因式都是首一多项式,即最高次项前面的系数为1,如此定义的最大公因式唯一,同理,也可以这样定义最小公倍式。

定理 3(多项式序列的最大公因式). 设 $f_1(x), f_2(x), \cdots, f_m(x) \in \mathbb{K}[x]$ ,则 $$\left(\left(f_1(x), f_2(x)\right), f_3(x), \cdots, f_m(x)\right)=\left(f_1(x), f_2(x), \cdots, f_m(x)\right)$$ 注. 通过该定理可以对问题的规模进行降维,再两两多项式使用辗转相除法寻找最大公因式,从而迭代的找到多项式序列的最大公因式。

现在转而描述一种的多项式关系:互素:

定义 4(互素). 设 $f(x), g(x) \in \mathbb{K}[x]$ ,若 $(f(x), g(x))=1$ ,则称 $f(x)$ 与 $g(x)$ 互素。

定理 5(互素的一个充要条件). 设 $f(x), g(x) \in \mathbb{K}[x]$ ,则 $f(x)$ 与 $g(x)$ 互素的底分必要条件是存在 $u(x), v(x) \in \mathbb{K}[x]$ ,使 $$ f(x) u(x)+g(x) v(x)=1 . $$

推论 6(互素的相关性质). 互素多项式有一些很好的性质:

  1. 若 $f_1(x)\mid g(x),f_2(x)\mid g(x)$,且 $(f_1(x),f_2(x)) = 1$,则 $$ f_1(x)f_2(x)\mid g(x) $$
  2. 若 $(f(x),g(x)) = 1$,且 $f(x)\mid g(x)h(x)$,则 $$ f(x)\mid h(x). $$
  3. 若 $(f(x),g(x)) = d(x),f(x) = f_1(x)d(x),g(x) = g_1(x)d(x)$,则$$(f_1(x),g_1(x)) = 1.$$
  4. 设 $(f(x), g(x))=d(x)$ ,则 $$ (t(x) f(x), t(x) g(x))=t(x) d(x) $$
  5. 若 $\left(f_1(x), g(x)\right)=1,\left(f_2(x), g(x)\right)=1$, 则 $$ \left(f_1(x) f_2(x), g(x)\right)=1 $$

定理 7(最大公倍式的存在性). 设 $f(x), g(x)$ 是非零多项式,则 $$ f(x) g(x) \sim(f(x), g(x))[f(x), g(x)] $$ 注. 该定理不仅表明了最大公倍式的存在性,并且给出了其相伴的多项式的计算公式,即 $\frac{f(x)g(x)}{(f(x),g(x))}$.

书中的该章节还有中国剩余定理的描述,这里省去。

因式分解

整数环内,任意整数可以拆分称素数的乘积,对于多项式是否有该性质?

定义 1(可约). 设 $f(x)$ 是数域 $\mathbb{K}$ 上的非常数多项式,若 $f(x)$ 可以分解为两个次数小于 $f(x)$ 次数的 $\mathbb{K}$ 上多项式之积,则称 $f(x)$ 是 $\mathbb{K}$ 上的可约多项式.否则,称 $f(x)$ 为 $\mathbb{K}$ 上的不可约多项式.
注. 上述定理中的次数小于 $f(x)\iff$ 次数大于0;不可约也可以等价为因子只有非零常数 $c$ 和 $cf(x)$.可约与不可约依赖于数域 $K$ 的选取。

现在先来研究不可约多项式的一些性质:

推论 2(性质). 不可约多项式的一些性质:
(1)可约多项式 $f(x)$,任意多项式 $g(x)$,则 $(f(x),g(x)) = 1$ 或 $f(x)\mid g(x)$.
(2)(素性) 设 $p(x)$ 是 $\mathbb{K}$ 上的不可约多项式,$f(x), g(x)$ 是 $\mathbb{K}$ 上的多项式且 $p(x) \mid f(x) g(x)$ ,则或者 $p(x) \mid f(x)$ ,或者 $p(x) \mid g(x)$ .
(3)(素性的推广) 设 $p(x)$ 为不可约多项式且 $$ p(x) \mid f_1(x) f_2(x) \cdots f_m(x) $$ 则 $p(x)$ 必可整除其中某个 $f_i(x)$ .

定理 3(因式分解定理). 设 $f(x)$ 是数域 $\mathbb{K}$ 上的多项式且 $\operatorname{deg} f(x) \geq 1$ ,则
(1)$f(x)$ 可分解为有限个 $\mathbb{K}$ 上的不可约多项式之积;
(2)若 $$ f(x)=p_1(x) p_2(x) \cdots p_s(x)=q_1(x) q_2(x) \cdots q_t(x) $$ 是 $f(x)$ 的两个不可约分解,即 $p_i(x), q_j(x)$ 都是 $\mathbb{K}$ 上的次数大于零的不可约多项式,则 $s=t$ ,且经过适当调换因式的次序以后,有 $$ q_i(x) \sim p_i(x), i=1,2, \cdots, s $$

上述定理表明,任一多项式可唯一地分解为若干个不可约多项式之积.这里唯一是在相伴意义下的唯一,即相应的多项式可以差一个常数因子。如果把分解式中相同或仅差一个常数的因式合并在一起,就得到了一个"标准分解"式: $$ f(x)=c p_1(x)^{e_1} p_2(x)^{e_2} \cdots p_m(x)^{e_m}, $$ 其中 $c \neq 0, p_i(x)$ 是互异的首一不可约多项式,$e_i \geq 1(i=1,2, \cdots, m)$ .(对于首一的不可约多项式,互异$\iff$ 互素)

根据标准因式分解的形式也可以定义重因式和单因式,这仅仅是在从理论的角度上保证因式分解的存在性,但是对于实际给出的一个多项式,想得到它的因式分解是很难的,想判定重因式也是很难的,于是我们引入了“形式导数”的定义,该定义与函数的导数定义一致,这里不再叙述,值得注意的是,对于多项式来说,有 $\deg f^{’}(x) = \deg f(x)-1$。

命题 4(重因式的判定). (1)设 $d(x)=\left(f(x), f^{\prime}(x)\right)$ ,则 $f(x) / d(x)$ 是一个没有重因式的多项式,且这个多项式的不可约因式与 $f(x)$ 的不可约因式相同(不计重数).
(2)$f(x)$没有重因式 $\iff$ $(f(x),f^{’}(x)) = 1.$

多项式函数

将多项式看作函数,一些定义和运算规则与直觉中一致;设 $f(x)\in K[x]$,若 $f(b) = 0$,则 $b$ 为 $f(x)$ 的一个根或者零点,$b\in K$。

由多项式的带余除法定理,我们立刻可以得到以下定理:
定理 1(余数定理). 设 $f(x) \in \mathbb{K}[x], b \in \mathbb{K}$ ,则存在 $g(x) \in \mathbb{K}[x]$ 使 $$ f(x)=(x-b) g(x)+f(b) . $$ 特别,$b$ 是 $f(x)$ 的根当且仅当 $(x-b) \mid f(x)$ .

仿照多项式重因子的定义,我们也可以将 $x-b$ 作为因子定义重根,这里不再以定义的形式写出,简单类比一下即可。

引理 2. 设 $f(x)$ 是数域 $\mathbb{K}$ 上的不可约多项式且 $\operatorname{deg} f(x) \geq 2$ ,则 $f(x)$在 $\mathbb{K}$ 中没有根。
注. 该定理可以简单的判定多项式根的情况,但不可约往往是难以判定的,因此适用范围有限。

定理 3(根的个数). 若 $f(x)$ 是数域 $\mathbb{K}$ 上的 $n$ 次多项式,则 $f(x)$ 在 $\mathbb{K}$ 中最多只有 $n$个根。
注. 这应该是很符合直觉的一个定理,当 $n$ 次多项式所有根都为单根时,应恰好有 $n$ 个根,若出现重根的话,应少于 $n$ 个。

定理 4. 设 $f(x)$ 与 $g(x)$ 是 $\mathbb{K}$ 上的次数不超过 $n$ 的两个多项式,若存在 $\mathbb{K} $ 上 $ n+1$ 个不同的数 $b_1, b_2, \cdots, b_{n+1}$ ,使 $$ f\left(b_i\right)=g\left(b_i\right), i=1,2, \cdots, n+1 $$ 则 $f(x)=g(x)$ .
注. 该定理实际上回答了一个问题,若我们可以在数域 $K$ 中找到 $n+1$ 个不同的数对两个多项式进行判定,若它们的函数值相等,则可以由函数相等推断多项式相等,但是对于更一般的域来说,我们未必能找到 $n+1$ 个不同的元素,对于高等代数课程而言,我们所讨论的数域,使得多项式函数相等$\iff$多项式相等。

复系数、实系数、有理系数多项式

在前几个章节的讨论中,我们遇到了很多次可约、不可约,但是并没有讨论究竟什么时候一个多项式是不可约的,这个问题是传统代数学中最重要的一个问题,虽然可能在现代代数学中是容易解释的,我们将在这一小节判断 $\mathbb{C},\mathbb{R},\mathbb{Q}$ 上的多项式是否可约。


(一)$f(x)\in \mathbb{C}[x]$

定理 1(代数学基本定理). 对于 $f(x)\in \mathbb{C},\deg f(x)\geq 1$,以下命题等价:
(1)$f(x)$ 至少有一个复根。
(2)不可约多项式都是一次多项式。
(3)任何复系数多项式都可以分解成一次多项式的乘积。
(4)任意 $n$ 次复系数多项式恰好有 $n$ 个复根(记重数)。

该章节还有韦达定理的内容,这里暂不介绍。

对于方程的求根公式,Galois证明,高于四次的方程一般没有求根公式(某些特殊的除外)。

现在我们得到了 $\mathbb{C}[x]$ 上多项式的可约与不可约情况:不可约多项式一定是一次多项式。


(二)$f(x)\in \mathbb{R}[x]$

定理 1(虚根成对存在). 设 $$ f(x)=a_n x^n+a_{n-1} x^{n-1}+\cdots+a_1 x+a_0 $$ 是实系数多项式,若复数 $a+b \mathrm{i}(b \neq 0)$ 是其根,则 $a-b \mathrm{i}$ 也是它的根.

虚根不能作为 $\mathbb{R}$ 上的根,但是可以推导出下面的定理:

定理 2($\mathbb{R}[x]$ 上的不可约多项式). 实数域上的不可约多项式为一次多项式或判别式 $\Delta$ 小于 $0$ 的二次多项式。

由因式分解定理,任何多项式都可以拆分成不可约多项式的乘积,则实系数可以拆分成一次多项式和判别式小于 $0$ 的二次多项式的乘积。


(三)$f(x)\in \mathbb{Q}[x]$

有理系数多项式是最复杂的情况,为了讨论有理系数多项式,我们先讨论整数多项式作为铺垫。

定理 1. 设有 $n$ 次整系数多项式 $$ f(x)=a_n x^n+a_{n-1} x^{n-1}+\cdots+a_1 x+a_0 $$ 则有理数 $\frac{q}{p}$ 是 $ f(x)$ 的根的必要条件是 $p\left|a_n, q\right| a_0$ ,其中 $p, q$ 是互素的整数。
注. 该定理是一条非常有用的定理,本人愿称其为猜根定理,通过该定理可以找 $a_0$ 的因子比上 $a_0$ 的因子作为根代入检查是否确实为根;又因为该定理为根的必要条件,若尝试了所有的组合都不是根,则 $f(x)$ 没有有理根。

对于 $\mathbb{C}[x],\mathbb{R}[x]$(次数大于2),存在根$\iff$可约,但是对于 $\mathbb{Q}[x]$,存在根$\Rightarrow$ 可约,没有充分性。

对于有理系数多项式,我们有一些方式将其化简:通分$\Rightarrow$整数多项式,然后再本原化$\Rightarrow$本原多项式,本原多项式即整系数多项式所有系数的最大公约数为1,我们总可以对系数比上其最大公约数,完成本原化;易得,通过通分和本原化之后,多项式的可约不可约情况是不变的。

定理 2(Gauss引理). 两个本原多项式的乘积仍然是本原多项式。

使用Gauss引理可以推导出下面的定理:

定理 3. $f(x)$ 为整系数多项式,则 $f(x)$ 在 $\mathbb{Q}$ 上可约$\iff$ $f(x)$ 在整数环上可约(即可以分解成两个次数较低的整系数多项式之积)。
注. 我们在前面说明了任何一个有理系数多项式的可约性都和其通分再本原后的本原化多项式一致,现在对于一个整数多项式,又有了该定理,事情一直在往简化的方向发展。

但是判断一个有理系数的可约性和不可约性仍然是很难的,有很多的判定定理存在,但是都无法做到判断所有的有理系数多项式,这里给出一个常用的判定定理:

定理 4(Eisenstein 判别法) 设多项式 $$ f(x)=a_n x^n+a_{n-1} x^{n-1}+\cdots+a_1 x+a_0 $$ 是整系数多项式,$a_n \neq 0, n \geq 1, p$ 是一个素数.若 $p \mid a_i(i=0,1, \cdots, n-1)$ ,但 $p$不能整除 $a_n$ 且 $p^2$ 不能整除 $a_0$ ,则 $f(x)$ 在有理数域上不可约.
注. Eisenstein 判别法只是充分条件,他可以判定一个符合上述条件的整系数多项式不可约。

Eisenstein判别法需要的条件很强,下面举一个例子:

例. 若 $p$ 为素数,证明: $$ f(x)=x^{p-1}+x^{p-2}+\cdots+x+1 $$ 在有理数域上不可约.
证明 作变量代换 $$ x=y+1 \text {, } $$ 得 $$ f(x)=\frac{x^p-1}{x-1}=\frac{(y+1)^p-1}{y}=y^{p-1}+\mathrm{C}_p^1 y^{p-2}+\mathrm{C}_p^2 y^{p-3}+\cdots+\mathrm{C}_p^{p-1} . $$ 注意 $p \mid \mathrm{C}_p^i(1 \leq i \leq p-1), p$ 不能整除首项系数 $1, p^2$ 不能整除 $\mathrm{C}_p^{p-1}=p$ ,因此,上述关于 $y$ 的多项式在有理数域上不可约,从而 $f(x)$ 在有理数域上也不可约.
注. 用Eisenstein判别法时,上述 $x=y+c$ 是常见的变换方法,该变换方式保持可约性,证明非常简单,这里省去。

多元多项式以及对称多项式

对称多项式即多元多项式的一种,任意对换两个不同的未定元的位置,多项式保持不变。

在对称多项式中,有一类基本的多项式,称为初等对称多项式.它们是这样定义的:

$$ \begin{aligned} & \sigma_1=x_1+x_2+\cdots+x_n=\sum_{i=1}^n x_i \\ & \sigma_2=x_1 x_2+x_1 x_3+\cdots+x_{n-1} x_n=\sum_{1 \leq i<j \leq n} x_i x_j, \\ & \cdots \cdots \cdots \cdots \cdots \\ & \sigma_n=x_1 x_2 \cdots x_n \end{aligned} $$ 这 $n$ 个多项式称为 $n$ 元初等对称多项式.初等对称多项式之所以重要,是因为我们有下列定理。

定理 1(对称多项式基本定理). 设 $f\left(x_1, x_2, \cdots, x_n\right)$ 是数域 $\mathbb{K}$ 上的对称多项式,则必存在 $\mathbb{K}$ 上唯一的一个多项式 $g\left(y_1, y_2, \cdots, y_n\right)$ ,使 $$ f\left(x_1, x_2, \cdots, x_n\right)=g\left(\sigma_1, \sigma_2, \cdots, \sigma_n\right) $$

另外一个非常重要的定理就是Newton公式,以后有时间补上。

结式和判别式

可以构造一种特殊的行列式,将多项式有无公共根问题转化为多项式的求解问题,并且发展出多项式的判别式理论,当判别式为0时,多项式有重根。

第六章 特征值

特征值和特征向量

我们之前曾经提出过一个问题,可不可以选取一组合适的基底,使得线性映射在该基底下的表示矩阵更加简单,现在考虑线性映射对应的矩阵为对角阵的情形。

这里不加推导的说明,当表示矩阵为对角阵时,我们很方便确定线性映射的核空间和像空间,并且矩阵对于某些向量的乘积就是简单的数乘,给出以下定义:

定义 1(特征值和特征向量). 设 $\varphi$ 是数域 $\mathbb{K}$ 上线性空间 $V$ 上的线性变换,若 $\lambda_0 \in \mathbb{K}, x \in V$且 $x \neq 0$ ,使 $$ \boldsymbol{\varphi}(\boldsymbol{x})=\lambda_0 \boldsymbol{x} $$ 则称 $\lambda_0$ 是线性变换 $\varphi$ 的一个特征值,向量 $\boldsymbol{x}$ 称为 $\varphi$ 关于特征值 $\lambda_0$ 的特征向量.
注. 令 $V_\lambda = \{v\in V\mid \varphi(v) = \lambda v\} = \{\lambda 的特征向量\}\cup \{0\}$,则 $V_\lambda$ 为 $V$ 的 $\varphi-$不变子空间,称之为 $\lambda$ 的特征子空间。

上述定义是用几何的视角去描述的,我们很容易用交换图引入坐标向量将其转化为代数视角:

定义 2(特征值和特征向量). 设 $\boldsymbol{A}$ 是数域 $\mathbb{K}$ 上的 $n$ 阶方阵,若存在 $\lambda_0 \in \mathbb{K}$ 及 $n$ 维非零列向量 $\alpha$ ,使 $$ A\alpha = \lambda_0 \alpha $$ 成立,则称 $\lambda_0$ 为矩阵 $\boldsymbol{A}$ 的一个特征值,$\alpha$ 为 $\boldsymbol{A}$ 关于特征值 $\lambda_0$的特征向量,齐次线性方程组 $\left(\lambda_0 I_n-A\right) x=0$ 的解空间 $V_{\lambda_0}$ 称为 $A$ 关于特征值 $\lambda_0$ 的特征子空间。

现在考虑特征值的求解问题,由定义可以得到,$\left(\lambda_0 I_n-A\right) x=0$ 是特征值 $\lambda_0$ 需要满足的条件,由齐次线性方程组求解的相关知识,当且仅当矩阵 $\left(\lambda_0 I_n-A\right) $ 不满秩时,$x$ 有非零解(特征向量定义),而不满秩又对应着奇异阵,有 $|\lambda_0 I_n-A | = 0$,则很容易发现,$\lambda$ 是该多项式(行列式很容易转化成 $\lambda$ 的 $n$ 次多项式)的根,该多项式对我们有特殊意义:

定义 3(特征多项式). 设 $\boldsymbol{A}$ 是 $n$ 阶方阵,称 $\left|\lambda I_n-A\right|$ 为 $\boldsymbol{A}$ 的特征多项式.
注. $A$ 的特征值是该多项式的根。特征多项式是关于 $\lambda$ 的首一 $n$ 次多项式。

特征值是否像秩一样是一个矩阵最本质的东西呢,也就是说,特征值是否是一个线性变换最本质的东西,我们知道,线性映射在不同基底下的表示矩阵相似,那么,是否有相似矩阵的特征值相等呢?下面的定理会解答这一个问题:

定理 4(相似矩阵特征值相同). 若 $\boldsymbol{B}$ 与 $\boldsymbol{A}$ 相似,则 $\boldsymbol{B}$ 与 $\boldsymbol{A}$ 具有相同的特征多项式,从而具有相同的特征值(计重数).
注. 特征值是线性变换最本质的东西,与选取的基底无关;由于特征多项式与基底也无关,所以特征多项式有时会记作 $|\lambda I-\varphi|$.

现在继续回到特征值的求解问题,在多项式一节中,我们对多项式的根进行了深入的研究,对于一个关于 $\lambda$ 的 $n$ 次多项式,我们必然在 $\mathbb{C}$ 中找到 $n$ 个根(计重数)(事实上,对于简单的实数矩阵,特征值也一般是复数),我么可以用这些根来表示一些东西:

推论 5. 设 $tr(A)$ 为矩阵 $A$ 的迹(主对角线的和),有: $$ \lambda_1+\lambda_2+\cdots+\lambda_n = tr(A) $$ $$ \lambda_1 \lambda_2 \cdots \lambda_n = |A| $$ 注. 由该推论,很容易得到 $|A|\neq 0\iff $矩阵 $A$ 的特征值不全为 $0$.


现在暂停对该特征多项式的讨论,将之前的这些讨论凝结成特征值和特征向量求解的方法

  1. 写出特征矩阵 $\lambda I_n -A $,并求其行列式(特征多项式)的根,得到特征值。
  2. 对于每一个特征值,代入 $\lambda I_n -A = 0$,根据齐次线性方程组解的结构定理得到解空间,即特征值对应的特征向量空间。

注. 特征值是重根并不意味着解空间的维度和重根的数量一致,二者之间没有必要关系,举个例子,一个二重根的特征值的解空间可能是一维的。


对于一个上(下)三角阵,我们可以很容易的找到其特征值(即对角线元素),如果我们能在保持特征值不变的情况下(相似阵)将某一般矩阵转换到上三角矩阵,便可以一目了然的获得特征值:

定理 6(相似上三角形). 任意复方阵必然相似于一个上三角阵。

命题 7 由定理6可以由如下推论:
(1)设 $n$ 阶矩阵 $\boldsymbol{A}$ 的全部特征值为 $\lambda_1, \lambda_2, \cdots, \lambda_n, f(x)$ 是一个多项式,则 $f(\boldsymbol{A})$ 的全部特征值为 $f\left(\lambda_1\right), f\left(\lambda_2\right), \cdots, f\left(\lambda_n\right)$ .
(2)设 $n$ 阶矩阵 $\boldsymbol{A}$ 适合 个多项式 $g(x)$ ,即 $g(\boldsymbol{A})=O$ ,则 $\boldsymbol{A}$ 的任一特征值 $\lambda_0$ 也必适合 $g(x)$ ,即 $g\left(\lambda_0\right)=0$ .
(3) 设 $n$ 阶矩阵 $\boldsymbol{A}$ 是可逆阵,且 $\boldsymbol{A}$ 的全部特征值为 $\lambda_1, \lambda_2, \cdots, \lambda_n$ ,则 $A^{-1}$ 的全部特征值为 $\lambda_1^{-1}, \lambda_2^{-1}, \cdots, \lambda_n^{-1}$ .
注. 这些推论尤为重要,在后续的计算和证明中起到很大的作用,特别是(1)和(2).

对角化

我们已经够知道任意一个矩阵都复相似于上三角矩阵,那什么样的矩阵相似于一个对角阵?对于可以找到一组基,使得线性变换 $\varphi$ 的表示矩阵为对角阵,则称该线性变换$\varphi$可对角化,该描述等价于方阵相似于对角阵。

定理 1(充要条件一). $\varphi$ 可对角化 $\iff \varphi$ 有 $n$ 个线性无关的特征向量。

此充要条件需要求出所有的特征向量,有没有更强力的定理?

引理 2(特征子空间的直和). 矩阵不同特征值的特征子空间的和为直和。
注. 由该引理容易得到推论:不同特征值的特征向量必然线性无关

定理 3(充要条件二). $\varphi$ 可对角化$\iff \varphi$ 所有特征值对应的特征子空间的和为全空间。
注. 直观的理解一下,特征值是一个线性映射最本质的东西,特征值对应的特征子空间可以张成一个全空间,不正是完全的描述了这种线性变换的特征。

定义 4(代数重数和几何重数). $\lambda$ 对应的特征子空间 $V_\lambda$ 的维度 $\dim V_\lambda$ 为 $\lambda$ 的几何重数,$\lambda$ 在特征多项式中根的重数为其代数重数。
注. 容易证明,代数重数 $\geq$ 于几何重数。

定理 5(充要条件三). 若对于线性变换任意的特征值,其几何重数等于代数重数,则称 $\varphi$ 为完备的特征向量系。有:$\varphi$ 可对角化$\iff \varphi$有完备的特征向量系。
注 1. 完备的特征向量系这一命名再次印证了上文中我们的直观理解,特征子空间张满了全空间,进一步的,对于该定理更确切的描述,每一个特征值的特征向量都可以张到其代数重数作为维度的特征子空间,无论是子空间还是全空间,都是完备的,都是张满空间的。
注 2. 此定理作为判定定理最为好用,由此定理可以轻松的得到:$n$ 维线性变换 $\varphi$ 若有 $n$ 个不同的特征值,则其必然可以对角化(由特征值定义,每个特征值至少可以找到一个非零的特征向量)。


有了上述定理,我们谈一谈如何将一个具体数值矩阵对角化的方法:

  1. 欲对角化 $A$,使用定理 5判断矩阵是否可以对角化,可以对角化的话,求出所有特征值和其对应的特征向量(特征值求解特征多项式,特征向量求解线性齐次方程组)。
  2. 由 $P^{-1}AP = B$,则 $AP = PB$,将 $P$ 使用列分块的方式写出后进行观察,不难得到 $P$ 的每一行正是当前位置特征值对应的特征向量,即将特征值对应的特征向量进行排列,便可以得到矩阵 $P$,如此完成对角化。$P$ 是不唯一的,它可以是特征子空间的任意非 $0$ 元素。

补充:

对于特征值的代数重数,必须写出特征多项式得到,但是对于几何重数,我们未必通过求得特征向量的方式,考虑特征子空间是 $(\lambda I_n-A)x = 0$ 的解空间,我们可以利用维度公式 $\dim V_\lambda = n-r(\lambda I_n-A)$ 得到。

不可对角化的矩阵相当于矩阵空间中的一个超平面,可对角化的矩阵是远远大于不可对角化的矩阵的。

极小多项式与 Cayley-Hamilton 定理

定义 1(极小多项式). 若 $n$ 阶矩阵 $\boldsymbol{A}$(或 $n$ 维线性空间 $V$ 上的线性变换 $\varphi$ )适合(代入为 $0$ )一个非零首一多项式 $m(x)$ ,且 $m(x)$ 是 $\boldsymbol{A}$(或 $\varphi$ )所适合的非零多项式中次数最小者,则称 $m(x)$ 是 $A($ 或 $\varphi)$ 的一个极小多项式或最小多项式.
注. 该定义似乎出现的非常突兀,但是我们会发现,极小多项式和特征多项式有很大关系。另外,极小多项式存在且唯一。

性质 2. 若 $A$ 适合多项式 $f(x)$ 且其极小多项式为 $m(x)$,有 $m(x)|f(x)$.

定理 3. 相似矩阵有相同的极小多项式。
注. 该定理的证明中用到了多项式关于矩阵运算的性质:$f(P^{-1}AP) = P^{-1}f(A)P$.该定理说明了极小多项式似乎也是线性映射最本质的性质,他与选择的基底无关,自然也会引导我们去想极小多项式和特征多项式之间的关系。

定理 4(特征值都是极小多项式的根). 设 $m(x)$ 是 $n$ 阶矩阵 $\boldsymbol{A}$ 的极小多项式,$\lambda_0$ 是 $\boldsymbol{A}$ 的特征值,则 $$ \left(x-\lambda_0\right) \mid m(x) $$

定理 5(Cayley-Hamilton 定理). 矩阵适合其特征多项式。
注. 该定理的几何形式:任意线性变换都适合于其特征多项式(矩阵得到的是0矩阵,映射得到的是零映射)。

现在矩阵适合其特征多项式,又有矩阵适合的多项式次数最低的时候该多项式为极小多项式,那么这两者之间有没有进一步的联系,极小多项式什么时候能是特征多项式?

推论 6. $m(x)$ 为 $A$ 的极小多项式,$f(\lambda)$ 为其特征多项式,可以写为 $f(\lambda) = (\lambda -\lambda_1)(\lambda -\lambda_2)\cdots(\lambda -\lambda_n)$,则
(1)$m(\lambda)|f(\lambda)$,特别的 $\deg m(x) \leq \deg f(\lambda) = n$,极小多项式的次数上界为 $n$;
(2)$f(\lambda)$ 和 $m(\lambda)$ 有相同的根(不记重数);
注. 由这些推论,若 $A$ 具有 $n$ 个不同的特征值,则极小多项式就是特征多项式;事实上,若 $A$ 可对角化,极小多项式是特征多项式的退化形式(所有的重根变为单根)。该反命题将在下一章说明:极小多项式没有重根$\iff$矩阵可以对角化。

如何求得极小多项式,还得等到下一章完全解答。

第七章 相似标准型

如果说秩是矩阵相抵关系中的全系不变量(可以理解为充要条件:秩相同,必然相抵;相抵,必然秩相同),有了秩,就可以作为判断相抵关系的一个充要条件,那么相似关系的充要条件是什么呢,值得注意的是,相似的矩阵有相同的特征多项式,但是有相同特征多项式的矩阵并不是相似的,特征多项式只是相似不变量,并不是相似关系的全系不变量,同样的,极小多项式也只是相似不变量。

本章节将从寻找矩阵相似的全系不变量出发,构造出矩阵的相似标准型。

多项式矩阵

上一章节中我们发现,矩阵的特征矩阵 $\lambda I - A$ 可以构造出特征多项式,有着特殊的意义,我们自然会想,该特征多项式是否蕴含着一种全系不变量,为了深入探讨这点,在本小节中我们先引入多项式矩阵的概念,用来描述特征多项式。

相似是一种特殊的相抵关系,所以通过相抵关系来寻找相似的全系不变量也是情理之中的。

本小节需要定义 $\lambda-$矩阵,也是多项式矩阵,故名思意,矩阵里面的每个元素都是多项式,我们同样可以定义 $\lambda-$矩阵的初等变换,第一类(交换)和第二类(数乘非0常数)初等变换都和正常的矩阵一致,对于第三类初等变换,变为了乘多项式 $f(\lambda)$ 加到其他一行(列)上,若两个多项式矩阵可以通过有限次初等变换后相等,则称二者相抵

同样可以定义多项式矩阵的逆阵,该定义也是符合直觉的,即乘积等于 $I_n$(数值矩阵),值得注意的是,普通矩阵的一些性质在未经过证明前不可以直接套用过来,例如矩阵可逆$\iff$满秩,对于多项式矩阵来说,矩阵满秩仍然可逆有矩阵不可逆。

我们还可以由其他的视角看多项式矩阵,即矩阵多项式,将 $\lambda$ 提出来,矩阵作为系数,通过该思想可以证明如下定理,也是本小节的主定理:

定理 1(“相似即相抵”). 矩阵相似$\iff$特征矩阵相抵。
注. 这是在本章节讨论的第一个等价关系,该定理其实是来之不易的,详细推导还需要证明很多的引理,不过引理都是为了定理服务的,我们直接阐述该定理即可。

矩阵的法式以及不变因子

我们自然希望将多项式矩阵研究的更加透彻,透彻到足以得到让我们满足的 $\lambda I-A$ 矩阵的一些性质,根据我们在学习矩阵时的思想,自然会想找到其相抵标准型。

定理 1(相抵标准型). 设 $\boldsymbol{A}(\lambda)$ 是一个 $n$ 阶 $\lambda$-矩阵,则 $\boldsymbol{A}(\lambda)$ 相抵于对角阵 $$ \operatorname{diag}\left\{d_1(\lambda), d_2(\lambda), \cdots, d_r(\lambda) ; 0, \cdots, 0\right\} $$ 其中 $d_i(\lambda)$ 是非零首一多项式且 $d_i(\lambda) \mid d_{i+1}(\lambda)(i=1,2, \cdots, r-1)$ .
注. 该定理中的对角阵即为多项式矩阵的法式或相抵标准型,其中 $r$ 为多项式矩阵的秩,对于长方阵也是可以定义的,与上述描述一致,但是我们引入多项式矩阵只是想解决相似标准型的问题,相似标准型又是针对线性变换而言的,所以这里更侧重于方阵。

定理 2(多项式矩阵可逆的等价条件). $A(\lambda)$ 为 $n$ 阶 $\lambda-$阵,以下五个条件等价:
(1)$A(\lambda)$ 可逆
(2)$|A(\lambda)|$ 为非零常数
(3)$A(\lambda)$ 的相抵标准型为 $I_n$
(4)$A(\lambda)$ 只通过初等行变换,或者只通过初等列变换就可以得到 $I_n$
(5)$A(\lambda)$ 可以写为初等矩阵的乘积
注. 注意第(2)条和数值矩阵不同,这里强调非零常数,是因为要使得其不包含未定元 $\lambda$.

推论 3(特征多项式的相抵标准型). 设 $\boldsymbol{A}$ 是数域 $\mathbb{K}$ 上的 $n$ 阶矩阵,则 $\boldsymbol{A}$ 的特征矩阵 $\lambda I_n-\boldsymbol{A}$ 必相抵于 $$ \operatorname{diag}\left\{1, \cdots, 1, d_1(\lambda), \cdots, d_m(\lambda)\right\} $$ 其中 $d_i(\lambda) \mid d_{i+1}(\lambda)(i=1,2, \cdots, m-1)$ .
注. 该定理最重要的一点是特征矩阵必然相抵于一个满秩多项式矩阵;但是我们可以发现,这里非常强调 $1$ 在相抵标准型中的地位,是因为有以下情况存在:

  • 若相抵标准型中的所有元素的次数(多项式未定元次数) $\deg d_i(\lambda)\geq 1$,则 $A$ 必然为纯量阵!

纯量矩阵是易于研究的,我们如此强调 $1$ 的地位,就是为了对一般的矩阵进行讨论。


特征矩阵的相抵标准型的计算方法

  1. 将全部元素中次数最低的元素放置在第一行第一列,目标将第一行第一列除了该元素以外的元素消去:若最低次数元素为常数,直接可以消去其他元素;若最低次数元素为多项式,利用多项式的余数定理,余数多项式的次数必然小于除数,则可以用该次数最低的多项式作为除数,去处以其他的同行同列元素,以达到在同行同列元素中出现次数更小的元素的目的,再将此元素放在首位,直至出现非零常数。
  2. 对第一行第一列消去之后,再对降低阶数后的 $n-1$ 阶矩阵进行处理,循环利用上述步骤,直到达到相抵标准型。

基于上述我们对特征多项式矩阵的所有研究,现在来引入一个相似关系下的全系不变量(下面的叙述与书中的顺序不同,只会介绍最重要的东西,而忽视其中的引理和一些定义)。

我们已经知道了矩阵相似$\iff$特征矩阵相抵,如果能找到特征矩阵相抵关系的全系不变量,就相当于找到了矩阵相似的全系不变量。

定义 4(不变因子). 多项式矩阵的相抵标准型中对角线位置上的非零元素被称为多项式矩阵的不变因子,即 $d_1(\lambda),d_2(\lambda),\cdots,d_r(\lambda)$.
注. 书中的定义与该定义不同,但是容易验证两者为等价定义,该定义更方便我们去理解不变因子组的本质。

定理 5(全系不变量). 我们并不非常严格的说明一个定理,而是用以下语句来描述:

  1. 相抵的 $\lambda-$矩阵有相同的不变因子.
  2. 不变因子相同的多项式矩阵必然相抵,加上第一条即:多项式矩阵的相抵标准型(法式)和不变因子组唯一确定
  3. 多项式矩阵相抵$\iff$其相抵标准型一致$\iff$其不变因子组一致

有了全系不变量和之前叙述的充要条件,我们很容易得到如下定理:

定理 6(充要条件). 矩阵相似$\iff$特征矩阵相抵$\iff$特征矩阵具有相同的不变因子。

因为引入多项式矩阵本身就是为了处理相似问题,所以直接将 $\lambda I-A$ 的不变因子称为 $A$ 的不变因子。

有理标准型

我们在之前的章节中得到了一个全系不变量,现在我们将使用该全系不变量构造一个相对简单的矩阵,并与给定的矩阵满足相似关系。

引理 1 设 $r$ 阶矩阵 $$ F(f(\lambda))=\left(\begin{array}{ccccc} 0 & 1 & 0 & \cdots & 0 \\ 0 & 0 & 1 & \cdots & 0 \\ \vdots & \vdots & \vdots & & \vdots \\ 0 & 0 & 0 & \cdots & 1 \\ -a_r & -a_{r-1} & -a_{r-2} & \cdots & -a_1 \end{array}\right) $$ 则
1)$F$ 的行列式因子为 $$ 1, \cdots, 1, f(\lambda) $$ 其中共有 $r-1$ 个 $1, ~ f(\lambda)=\lambda^r+a_1 \lambda^{r-1}+\cdots+a_r$
2)$F$ 的极小多项式等于 $f(\lambda)$ 。

定理 2(有理标准型). 设 $A\in M_n(K)$ 的不变因子组为 $$ 1,\cdots,1,d_1(\lambda),\cdots,d_k(\lambda) $$ 则 $A$ 必然相似于 $$ diag\{F(d_1(\lambda)),F(d_2(\lambda)),\cdots,F(d_k(\lambda))\} $$ 该对角阵被称为有理标准型。

计算有理标准型的方式很明了,即计算不变因子,再求其有理块,拼在一起。

推论 3(极小多项式,特征多项式,不变因子) 不变因子同上,有
(1)$d_1(\lambda)d_2(\lambda)\cdots d_k(\lambda) = |\lambda I-A|$
(2)$d_k(\lambda)$ 为矩阵的极小多项式。

可见,特征多项式是不变因子的乘积,极小多项式是其中的一个不变因子,二者明显都不是全系不变量,合起来也不是。

有理块的阶数和 $d_i(\lambda)$ 的阶数一致,若不变因子的阶数大,有理标准型未必简单,直观的想法就是将不变因子因式分解。

初等因子和Jordon标准型

由于需要对不变因子进行因式分解,我们想将其化简为最简单的形式,由于代数基本定理的遍历性,我们在本章节将数域限制在复数域 $\mathbb{C}$ 上。

定义 1(初等因子). 设 $n$ 阶 $A$ 的非常数不变因子为 $d_1(\lambda), d_2(\lambda), \ldots, d_k(\lambda)$ ,在数域上将分解为互不相同的首一的一次因式方幂的乘积,所有这些一次因式方幂称为矩阵 $A$ 的初等因子。

:设 12 阶矩阵的不变因子是 $$ 1,1, \cdots, 1,(\lambda-1)^2,(\lambda-1)^2(\lambda+1),(\lambda-1)^2(\lambda+1)\left(\lambda^2+1\right)^2 $$ 则它的初等因子:$$(\lambda-1)^2,(\lambda-1)^2,(\lambda-1)^2, \lambda+1, \lambda+1,(\lambda-i)^2,(\lambda+i)^2$$
注. 初等因子组还有另外一个等价定义,或者说存在定理:若可以将特征矩阵化为对角阵,再分解对角线上的多项式为一次因式的方幂的乘积,从中选出一次因式的方幂即为初等因子组。

初等因子与不变因子的表示是可以互逆的,也就是说,初等因子也是矩阵相似的全系不变量,而且要比不变因子更加简单。

命题 2(Jordon 块的初等因子组). $r$ 阶矩阵 $$ J=\left(\begin{array}{ccccc} \lambda_0 & 1 & & & \\ & \lambda_0 & 1 & & \\ & & \ddots & \ddots & 1 \\ & & & \ddots & 1 \\ & & & & \lambda_0 \end{array}\right) \triangleq J_r\left(\lambda_0\right) $$ 的初等因子组为 $\left(\lambda-\lambda_0\right)^r$ .

定理 3(Jordon标准型). 设 $\boldsymbol{A}$ 是复数域上的矩阵且 $\boldsymbol{A}$ 的初等因子组为 $$ \left(\lambda-\lambda_1\right)^{r_1},\left(\lambda-\lambda_2\right)^{r_2}, \cdots,\left(\lambda-\lambda_k\right)^{r_k} $$ 则 $\boldsymbol{A}$ 相似于分块对角阵: $$ \boldsymbol{J}=\left(\begin{array}{llll} \boldsymbol{J}_{r_1}(\lambda_1) & & & \\ & \boldsymbol{J}_{r_2}(\lambda_2) & & \\ & & \ddots & \\ & & & \boldsymbol{J}_{r_k}(\lambda_k) \end{array}\right) $$ 注. Jordon块的顺序可以互相交换而不影响相似关系,因为初等因子不变。

下面整理出来的定义可以让我们更好的理解对角化,极小多项式和初等因子:

推论 4. 设 $\boldsymbol{A}$ 是 $n$ 阶复矩阵,则下列结论等价:
(1) $\boldsymbol{A}$ 可对角化;(等价于初等因子都是一阶)
(2) $\boldsymbol{A}$ 的极小多项式无重根;
(3) $\boldsymbol{A}$ 的初等因子都是一次多项式.

Jordon标准型的构造也是简单的,即找到初等因子组再构建Jordon块,但是考虑我们之前的问题,Jordon标准型作为该线性映射的最简单的表示矩阵,我么可不可以求出与原来基底的过渡矩阵呢?


考虑 $P^{-1}AP = J$,有 $AP=PJ$ ,同求对角化的过渡矩阵一致,将 $P$ 写为分块列向量的形式,代入具体的数值 $J$ 构造线性方程组,我们可以求得一些齐次线性方程组(特征值对应的),然后选取解空间内特殊的解去求解其他非齐次线性方程组(广义特征值对应的),直到求得 $P$ 的一组解,即 $P$ 是不唯一的,下面展示课本上一道例题的部分过程,可以帮助唤醒记忆:

$$ A P=P J $$ 设 $\boldsymbol{P}=\left(\boldsymbol{\alpha}_1, \boldsymbol{\alpha}_2, \boldsymbol{\alpha}_3, \boldsymbol{\alpha}_4\right)$ ,其中 $\boldsymbol{\alpha}_i$ 是四维列向量,代入得 $$ \left(\boldsymbol{A} \alpha_1, \boldsymbol{A} \boldsymbol{\alpha}_2, \boldsymbol{A} \boldsymbol{\alpha}_3, \boldsymbol{A} \boldsymbol{\alpha}_4\right)=\left(\boldsymbol{\alpha}_1, \boldsymbol{\alpha}_2, \boldsymbol{\alpha}_3, \boldsymbol{\alpha}_4\right)\left(\begin{array}{cccc} 1 & 1 & & \\ 0 & 1 & & \\ & & 1 & 1 \\ & & 0 & 1 \end{array}\right) $$ 化成方程组为 $$ \begin{aligned} & (\boldsymbol{A}-\boldsymbol{I}) \boldsymbol{\alpha}_1=\mathbf{0} \\ & (\boldsymbol{A}-\boldsymbol{I}) \boldsymbol{\alpha}_2=\boldsymbol{\alpha}_1 \\ & (\boldsymbol{A}-\boldsymbol{I}) \boldsymbol{\alpha}_3=\mathbf{0} \\ & (\boldsymbol{A}-\boldsymbol{I}) \boldsymbol{\alpha}_4=\boldsymbol{\alpha}_3 \end{aligned} $$ 由于 $\alpha_1, \boldsymbol{\alpha}_3$ 都是 $\boldsymbol{A}$ 的属于特征值 1 的特征向量,故 $\boldsymbol{\alpha}_2, \boldsymbol{\alpha}_4$ 称为属于特征值 1的广义特征向量 我们可取方程组 $(A-I) x=0$ 的两个线性无关的解分别作为 $\alpha_1, \boldsymbol{\alpha}_3$(注悉不能取线性相关的两个解,因为 $\boldsymbol{P}$ 是非异阵),然后再分别求出 $\alpha_2, \alpha_4$ (注意诸 $\alpha_i$ 的解可能不唯一,只需取比较简单的一组解)即可.经计算可得 $\alpha_1,\alpha_2,\alpha_3,\alpha_4$


Jordon标准型的进一步讨论和应用

定理 1(Jordon标准型、几何重数、代数重数). 线性变换 $\varphi$ 的特征值 $\lambda_1$ 的几何重数等于 $\varphi$ 的 Jordan 标准型中属于特征值 $\lambda_1$ 的 Jordan 块的个数,$\lambda_1$ 的代数重数等于所有属于特征值 $\lambda_1$ 的 Jordan 块的阶数之和。

定义 2(循环子空间). 设 $V_0$ 是线性空间 $V$ 的 $r$ 维子空间,$\psi$ 是 $V$ 上的线性变険.若存在 $\alpha \in V_0$ ,使 $\left\{\boldsymbol{\alpha}, \boldsymbol{\psi}(\boldsymbol{\alpha}), \cdots, \boldsymbol{\psi}^{r-1}(\boldsymbol{\alpha})\right\}$ 构成 $V_0$ 的一组基,则称 $V_0$ 为关于线性变换 $\psi$ 的循环子空间.
注. 每个Jordon块对应的特征向量和广义特征向量张成的子空间(并非特征子空间)关于映射 $\varphi-\lambda_i I$ 构成一个循环子空间 $V_i$。

命题 3(根子空间). 设 $\lambda_0$ 是 $n$ 维复线性空间 $V$ 上线性变换 $\varphi$ 的特征值,则 $$ \begin{aligned} R\left(\lambda_0\right) & = V_1\oplus V_2\oplus\cdots\oplus V_s\\ &=\left\{v \in V \mid\left(\varphi-\lambda_0 I\right)^n(v)=0\right\} \end{aligned} $$ 构成了 $V$ 的一个子空间,称为属于特征值 $\lambda_0$ 的根子空间.
注. 这里其实描述了两种等价定义,第一种定义更方便我们理解根子空间是一个属于特征值的空间,每个特征值都会有一个根子空间,这个子空间可以由特征值对应的每个Jordon块张成的循环子空间直和构成。

定理 4(全空间的两种直和分解). 设 $\varphi$ 是 $n$ 维复线性空间 $V$ 上的线性变换.
(1)若 $\varphi$ 的初等因子组为 $$ \left(\lambda-\lambda_1\right)^{r_1},\left(\lambda-\lambda_2\right)^{r_2}, \cdots,\left(\lambda-\lambda_k\right)^{r_k} $$ 则 $V$ 可分解为 $k$ 个不变子空间的直和: $$ V=V_1 \oplus V_2 \oplus \cdots \oplus V_k $$ 其中 $V_i$ 是维数等于 $r_i$ 的关于 $\varphi-\lambda_i \boldsymbol{I}$ 的循环子空间;
(2)若 $\lambda_1, \cdots, \lambda_s$ 是 $\varphi$ 的全体不同特征值,则 $V$ 可分解为 $s$ 个不变子空间的直和: $$ V=R\left(\lambda_1\right) \oplus R\left(\lambda_2\right) \oplus \cdots \oplus R\left(\lambda_3\right) $$ 其中 $R\left(\lambda_i\right)$ 是 $\lambda_i$ 的根子空间,$R\left(\lambda_i\right)$ 的维数等于 $\lambda_i$ 的重数,且每个 $R\left(\lambda_i\right)$ 又可分解为若干个 $V_j$ 的直和。

推论 5(对角化的充要条件). 线性映射可对角化$\iff$对于所有特征值 $\lambda_i$,有 $R(\lambda_i) = V_{\lambda_i}$,其中 $V_{\lambda_i}$ 为 $\lambda_i$ 的特征子空间。
注. 从直观的角度来理解该定理其实非常简单,根子空间可以化为属于该特征值的Jordon块对应的子空间的直和,若这些直和等于特征子空间,则显示特征向量张满了整个空间,是一种代数重数等于几何重数的表示;使用全空间分解的视角,全空间本来可以表示为根子空间的分解,若根子空间等价于特征子空间,则全空间可以分解为特征子空间,矩阵自然可以对角化。

定理 6(Jordan-Chevalley 分解) 设 $\boldsymbol{A}$ 是 $n$ 阶复矩阵,则 $\boldsymbol{A}$ 可分解为 $A=B+C$ ,其中 $B, C$ 适合下面条件:
(1)$B$ 是一个可对角化矩阵;
(2)$C$ 是一个幂零阵;
(3) $\boldsymbol{B C}=\boldsymbol{C B}$ ;
(4) $\boldsymbol{B}, \boldsymbol{C}$ 均可表示为 $\boldsymbol{A}$ 的多项式.
不仅如此,上述满足条件 $(1) \sim(3)$ 的分解是唯一的.


方法论. 求证一个一般的矩阵问题,可以将其转化为 Jordon 标准型,再证明Jordon块满足该问题,进而返回到Jordon标准型满足该问题,一般的矩阵也满足。

过渡矩阵. 在上一小节中我们谈到了过渡矩阵如何去求,事实上广义特征向量有时并不是很好去求,如果我们直接拿求得的其他特征向量去求的话,事实上,我们需要从特征子空间里拿非零向量,使得该广义特征向量存在才可以,需要我们在特征子空间内任取合适的特征向量。


矩阵函数

本课程使用幂级数收敛的方式定义了矩阵函数,并且讨论了该级数的收敛问题,本质上是依赖于泰勒公式的。

定理 1(矩阵级数). 设 $f(z)=\sum_{i=0} a_i z^i$ 是复幂级数,则
(1)方阵幂级数 $f(\boldsymbol{X})$ 收敛的充分必要条件是对任一非异阵 $\boldsymbol{P}, f\left(P^{-1} X P\right)$都收敛,这时 $$ f\left(\boldsymbol{P}^{-1} \boldsymbol{X} \boldsymbol{P}\right)=\boldsymbol{P}^{-1} f(\boldsymbol{X}) \boldsymbol{P} $$ (2)若 $\boldsymbol{X}=\operatorname{diag}\left\{\boldsymbol{X}_1, \cdots, \boldsymbol{X}_k\right\}$ ,则 $f(\boldsymbol{X})$ 收敛的充分必要条件是 $f\left(\boldsymbol{X}_1\right), \cdots$ , $f\left(\boldsymbol{X}_k\right)$ 都收敛,这时 $$ f(\boldsymbol{X})=\operatorname{diag}\left\{f\left(\boldsymbol{X}_1\right), \cdots, f\left(\boldsymbol{X}_k\right)\right\} $$ (3)若 $f(z)$ 的收敛半径为 $r, J_0$ 是特征值为 $\lambda_0$ 的 $n$ 所 Jordan 块, 则当 $\left|\lambda_0\right|<r$ 时 $f\left(J_0\right)$ 收敛,且

$$ f\left(J_0\right)=\left(\begin{array}{ccccc} f\left(\lambda_0\right) & \frac{1}{1!} f^{\prime}\left(\lambda_0\right) & \frac{1}{2!} f^{(2)}\left(\lambda_0\right) & \cdots & \frac{1}{(n-1)!} f^{(n-1)}\left(\lambda_0\right) \\ & f\left(\lambda_0\right) & \frac{1}{1!} f^{\prime}\left(\lambda_0\right) & \cdots & \frac{1}{(n-2)!} f^{(n-2)}\left(\lambda_0\right) \\ & & f\left(\lambda_0\right) & \cdots & \frac{1}{(n-3)!} f^{(n-3)}\left(\lambda_0\right) \\ & & & \ddots & \vdots \\ & & & \ddots & f\left(\lambda_0\right) \end{array}\right) . $$

上述矩阵完全是将矩阵带入泰勒多项式后运算获得的,实际上是对每个元素都进行了运算(因为恰巧由上一节的矩阵分解定理,可以使得矩阵在特征值这一点展开后只需要处理幂零阵,这给了我们很大的便利)。

定理 2(矩阵级数收敛判定). 设 $f(z)$ 是复幂级数,收敛半径为 $r$ .设 $\boldsymbol{A}$ 是 $n$ 阶复方阵,特征值为 $\lambda_1, \lambda_2, \cdots, \lambda_n$ ,定义 $\boldsymbol{A}$ 的谱半径 $$ \rho(\boldsymbol{A})=\max _{1 \leq i \leq n}\left|\lambda_i\right| $$ (1)若 $\rho(\boldsymbol{A})<r$ ,则 $f(\boldsymbol{A})$ 收敛;
(2)若 $\rho(\boldsymbol{A})>r$ ,则 $f(\boldsymbol{A})$ 发散;
(3)若 $\rho(\boldsymbol{A})=r$ ,则 $f(\boldsymbol{A})$ 收敛的充分必要条件是:对上个定义中得到的每个元素都收敛。
(4)若 $f(\boldsymbol{A})$ 收敛,则 $f(\boldsymbol{A})$ 的特征值为 $$ f\left(\lambda_1\right), f\left(\lambda_2\right), \ldots, f\left(\lambda_n\right) $$

可见,矩阵的特征值在很大的程度上代表了整个矩阵,矩阵函数的定义本质上就是在特征值处进行了多项式展开,事实上,一些矩阵的特征值估计方法就显示了特征值不会离对应矩阵行元素的距离太远。

第八章 二次型

二次型与矩阵合同

$n$ 元二次齐次多项式为二次型,同数学物理方法的思路一样,我们想把二次型通过线性变换变为比较简单的形式(没有混合项)。

值得注意的是,我们可以定义一个映射把二次型化简问题转化为矩阵化简问题:

映射 $\varphi:\{K上n阶对称阵\}\rightarrow \{n元二次型\}$,对于具体元素来说,$A\mapsto x^{’}Ax$,可以证明,这种映射是一种一一对应关系,则我们可以用对称阵来研究二次型问题。则上述二次型化简问题可以转化为:

线性空间中,当前基底为 $e$,坐标向量为 $x$,是否存在一组基底 $f$,从 $e$ 到 $f$ 的过渡矩阵为 $C$ ,$f$ 下的新坐标向量为 $y$,则 $x=Cy$,则 $x^{’}Ax = y^{’}C^{’}ACy$,使得坐标向量 $y$ 下的二次型表示矩阵 $C^{’}AC$ 为对角阵。

上述问题即通过基变换将表示矩阵转化为对角阵,我们现在将该问题中的元素抽象出来:

定义 1(矩阵合同). 设 $\boldsymbol{A}, \boldsymbol{B}$ 是数域 $\mathbb{K}$ 上的 $n$ 阶矩阵,若存在 $n$ 阶非异阵 $C$,使 $$ B=C^{\prime} A C $$ 则称 $B$ 与 $A$ 是合同的,或称 $B$ 与 $A$ 具有合同关系.
注. 容易证明,合同关系是等价关系。

为了保证在变换的过程中矩阵的对称性,我们引入如下初等变换概念:

引理 2(初等合同变换). 对称阵 $\boldsymbol{A}$ 的下列变换都是合同变换(即变换前后的矩阵合同):
(1)对换 $\boldsymbol{A}$ 的第 $i$ 行与第 $j$ 行,再对换第 $i$ 列与第 $j$ 列;
(2)将非零常数 $k$ 乘以 $\boldsymbol{A}$ 的第 $i$ 行,再将 $k$ 乘以第 $i$ 列;
(3)将 $\boldsymbol{A}$ 的第 $i$ 行乘以 $k$ 加到第 $j$ 行上,再将第 $i$ 列乘以 $k$ 加到第 $j$ 列上.

定理 3(对称阵必定合同于对角阵). 设 $A$ 是数域 $\mathbb{K}$ 上的 $n$ 阶对称阵,则必存在 $\mathbb{K}$ 上的 $n$ 阶非异阵 $C$ ,使 $C^{\prime} A C$ 为对角阵。


二次型的化简 :我们已经知道了一个对称阵必定合同于一个对角阵,那在给定一个对称阵的情况下,如何化简得到一个对角阵呢?

方法很简单,构造 $ \left(\begin{array}{c:c} A&I \end{array}\right) $ 对 $A$ 矩阵进行非异矩阵 $C^{’}$ 的左乘和 $C$ 的右乘,即对 $A$ 进行合同变换,将 $A$ 化作对角阵后,由初等变换的性质,虚线右侧为 $C^{’}$.

在合同变换的过程中,需要不断地使左上角的元素非零,这点可以很容易的使用初等对称变化达到。


惯性定理

对角阵并不是一个合同关系下最简单的矩阵,是可以进一步化简的,所以我们需要按照与上一章同样的方法,找到矩阵合同的全系不变量。

先对实数的情况进行讨论,通过一些简单的线性映射,可以使得矩阵合同于 $ diag\{1,\cdots,1,-1,\cdots,-1,0,\cdots,0\} $ 我们将该对角阵称作对称阵或者二次型的规范标准型,并且有以下定理:

定义 1. 设 $f\left(x_1, x_2, \cdots, x_n\right)$ 是一个实二次型,若它能化为形如上式的形状,则称 $r$ 是该二次型的秩(对角线非零数),$p$ 是它的正惯性指数(正1数量),$q=r-p$ 是它的负惯性指数,$s=p-q$ 称为 $f$ 的符号差.

定理 2(全系不变量). 秩与符号差(或正负惯性指数,他们两两确认)是实对称阵在合同关系下的全系不变量。

对于复数的情况,因为有代数学基本定理的保证,任何数都可以开平方,那么秩就是其全系不变量。

正定型与正定矩阵

定义 1(正定型与正定矩阵). 对于任意一个 Hermitian 矩阵 $A$
1.$\forall x \neq 0, x^{’} A x>0$ ,则称 $A$ 为正定矩阵
2.$\forall x \neq 0, x^{’} A x \geq 0$ ,则称 $A$ 为半正定矩阵
3.$\forall x \neq 0, x^{’} A x<0$ ,则称 $A$ 为负定矩阵
4.$\forall x \neq 0, x^{’} A x \leq 0$ ,则称 $A$ 为半负定矩阵
5.若二次型可能取正值,也可能取负值,则称 $A$ 为不定矩阵
正定矩阵对应的二次型就是正定型,其他同样命名。

定理 2(正定的等价说法). $n$ 阶实对称阵 $A$ 是正定阵当且仅当它合同于单位阵 $I_n ; A$ 是负交体当业仅当它合同于 $-I_n ; \boldsymbol{A}$ 是半正定阵当且仅当 $\boldsymbol{A}$ 合同于下列对角阵: $$ \left(\begin{array}{ll} I_r & O \\ O & O \end{array}\right) $$ $A$ 是半负定阵当且仅当 $\boldsymbol{A}$ 合同于下列对角阵: $$ \left(\begin{array}{cc} -I_r & O \\ O & O \end{array}\right) $$ 不定矩阵则合同于 $$ \left(\begin{array}{ccc} I_p & O & O \\ O & -I_q &O \\ O & O &O \end{array}\right) $$

正定矩阵的负数就是负定矩阵,所以只需要讨论正定矩阵和半正定矩阵即可,先讨论正定矩阵的情况:

定理 3(正定的等价条件). $A$ 为 $n$ 阶实对称阵,以下说法等价:

  1. $A$ 正定
  2. $A$ 合同于 $I_n$
  3. 存在非异阵 $C$,s.t. $A = C^{’}C$
  4. $A$ 的顺序主子式全部大于0
  5. $A$ 的主子式全部大于0(可以推断出主对角线元素全部大于0)
  6. $A$ 的特征值全部大于0

接下来讨论半正定矩阵,事实上,如果将正定矩阵看作一个开集,那么半正定矩阵就是这个开集的边缘,我们可以利用正定矩阵去逼近任意半正定矩阵,该点由以下引理说明:

引理 4(半正定矩阵的等价条件) $A$ 半正定$\iff \forall t\in \mathbb{R^{+}},A+tI$ 为正定矩阵。

定理 5(半正定的等价条件). $A$ 为 $n$ 阶实对称阵,以下说法等价:

  1. $A$ 半正定
  2. $A$ 合同于 $diag\{1,\cdots,1,0\cdots,0\}$
  3. 存在实矩阵 $C$,s.t. $A = C^{’}C$
  4. $A$ 的所有主子式全部大于等于0
  5. $A$ 的特征值全部大于等于0

Hermite型

矩阵和二次型具有非常重要的意义,我们将该理论推广到复数域上,定义Hermite型:

定义 1(Hermite型和Hermite矩阵). Hermite 型看成是复数域上的二次齐次函数 $$ f\left(x_1, x_2, \cdots, x_n\right)=\sum_{j=1}^n \sum_{i=1}^n a_{i j} \bar{x}_i x_j $$ 其中 $\bar{a}_{i j}=a_{j i}$ .Hermite 型虽然系数是复数且变元 $x_i$ 是复数域上的变元,但作为函数它的值却总是实数,这点从 Hermite 型的定义即可看出.Hermite 型可写成如下的矩阵相乘的形式: $$ f\left(x_1, x_2, \cdots, x_n\right)=\overline{\boldsymbol{x}}^{\prime} \boldsymbol{A} \boldsymbol{x} $$ 且满足 $\bar{A^{’}} = A$,这样的矩阵为Hermite矩阵。

和二次型同样定义的思路,定义复相合 $\bar{C^{’}AC}$,得出Hermite矩阵必然可以复相合于一个对角阵的定理,全系不变量以及正定的一些判定,和上述几乎一致。

第九章 内积空间

在线性空间上定义长度的度量。

内积空间的概念

定义 1(欧氏空间). 设 $V$ 是实数域上的线性空间,若存在某种规则,使对 $V$ 中任意一组有序向量 $\{\alpha, \beta\}$ ,都唯一地对应一个实数,记为 $(\alpha, \beta)$ ,且适合如下规则:
(1)对称性:$(\boldsymbol{\beta}, \boldsymbol{\alpha})=(\boldsymbol{\alpha}, \boldsymbol{\beta})$ ;
(2)第一变元的线性:$(\boldsymbol{\alpha}+\boldsymbol{\beta}, \boldsymbol{\gamma})=(\boldsymbol{\alpha}, \boldsymbol{\gamma})+(\boldsymbol{\beta}, \boldsymbol{\gamma}) ;$
(3)第一变元的线性:$(c \boldsymbol{\alpha}, \boldsymbol{\beta})=c(\boldsymbol{\alpha}, \boldsymbol{\beta}), c$ 为任一实数;
(4)正定性:$(\alpha, \alpha) \geq 0$ 且等号成立当且仅当 $\alpha=0$
则称在 $V$ 上定义了一个内积,实数 $(\boldsymbol{\alpha}, \boldsymbol{\beta})$ 称为 $\alpha$ 与 $\boldsymbol{\beta}$ 的内积.线性空间 $V$ 称为实内积空间。有限维实内积空间称为 Euclid 空间,简称为欧氏空间

对复数域上的线性空间,我们也可以定义内积.

定义 2(酉空间). 设 $V$ 是复数域上的线性空间,若存在某种规则,使对 $V$ 中任意一组有序向量 $\{\boldsymbol{\alpha}, \boldsymbol{\beta}\}$ ,都唯一地对应一个复数,记为 $(\boldsymbol{\alpha}, \boldsymbol{\beta})$ ,且适合如下规则:
(1)$(\boldsymbol{\beta}, \boldsymbol{\alpha})=\overline{(\boldsymbol{\alpha}, \boldsymbol{\beta})}$ ;
(2)$(\alpha+\beta, \gamma)=(\alpha, \gamma)+(\beta, \gamma)$ ;
(3)$(c \boldsymbol{\alpha}, \boldsymbol{\beta})=c(\boldsymbol{\alpha}, \boldsymbol{\beta}), c$ 为任一复数;
(4)$(\alpha, \alpha) \geq 0$ 且等号成立当且仅当 $\alpha=0$ ,
则称在 $V$ 上定义了一个内积,复数 $(\boldsymbol{\alpha}, \boldsymbol{\beta})$ 称为 $\alpha$ 与 $\boldsymbol{\beta}$ 的内积。线性空间 $V$ 称为复内积空间。有限维复内积空间称为酉空间。

矩阵空间的Frobenius内积:$(A,B) = Tr(AB^{’})$

由内积可以定理范数 $||\alpha|| = (\alpha,\alpha)^{\frac{1}{2}}$ 和距离 $d(\alpha,\beta) = ||\alpha-\beta||$,并且定义夹角余弦 $\cos(\theta) = \frac{|(\alpha,\beta)|}{||\alpha|| ||\beta||}$,由夹角余弦等于0定义正交两两正交的向量组必定线性无关

一些简单的内积和它们的不等式我们就不提了。

内积的表示和正交基

内积的定义是多种多样的,用何种的基底表示该内积会更加简单呢?

用向量内积的性质,很容易给出这个问题的答案.当 $V$ 是欧氏空间时, $$ (\boldsymbol{\alpha}, \boldsymbol{\beta})=\left(\sum_{i=1}^n a_i \boldsymbol{v}_i, \sum_{j=1}^n b_j \boldsymbol{v}_j\right)=\sum_{i, j=1}^n a_i g_{i j} b_j $$ 我们把上述结论写成矩阵形式: $$ (\boldsymbol{\alpha}, \boldsymbol{\beta})=\left(a_1, a_2, \cdots, a_n\right)\left(\begin{array}{cccc} g_{11} & g_{12} & \cdots & g_{1 n} \\ g_{21} & g_{22} & \cdots & g_{2 n} \\ \vdots & \vdots & & \vdots \\ g_{n 1} & g_{n 2} & \cdots & g_{n n} \end{array}\right)\left(\begin{array}{c} b_1 \\ b_2 \\ \vdots \\ b_n \end{array}\right) $$ 其中矩阵

$$ \boldsymbol{G}=\left(\begin{array}{cccc} g_{11} & g_{12} & \cdots & g_{1 n} \\ g_{21} & g_{22} & \cdots & g_{2 n} \\ \vdots & \vdots & & \vdots \\ g_{n 1} & g_{n 2} & \cdots & g_{n n} \end{array}\right)=\left(\begin{array}{cccc} \left(\boldsymbol{v}_1, \boldsymbol{v}_1\right) & \left(\boldsymbol{v}_1, \boldsymbol{v}_2\right) & \cdots & \left(\boldsymbol{v}_1, \boldsymbol{v}_n\right) \\ \left(\boldsymbol{v}_2, \boldsymbol{v}_1\right) & \left(\boldsymbol{v}_2, \boldsymbol{v}_2\right) & \cdots & \left(\boldsymbol{v}_2, \boldsymbol{v}_n\right) \\ \vdots & \vdots & & \vdots \\ \left(\boldsymbol{v}_n, \boldsymbol{v}_1\right) & \left(\boldsymbol{v}_n, \boldsymbol{v}_2\right) & \cdots & \left(\boldsymbol{v}_n, \boldsymbol{v}_n\right) \end{array}\right) $$

称为基向量 $\left\{\boldsymbol{v}_1, \boldsymbol{v}_2, \cdots, \boldsymbol{v}_n\right\}$ 的 Gram矩阵或内积空间 $V$ 在给定基下的度量矩阵,容易验证该矩阵为正定矩阵.

于是,我们得到了内积在给定基下的表示: $$ (\alpha, \beta)=x^{\prime} G y $$ 其中 $x, y$ 分别是向量 $\boldsymbol{\alpha}, \boldsymbol{\beta}$ 在给定基下的坐标向量. 考虑复数情况时: $ (\alpha, \beta)=x^{\prime} G \bar{y} $ 实际上,内积和Gram矩阵存在一一对应的关系,研究内积就是研究Gram矩阵,研究何时内积的表达最简单,就是研究基底是什么时,Gram矩阵最简单,我们自然希望Gram矩阵是单位阵,如此便可以将所有的内积表示为标准内积的形式($(\alpha,\beta) = x^{’}y$).

显然,标准正交基下,Gram矩阵为单位阵,碰巧的是,标准正交基在有限维内积空间内是一定存在的,可以使用Gram-Schmidt方法将一组线性无关向量转化为标准正交基,核心思想就是不断减去向其他正交基的投影分量。

其实,如果只想正交化不必那么麻烦,假设有基底 $e,f$,从 $e$ 到 $f$ 的过渡矩阵为 $C$,则有 $G_f = C^{’}G_eC$,即不同基底下的Gram矩阵合同,且通过过渡矩阵合同,则使用上一章中的合同对角化方法即可。但是对于分析一些性质来说,Gram-Schmidt方法依然是最重要的方法。

定义 1(正交补空间,正交和). 设 $U$ 是内积空间 $V$ 的子空间,令 $$ U^{\perp}=\{\boldsymbol{v} \in V \mid(\boldsymbol{v}, U)=0\} $$ 这里 $(\boldsymbol{v}, U)=0$ 表示对一切 $\boldsymbol{u} \in U$ ,均有 $(\boldsymbol{v}, \boldsymbol{u})=0$ 。容易验证 $U^{\perp}$ 是 $V$ 的子空间,称为 $U$ 的正交补空间.容易验证,$V $ 是 $U$ 和 $U^{\perp}$ 的直和。两两正交的子空间的和是正交和,记作 $V_1\perp V_2\perp\cdots\perp V_k$,容易验证,正交和是直和。

定义 2(正交投影). 设 $V=V_1 \perp V_2 \perp \cdots \perp V_k$ ,定义 $V$ 上的线性变换 $E_i(i=$ $1,2, \cdots, h)$ 如下:若 $\boldsymbol{v}=\boldsymbol{v}_1+\cdots+\boldsymbol{v}_i+\cdots+\boldsymbol{v}_k\left(\boldsymbol{v}_i \in V_i\right)$ ,令 $E_i(\boldsymbol{v})=v_i$ 。容易验证 $E_i$ 是 $V$ 上的线性变换,且满足 $$ \boldsymbol{E}_i^2=\boldsymbol{E}_i, \quad \boldsymbol{E}_i \boldsymbol{E}_j=\mathbf{0}(i \neq j), \quad \boldsymbol{E}_1+\boldsymbol{E}_2+\cdots+\boldsymbol{E}_k=I_V $$ 线性变换 $E_i$ 称为 $V$ 到 $V_i$ 上的正交投影(简称投影).

伴随

考虑内积空间中的线性变换,内积空间中的线性变换通常被称为线性算子。

定义 1(伴随算子). 设 $\varphi$ 是内积空间 $V$ 上的线性算子,若存在 $V$ 上的线性算子 $\varphi^{*}$ ,使等式 $$ (\varphi(\boldsymbol{\alpha}), \boldsymbol{\beta})=\left(\boldsymbol{\alpha}, \varphi^{*}(\boldsymbol{\beta})\right) $$ 对一切 $\alpha, \beta \in V$ 成立,则称 $\varphi^{*}$ 是 $\varphi$ 的伴随算子,简称为 $\varphi$ 的伴随.容易验证对于有限维内积空间,伴随存在且唯一。

定理 2(伴随矩阵). 标准正交基下线性算子 $\varphi$ 的表示矩阵为 $A$,则 $\varphi^{*}$ 的表示矩阵为 $A^{’}$(酉空间内为$\bar{A^{’}}$).

命题 3. 设 $V$ 是 $n$ 维内积空间,$\varphi$ 是 $V$ 上的线性算子.
(1)若 $U$ 是 $\varphi$ 的不变子空间,则 $U^{\perp}$ 是 $\varphi^{*}$ 的不变子空间;
(2)若 $\varphi$ 的全体特征值为 $\lambda_1, \lambda_2, \cdots, \lambda_n$ ,则 $\varphi^{*}$ 的全体特征值为 $\bar{\lambda}_1, \bar{\lambda}_2, \cdots, \bar{\lambda}_n$ .

内积空间的同构、正交变换和酉变换

内积运算是否可以在线性映射中保持同构,是本小节研究的问题。

定义 1(保持内积的同构). 设 $V$ 与 $U$ 是域 $\mathbb{K}$ 上的内积空间, $\mathbb{K}$ 是实数域或复数域,$\varphi$ 是 $V \rightarrow U$ 的线性映射.若对任意的 $x, y \in V$ ,有 $$ (\varphi(\boldsymbol{x}), \varphi(\boldsymbol{y}))=(\boldsymbol{x}, \boldsymbol{y}) $$ 则称 $\varphi$ 是 $V \rightarrow U$ 的保持内积的线性映射.又若 $\varphi$ 作为线性映射是同构,则称 $\varphi$是内积空间 $V$ 到 $U$ 上的保积同构.

容易验证,给定线性映射,则线性映射保持范数$\iff$线性映射保持内积。

定理 2(保积同构的等价描述). 设 $V$ 与 $U$ 都是 $n$ 维内积空间(同为实空间或同为复空间),若 $\varphi$ 是 $V \rightarrow U$ 的线性映射,则下列命题等价:
(1)$\varphi$ 保持内积;
(2)$\varphi$ 是保积同构;
(3)$\varphi$ 将 $V$ 的任一组标准正交基变成 $U$ 的一组标准正交基;
(4)$\varphi$ 将 $V$ 的某一组标准正交基变成 $U$ 的一组标准正交基.

内积空间存在保积同构$\iff$维数相同,现在来研究线性变换,即线性算子的保积同构。

定义 3(正交算子,酉算子). 设 $\varphi$ 是内积空间 $V$ 上保持内积的线性变换,若 $V$ 是欧氏空间,则称 $\varphi$ 为正交变换或正交算子;若 $V$ 是酉空间,则称 $\varphi$ 为酉变换或酉算子。

按照定理2进行理解,正交变换或者正交算子可以将任意一组正交基映射到其他正交基。

定理 4(保积算子的伴随). 设 $\varphi$ 是欧氏空间或酉空间上的线性变换,则 $\varphi$ 是正交变换或酉变换的充分必要条件是 $\varphi$ 非异,且 $$ \varphi^{*}=\varphi^{-1} $$

将上述定义定理翻译为代数形式:

定义 4(正交矩阵,酉矩阵). 设 $\boldsymbol{A}$ 是 $n$ 阶实方阵,若 $\boldsymbol{A}^{\prime}=\boldsymbol{A}^{-1}$ ,则称 $\boldsymbol{A}$ 是正交矩阵.设 $C$是 $n$ 阶复方阵,若 $\bar{C}^{\prime}=C^{-1}$ ,则称 $\boldsymbol{C}$ 是酉矩阵。

定理 5(正交矩阵,酉矩阵的伴随,或者性质). 设 $\varphi$ 是欧氏空间(酉空间)$V$ 上的正交变换(酉变换),则在 $V$的任一组标准正交基下,$\varphi$ 的表示矩阵是正交矩阵(酉矩阵)。

定理 6(正交阵,酉矩阵的等价条件). $A$ 为正交阵(酉矩阵),以下结论等价
(1)$A$ 的行向量是 $\mathbb{R}_n$($\mathbb{C}_n$) 的一组标准正交基。
(2)$A$ 的列向量是 $\mathbb{R}^n$($\mathbb{C}^n$) 的一组标准正交基。

可以使用定理6判断一个矩阵是不是酉矩阵或者正交矩阵(利用正交的定义,求夹角余弦),当然,定义是最好的判定方法。

补充: 正交是比线性无关的条件来的要强的。

定理 7(正交矩阵,酉矩阵的性质). 酉矩阵 $A$,则
(1)行列式模长为1(正交矩阵行列式为正负1)
(2)特征值模长为1(正交矩阵一样)

定理 8(QR分解). 设 $\boldsymbol{A}$ 是 $n$ 阶实(复)矩阵,则 $\boldsymbol{A}$ 可分解为 $$ A=Q R $$ 其中 $Q$ 是正交(西)矩阵, $\boldsymbol{R}$ 是一个主对角线上的元素均大于等于零的上三角阵,并且若 $A$ 是非异阵,则这样的分解必唯一.

正交矩阵和酉矩阵可以看成一组正交基到达另外一组正交基的过渡矩阵,由于其行向量构成标准正交基,列向量也构成标准正交基,所以该矩阵表达了一种不改变长度的旋转关系,从后面的矩阵极分解也可以看出该点。

自伴随矩阵的正交相似标准型

之前我们讨论了线性空间中的矩阵对角化以及对应的条件,现在如果将范围限定在内积空间之下,规定过渡矩阵为正交矩阵,是否能有更加简单的结果。

定义 1(正交相似和酉相似). 设 $\boldsymbol{A}, \boldsymbol{B}$ 是 $n$ 阶实矩阵,若存在正交矩阵 $P$ ,使 $B=P^{\prime} A P$ ,则称 $B$ 和 $\boldsymbol{A}$ 正交相似.设 $\boldsymbol{A}, \boldsymbol{B}$ 是 $n$ 阶复矩阵,若存在酉矩阵 $P$ ,使 $B=\bar{P}^{\prime} A P$ ,则称 $\boldsymbol{B}$ 和 $\boldsymbol{A}$ 酉相似.

定义 2(自伴随算子、矩阵). 设 $\varphi$ 是内积空间 $V$ 上的线性变换,$\varphi^{*}$ 是 $\varphi$ 的伴随,若 $\varphi^{*}=\varphi$ ,则称 $\varphi$ 是自伴随算子,当 $V$ 是欧氏空间时,$\varphi$ 也称为对称算子或对称变换;当 $V$是酉空间时,$\varphi$ 也称为 Hermite 算子或 Hermite 变换.

引入自伴随算子是为了阐述正交相似和自伴随算子之间的关系,自伴随算子使用矩阵表达具有很简单的方式,即 $A = A^{’}$,也称之为自伴随矩阵(实对称阵和Hermite阵)。

定理 3(自伴随矩阵的性质). 自伴随矩阵的特征值都为实数,且不同特征值的特征向量相互正交,即特征子空间相互正交。

正交子空间是一种更强的直和,自伴随矩阵具有很好的性质,我们先研究自伴随矩阵的正交相似标准型,下一个小节再拓展到正规矩阵。

定理 4(自伴随算子的对角化). 自伴随矩阵必然可实对角化,对角线上元素都是其特征值,并且特征值是正交相似(酉相似)的全系不变量。

现在有了自伴随矩阵(实对称阵和Hermite阵)的相似正交标准型理论,可以回顾之前的二次型理论,将二次型正交合同变换为不含交叉项的二次型,二次变元前的系数正是其特征值,则特征值的正负关系就反应了对称矩阵的正负定关系。


正交相似标准型的求法

跟矩阵对角化的求法一致,唯一需要注意的是若某特征子空间的维度大于1维,需要保证取的特征向量相互正交且都归一化,如此才可以保证正交变换。


正规矩阵的正交相似标准型

本小节只讨论复数域的情况,实数域的情况略复杂。

上一小节我们讨论了对称矩阵可以实正交相似对角化,那么我们可以将该条件放松到如何程度呢,这里考虑可以复正交相似对角化的矩阵,假设 $A$ 就是这样的矩阵,则存在一组基,使得 $\bar{A^{’}}A$ 为实对角阵且有 $\bar{A}^{’} A=A \bar{A}^{’} $,这样的矩阵或者算子被称为正规矩阵和正规算子,自伴随算子、正交算子(正交阵)和酉算子(酉矩阵)都是正规算子,值得注意的是,正规算子不同特征子空间也相互正交

定理 1(正规算子的对角化). 正规矩阵必然可复对角化,对角线上元素都是其特征值。


补充一点计算数学中对特征值的估计,若矩阵有特征值 $\lambda_1\leq\lambda_2\leq\lambda_n$:

定理 2(Courant-Fischer Minmax定理). 若矩阵 $A \in C^{n \times n}$ 是共轭对称矩阵,则有对 $k=1,2, \ldots, n$ $$ \lambda_k(A)=\max_{\operatorname{dim}(S)=k} \min _{0 \neq y \in S} \frac{y^H A y}{y^H y} $$ 任意 $k$ 维子空间 $S$ 中的任意非零向量 $y$ 的函数 $f(y)$ 的最小值存在上界且为 $\lambda_k(A)$ 。

Rayleigh商,有 $\lambda_1 \leq\frac{y^H A y}{y^H y}\leq \lambda_n$,并且由Rayleigh商可以定义广义特征值。


谱分解与极分解

正规算子的特征子空间相互正交,可以使用正交分解的方法对一个算子进行分解,即谱分解:

定理 1(谱分解). 设 $V$ 是有限维内积空间,$\varphi$ 是 $V$ 上的线性算子,当 $V$ 是酉空间时 $\varphi$ 为正规算子;当 $V$ 是欧氏空间时 $\varphi$ 为自伴随算子。设 $\lambda_1, \lambda_2, \cdots, \lambda_k$ 是 $\varphi$ 的全体不同特征值,$W_i$ 为 $\varphi$ 属于 $\lambda_i$ 的特征子空间,则 $V$ 是 $W_1, W_2, \cdots, W_k$ 的正交直和,设 $\boldsymbol{E}_i$ 是 $V$ 到 $W_i$ 上的正交投影,则 $\varphi$ 有下列分解式: $$ \varphi=\lambda_1 \boldsymbol{E}_1+\lambda_2 \boldsymbol{E}_2+\cdots+\lambda_k \boldsymbol{E}_k $$ 注. 欧氏空间是更复杂的情况,这里需要自伴随算子作为更强的条件来获得实数特征值。

命题 2(对称矩阵的正定性). 设 $\varphi$ 是内积空间 $V$ 上的自伴随算子 若对任意的非零向量 $\alpha \in$ $V$ ,总有 $(\varphi(\alpha), \alpha)>0((\varphi(\alpha), \alpha) \geq 0)$ ,则称 $\varphi$ 为正定(半正定)自伴随算子.
注. 虽然该定理是对映射而言的,但是可以使用标准内积将其使用矩阵的语言来表述,和之前定义的正定性概念一致。

定理 3. 设 $\varphi$ 是酉空间 $V$ 上的正规算子.

  1. 若 $\varphi$ 的特征值全是实数,则 $\varphi$是自伴随算子;
  2. 若 $\varphi$ 的特征值全是非负实数,则 $\varphi$ 是半正定自伴随算子;
  3. 若 $\varphi$ 的 4特征值全是正实数,则 $\varphi$ 是正定自伴随算子;
  4. 若 $\varphi$ 的特征值的模长等于 1 ,则 $\varphi$是酉算子(理解:酉矩阵正交相似于其他酉矩阵,行向量模长为1)。

推论 4(极分解). 设 $\boldsymbol{A}$ 是 $n$ 阶实矩阵,则存在 $n$ 阶正交矩阵 $\boldsymbol{Q}$ 以及 $n$ 阶半正定实对称阵 $\boldsymbol{S}$ ,使 $\boldsymbol{A}=\boldsymbol{Q S}$ .设 $\boldsymbol{B}$ 是 $n$ 阶复矩阵,则存在 $n$ 阶酉矩阵 $\boldsymbol{U}$ 以及 $n$ 阶半正定 Hermite 矩阵 $\boldsymbol{H}$ ,使 $\boldsymbol{B}=\boldsymbol{U} \boldsymbol{H}$ .当 $\boldsymbol{A}, \boldsymbol{B}$ 为非异阵时,上述分解式被唯一确定.
注. $Q$ 相当于旋转角度,$S$ 相当于长度,所以该分解为矩阵的极分解,下一小节我们将介绍如何用矩阵的奇异值分解求矩阵的极分解。

奇异值分解

本小节介绍奇异值分解以及它的一些应用,我们在线性空间中谈到了矩阵的相抵、相似、合同关系,在内积空间中,正交相似将相似和合同关系放在一个框架下去讨论,那么内积空间中是否有矩阵的相抵概念(非异阵变为正交阵情况下的相抵)?为了解决该问题,我们需要引入广义特征值和推广后的伴随:

定义 1(奇异值和奇异向量). 设 $\boldsymbol{A}$ 是 $m \times n$ 实矩阵,如果存在非负实数 $\sigma$ 以及 $n$ 维非零实列向量 $\alpha, m$ 维非零实列向量 $\boldsymbol{\beta}$ ,使 $$ A \alpha=\sigma \boldsymbol{\beta}, \quad \boldsymbol{A}^{\prime} \boldsymbol{\beta}=\sigma \boldsymbol{\alpha} $$ 则称 $\sigma$ 是 $\boldsymbol{A}$ 的奇异值, $\boldsymbol{\alpha}, \boldsymbol{\beta}$ 分别称为 $\boldsymbol{A}$ 关于 $\sigma$ 的右奇异向量与左奇异向量.

定义 2(伴随). 设 $V, U$ 分别是 $n$ 维,$m$ 维欧氏空间,$\varphi$ 是 $V \rightarrow U$ 的线性映射.若存在 $U \rightarrow V$ 的线性映射 $\varphi^*$ ,使对任意的 $v \in V, u \in U$ ,都有 $$ (\varphi(v), u)=\left(v, \varphi^{*}(u)\right) $$ 注. 伴随在矩阵上的表现依然是转置,可以通过标准内积直观的观察到。


教材中有一段话说的很好:

从伴随的定义我们不难发现,若取定 $V$ 的一组标准正交基 $\left\{\boldsymbol{e}_1, \boldsymbol{e}_2, \cdots, e_n\right\}$ , $U$ 的一组标准正交基 $\left\{\boldsymbol{f}_1, \boldsymbol{f}_2, \cdots, \boldsymbol{f}_m\right\}$ ,设 $\varphi$ 在这两组基下的表示矩阵为 $A$ ,则 $\varphi^{*}$ 在这两组基下的表矩阵为 $\boldsymbol{A}^{\prime}$ ,证明也和线性变换的情形相同.因此,奇异值与奇异向量的几何定义即为下列等式成立: $$ \varphi(v)=\sigma u, \quad \varphi^{*}(u)=\sigma v $$ 其中 $\sigma \geq 0, \boldsymbol{v} \in V, u \in U$ 都是非零向量.不难验证 $\varphi^{*} \varphi$ 是 $V$ 上的半正定自伴随算子,$\varphi \varphi^{*}$ 是 $U$ 上的半正定自伴随算子.又 $$ \varphi^{*} \varphi(v)=\varphi^{*}(\sigma u)=\sigma \varphi^{*}(u)=\sigma^2 v $$ 因此,$\sigma^2$ 是 $\varphi^{*} \varphi$ 的特征值,$v$ 是 $\varphi^{*} \varphi$ 的属于 $\sigma^2$ 的特征向量.同理,$\sigma^2$ 也是 $\varphi \varphi^{*}$的特征值, $\boldsymbol{u}$ 是 $\varphi \varphi^{*}$ 的属于 $\sigma^2$ 的特征向量.


定理 3(奇异值分解几何表述). 设 $V, U$ 分别是 $n$ 维,$m$ 维欧氏空间,$\varphi$ 是 $V \rightarrow U$ 的线性映射,则存在 $V$ 和 $U$ 的标准正交基,使 $\varphi$ 在这两组基下的表示矩阵为 $$ \left(\begin{array}{ll} S & O \\ O & O \end{array}\right) $$ 其中 $$ \boldsymbol{S}=\left(\begin{array}{cccc} \sigma_1 & & & \\ & \sigma_2 & & \\ & & \ddots & \\ & & & \sigma_r \end{array}\right) $$ 是一个 $r$ 阶对角阵,$\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r>0$ 是 $\varphi$ 的非零奇异值.

定理 4(奇异值分解以及正交相抵标准型). 设 $\boldsymbol{A}$ 是 $m \times n$ 实矩阵,则存在 $m$ 阶正交矩阵 $\boldsymbol{P}$ 以及 $n$ 阶正交矩阵 $Q$ ,使 $$ P^{\prime} A Q=\left(\begin{array}{ll} S & O \\ O & O \end{array}\right) $$ 其中 $$ S=\left(\begin{array}{llll} \sigma_1 & & & \\ & \sigma_2 & & \\ & & \ddots & \\ & & & \sigma_r \end{array}\right) $$ 是一个 $r$ 阶对角阵,$\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r>0$ 是 $\boldsymbol{A}$ 的非零奇异值.$S$ 所在的分块矩阵就是正交相抵标准型。


教材中的一些话讲述了如何求取实际数值矩阵的奇异值分解:

如何计算 $m \times n$ 实矩阵 $\boldsymbol{A}$ 的奇异值分解?事实上,从定理 9.9.2 的证明过程中可以得到其体的计算方法.首先,求出 $\boldsymbol{A}^{\prime} \boldsymbol{A}$ 的正交相似标准型,即求出 $n$ 阶正交矩阵 $\boldsymbol{Q}$ ,使 $$ \boldsymbol{Q}^{\prime} \boldsymbol{A}^{\prime} \boldsymbol{A} \boldsymbol{Q}=\operatorname{diag}\left\{\lambda_1, \cdots, \lambda_r, 0, \cdots, 0\right\} $$ 其中 $r=r\left(\boldsymbol{A}^{\prime} \boldsymbol{A}\right)=r(\boldsymbol{A})$ 且 $\lambda_1 \geq \cdots \geq \lambda_r>0$ 为 $\boldsymbol{A}^{\prime} \boldsymbol{A}$ 的正特征值.其次,设 $\boldsymbol{Q}=\left(\boldsymbol{\alpha}_1, \boldsymbol{\alpha}_2, \cdots, \boldsymbol{\alpha}_n\right)$ 为列分块,令 $$ \sigma_i=\sqrt{\lambda_i}, \quad \boldsymbol{\beta}_i=\frac{1}{\sigma_i} \boldsymbol{A} \boldsymbol{\alpha}_i, i=1,2, \cdots, r $$ 则 $\boldsymbol{\beta}_1, \boldsymbol{\beta}_2, \cdots, \boldsymbol{\beta}_r$ 是两两正交长度为 1 的 $m$ 维列向量,将它们扩张为 $\mathbb{R}_m$ 的一组标准正交基 $\left\{\boldsymbol{\beta}_1, \boldsymbol{\beta}_2, \cdots, \boldsymbol{\beta}_m\right\}$ 。最后,令 $\boldsymbol{P}=\left(\boldsymbol{\beta}_1, \boldsymbol{\beta}_2, \cdots, \boldsymbol{\beta}_m\right)$ 为 $m$ 阶正交矩阵,则 $$ A Q=P\left(\begin{array}{ll} S & O \\ O & O \end{array}\right) $$ 从而 $$ A=P\left(\begin{array}{ll} S & O \\ O & O \end{array}\right) Q^{\prime} $$ 即为 $\boldsymbol{A}$ 的奇异值分解. 在上述计算过程中,正交矩阵 $\boldsymbol{Q}$ 的选取并不唯一;当 $\boldsymbol{Q}$ 取定之后,若 $\mathrm{r}(\boldsymbol{A})=$ $r<m$ ,则正交矩阵 $\boldsymbol{P}$ 的选取也不唯一,因此在奇异值分解中,除了 $\operatorname{diag}\{S, O\}$ (即 $\boldsymbol{A}$ 的奇异值)是由 $\boldsymbol{A}$ 唯一确定之外,正交矩阵 $P, Q$ 的选取一般都不唯一。


应用一:极分解

从 $n$ 阶矩阵 $\boldsymbol{A}$ 的奇异值分解很容易得到 $\boldsymbol{A}$ 的极分解.事实上,由奇异值分解可得 $$ A=\left(P Q^{\prime}\right) Q\left(\begin{array}{ll} S & O \\ O & O \end{array}\right) Q^{\prime} $$ 其中 $R=P Q^{\prime}$ 是 $n$ 阶正交矩阵, $\boldsymbol{B}=\boldsymbol{Q} \operatorname{diag}\{\boldsymbol{S}, \boldsymbol{O}\} \boldsymbol{Q}^{\prime}$ 是 $n$ 阶半正定实对称阵,从而 $A=R B$ 即为 $\boldsymbol{A}$ 的极分解.通过奇异值分解来求极分解,在处理奇异阵时很有用.

应用二:主成分分析(PCA)

使用主成分分析,只保留正交相抵标准型的前几个数值较大的奇异值(实际情况显示,数值较大的特征值具有更主要的作用),去除数值较小的特征值(可能是噪声),这样能对实际数据进行压缩,并且方便存储。

应用三:矩阵的广义逆

命题(MP逆). 线性映射 $\varphi\in\mathcal{L}(V,U)$,则存在唯一的线性映射 $\varphi^{\dagger}:U\rightarrow V$,满足
(1)$\varphi \varphi^{\dagger} \varphi= \varphi$ ;
(2)$\varphi^{\dagger}\varphi\varphi^{\dagger}=\varphi^{\dagger}$ .
(3)$\varphi\varphi^{\dagger}、\varphi^{\dagger}\varphi$ 都是自伴随算子。
则称 $\varphi^{\dagger}$ 为 $\varphi$ 的广义逆(Moore-Penrose 广义逆)。
注. 事实上,广义逆考虑的仅仅是像空间的逆,见谢启鸿老师的课堂截图: pEcXdaV.png 每个线性映射对应一个矩阵,我们同样可以对矩阵定义其广义逆,这里并不特别赘述,特殊的 当 $A$ 是非奇异方阵时,$A^{\dagger}=A^{-1}$ .

实际上,如果 $A$ 的奇异值分解为 $$ A=V \Sigma W^{\mathrm{T}} $$ 那么设 $\Sigma^{\dagger}$ 是 $\Sigma^{\mathrm{T}}$ 的对角线上非零元素都取倒数的矩阵(即上文中对 $S$ 求逆,可以通过定理判定该分块矩阵为MP逆),则 $$ A^{\dagger}=W \Sigma^{\dagger} V^{\mathrm{T}} $$ 可以利用这种方法求广义逆。

应用四:MP逆在求解线性方程组方面的应用

之前我们仅仅考虑了线性方程组解存在的情况,有了广义逆,可以考虑无解的情况,怎么构造出近似解。

定理. $A\in M_{m\times n}(\mathbb{R}),\beta\in \mathbb{R}^n,x\in \mathbb{R},Ax=\beta$,有
(1)若线性方程组有解,则 $z=A^{\dagger}\beta$ 是方程组的最小范数(长度)解。
(2)若线性方程组无解,则 $z = A^{\dagger}\beta$ 是方程组的最佳逼近,即有 $$ ||Ax-\beta||\leq ||Az-\beta|| $$ 对于所有的 $x\in\mathbb{R}^n$.

谢帅课堂上对二者的解释:

最小范数解:

pEcXfIK.png

最佳逼近解: pEcXoxH.png

当 $A$ 列满秩时,最小二乘解(最佳逼近解)的形式与我们所熟知的一致。

终章

笔者用了两个多月的时间学完了高等代数,并配套进行了整理,高等代数的广度和深度都比国内的线性代数课程要大得多,也难得多,接下来的时间就是做一做高等代数的题准备一些考试。

Licensed under CC BY-NC-SA 4.0
Last updated on Apr 07, 2025 21:36 CST
Page views:Loading
Built with Hugo
Theme Stack designed by Jimmy