线性代数笔记(1):线性方程组
2019-10-14
这部分的笔记依据David C. Lay 的《线性代数及其应用》第一章内容。
♡1heartsuit 1♡1 线性方程组
1.1 线性方程组
对于包含未知数x1,x2,⋯,xnx_1, x_2, cdots, x_nx1,x2,⋯,xn的方程:a1x1+a2x2+⋯+anxn=ba_1 x_1 + a_2 x_2 + cdots + a_n x_n = b a1x1+a2x2+⋯+anxn=b
,如果其中bbb与系数a1,a2,⋯,ana_1, a_2, cdots, a_na1,a2,⋯,an是实数或复数,则这个方程就是线性方程组;nnn可以是任意正整数。
线性方程组是由一个或几个包含相同变量x1,x2,⋯,xix_1, x_2,cdots, x_ix1,x2,⋯,xi的线性方程组成的。而线性方程组的一组解是一组数(s1,s2,⋯,sns_1,s_2,cdots,s_ns1,s2,⋯,sn),用这组数分别代替x1,x2,⋯,xix_1, x_2,cdots, x_ix1,x2,⋯,xi时,所有方程的两边相等。
方程组所有可能的解的集合称为线性方程组的解集。当且仅当两个方程组有相同的解集,则两个线性方程组是等价的。
1.2 线性方程组解的情况
线性方程组的解有下列三种情况:
- 无解
- 有唯一解
- 有无穷多解
当一个线性方程组有一个或无穷多个解时,称这个线性方程组是相容的;如无解,则称不相容。
1.3 矩阵
一个线性方程组包含的主要信息可以用一个称为矩阵的紧凑的矩形阵列表示,如方程组:
x1−2×2+x3=0x_1 – 2 x_2 + x_3 = 0x1−2x2+x3=0
2×2−8X3=82 x_2 – 8X_3 = 82x2−8X3=8
−4×1+5×2+9×3=−9-4x_1 + 5x_2 + 9x_3 = -9−4x1+5x2+9x3=−9
把每一个变量的系数写在对其的一列中,矩阵
[1−2102−8−459]left[ begin{matrix} 1 & -2 & 1 \ 0 & 2 & -8 \ -4 & 5 & 9 end{matrix} right] ⎣⎡10−4−2251−89⎦⎤
称为上面方程组的系数矩阵。而
[1−21002−88−459−9]left[ begin{matrix} 1 & -2 & 1 & 0 \ 0 & 2 & -8 & 8\ -4 & 5 & 9 & -9 end{matrix} right] ⎣⎡10−4−2251−8908−9⎦⎤
称为方程组的增广矩阵。
1.4 线性方程组的解法
线性方程组求解的基本思路是把方程组用一个更容易解的等价方程组(即有相同解集)代替。
一个矩阵经过初等行变换后得到的矩阵,与原来的矩阵是行等价的,因此两个线性方程组的增广矩阵如果是行等价的则它们有相同的解集。
初等行变换有3中形式:
- (倍加)把某一行的倍数加到玲一行上
- (对换)把两行对换
- (倍乘)把某一行的所有元素乘以同一个非零整数
通过对增广矩阵的初等行变换可以研究关于线性方程组解存在情况的问题:
- 方程组是否相容,即存在至少一组解
- 如果方程组有解,那么解是否唯一
通过初等行变换形成的阶梯形矩阵可以判断线性方程组解集存在的情况。阶梯形矩阵是指:
- 每一个非零行在每一零行之上
- 某一行先导元素所在的列位于前一行先导元素的右面
- 某一先导元素所在列的下方元素都是零
如果一个阶梯型矩阵还有以下性质,则被称为简化(行)阶梯形,:
- 每一非零行的先导元素是1
- 魅影先导元素1是该元素所在列的唯一非零元素
定理1:每个矩阵行等价于唯一的简化阶梯型矩阵
阶梯型的矩阵可以参考下图:
非零行的先导元素是指该行中最左边的非零元素。
若矩阵 AAA 等价于阶梯形矩阵 UUU,称 UUU 为 AAA 的(行)阶梯形。矩阵中的主元位置是 AAA 中对应于它的阶梯形中先导元素的位置,主元列是 AAA 含有主元位置的列。
定理2:线性方程组相容的充要条件是增广矩阵的最右列不是主元列,就是说,增广矩阵的阶梯形没有形如[00⋯b]left[ begin{matrix} 0 & 0 & cdots & b end{matrix} right][00⋯b]的行;若线性方程组相容,它的解集可能有两种情形:(1)当没有自由变量时,有唯一解;(2)若至少有一个自由变量,有无穷多解
若线性方程组的方程个数少于未知数个数,被称为欠定方程组,如果一个欠定方程组是相容的,则会有无穷多解;若线性方程组的方程个数多于未知数个数,被称为超定方程组,超定方程组可以相容(唯一解或无穷多解)也可能不相容。
应用行简化方法解线性方程组的步骤:
a. 写出线性方程组的增广矩阵
b. 应用行简化方法把增广矩阵化为阶梯形,确定方程组是否有解,如果没有解就停止,否则进行下一步
c. 继续行简化方法得到简化阶梯形
d. 写出由c步所得矩阵所对应的方程组
e. 把d步所得的每个方程改写成为用自由变量表示基本变量的形式
1.5 向量方程
仅含一列的矩阵称为列向量,简称向量;向量集合用 RnR^nRn 表示,RRR 表示向量中的元素是实数,指数 nnn 表示每个向量包含元素的个数。RnR^nRn 中两个向量相等,当且仅当对应元素都相等。
向量在空间中可以视为从原点出发的一个有方向和长度的量,有时会将原点这个前提省略,用向量的终点坐标直接表示向量。
两个同属于向量空间 RnR^nRn 的向量相加,就是把对应元素相加得到新的向量。在二维平面中可以图示为平行四边形法则。
RnR^nRn 中向量有以下袋鼠性质:对 RnR^nRn 中一切向量 u,v,wu, v, wu,v,w 以及标量 ccc 和 ddd :
- (1)uuu + vvv = vvv + uuu
- (2)uuu + vvv + www = uuu + (vvv + www)
- (3)uuu + 000 = 000 + uuu = uuu
- (4)uuu + (−u-u−u) = −u-u−u + uuu = 000
- (5)ccc(uuu + vvv) = cccuuu + cccvvv
- (6)(ccc + ddd)uuu = cccuuu + ddduuu
- (7)111uuu = uuu
定义线性组合:给定RnR^nRn中向量 v1,v2,⋯,vpv_1, v_2, cdots, v_pv1,v2,⋯,vp 和标量 c1,c2,⋯,cpc_1, c_2, cdots, c_pc1,c2,⋯,cp,向量 y=c1v1+c2v2+⋯+cpvpy = c_1 v_1+ c_2 v_2 + cdots + c_p v_py=c1v1+c2v2+⋯+cpvp 称为向量 v1,v2,⋯,vpv_1, v_2, cdots, v_pv1,v2,⋯,vp 以 c1,c2,⋯,cpc_1, c_2, cdots, c_pc1,c2,⋯,cp 为权的线性组合。 线性组合中的权可以是任意实数,包括零。
向量方程x1a1+x2a2+⋯+xnan=bx_1 a_1+x_2 a_2+cdots+x_n a_n = bx1a1+x2a2+⋯+xnan=b与增广矩阵为 [a1a2⋯anb]left[ begin{matrix} a_1 & a_2 & cdots & a_n & b end{matrix} right][a1a2⋯anb] 的线性方程有相同的解集,当且仅当这个线性方程有解时,bbb可以表示为 a1,a2,⋯,ana_1, a_2, cdots, a_na1,a2,⋯,an 的线性组合。
定义Span{v1,v2,⋯,vp}Span{v_1, v_2, cdots, v_p}Span{v1,v2,⋯,vp} :若 v1,v2,⋯,vpv_1, v_2, cdots, v_pv1,v2,⋯,vp 是RnR^nRn中的向量,则 v1,v2,⋯,vpv_1, v_2, cdots, v_pv1,v2,⋯,vp 的所有线性组合所成的集合用记号 Span{v1,v2,⋯,vp}Span{v_1, v_2, cdots, v_p}Span{v1,v2,⋯,vp} 表示,称为由 v1,v2,⋯,vpv_1, v_2, cdots, v_pv1,v2,⋯,vp 所生成(或张成)的 RnR^nRn 的子集,也就是说 Span{v1,v2,⋯,vp}Span{v_1, v_2, cdots, v_p}Span{v1,v2,⋯,vp} 是所有形如 c1v1+c2v2+⋯+cpvpc_1 v_1+ c_2 v_2 + cdots + c_p v_pc1v1+c2v2+⋯+cpvp 的向量的集合,其中 c1,c2,⋯,cpc_1, c_2, cdots, c_pc1,c2,⋯,cp 是标量。000 一定属于 Span{v1,v2,⋯,vp}Span{v_1, v_2, cdots, v_p}Span{v1,v2,⋯,vp}
要判断向量 bbb 是否属于 Span{v1,v2,⋯,vp}Span{v_1, v_2, cdots, v_p}Span{v1,v2,⋯,vp} 就是判断向量方程 x1v1+x2v2+⋯+xpvp=bx_1 v_1 + x_2 v_2 + cdots + x_p v_p = bx1v1+x2v2+⋯+xpvp=b是否有解;或等价地,判断增广矩阵[v1v2⋯vpb]left[ begin{matrix} v_1 & v_2 & cdots & v_p & b end{matrix}right][v1v2⋯vpb]的线性方程是否有解。
1.6 向量方程
线性代数的一个基本思想是把线性组合看做是矩阵与向量的积。
若 AAA 是 mmm × nnn 的矩阵,它的各列为 a1,a2,⋯,ana_1, a_2, cdots, a_na1,a2,⋯,an ,若向量 xxx 是 RnR^nRn 中的向量,则 AAA 与 xxx 的积,记为 AxAxAx ,就是 AAA 的各列以 xxx 对应元素为权的线性组合,即 Ax=[a1a2⋯an][x1x2⋮xn]=x1a1+x2a2+⋯+xnanAx = left[begin{matrix} a_1 & a_2 & cdots & a_n end{matrix}right] left[begin{matrix}x_1\ x_2\ vdots \ x_nend{matrix}right] =x_1 a_1 + x_2 a_2+cdots+x_n a_nAx=[a1a2⋯an]⎣⎢⎢⎢⎡x1x2⋮xn⎦⎥⎥⎥⎤=x1a1+x2a2+⋯+xnan 这里当且仅当 AAA 的列数等于 xxx 中元素个数时,AxAxAx 才有意义。
若乘积 AxAxAx 有定义,则 AxAxAx 中的第 iii 个元素是 AAA 的第 iii 行元素与 xxx 对应元素乘积之和。
定理3 若 AAA 是 mmm × nnn 的矩阵,它的各列为 a1,a2,⋯,ana_1, a_2, cdots, a_na1,a2,⋯,an ,而 b∈Rnb in R^nb∈Rn ,则矩阵方程 Ax=bAx = bAx=b与向量方程x1a1+x2a2+⋯+xnan=bx_1 a_1 + x_2 a_2 + cdots + x_n a_n = bx1a1+x2a2+⋯+xnan=b 有相同的解集,它又与增广矩阵为[a1a2⋯anb]left[ begin{matrix} a_1 & a_2 & cdots & a_n & b end{matrix}right][a1a2⋯anb] 的线性方程组有相同的解集。
以上定理说明,可以将线性方程组用三种不同但彼此等价的观点来研究:作为矩阵方程,作为向量方程或作为线性方程组。
AxAxAx 的定义可以推出:Ax=bAx = bAx=b 有解,当且仅当 bbb 是 AAA 的各列的线性组合。
定理4 设 AAA 是 mmm × nnn 的矩阵,则以下命题是逻辑上等价的,也就是说,对某个 AAA ,他们都成立或者都不成立:
- 对 RnR^nRn 中每个 bbb ,方程 Ax=bAx = bAx=b 有解
- RnR^nRn 中的每个 bbb 都是 AAA 的列的一个线性组合
- AAA 的各列生成 RnR^nRn
- AAA 在每一行都有一个主元位置(不是增广矩阵)
如果矩阵 AAA 的主对角线上的元素都是1(aii=1a_{ii} = 1aii=1),其它位置上的元素都是0,这样的矩阵称为单位矩阵。
定理5 若 AAA 是 mmm × nnn 的矩阵,uuu 和 vvv 是 RnR^nRn 中的向量,ccc 是标量,则:
- a. A(u+v)=Au+AvA(u+v) = Au + AvA(u+v)=Au+Av
- b. A(cu)=c(Au)A(cu) = c(Au)A(cu)=c(Au)
线性方程组称为齐次方程,若它可以写成 Ax=0Ax = 0Ax=0 的形式;其中 AAA 是 m×nm × nm×n 的矩阵,而 000 是 RnR^nRn 中的零向量。根据定理2,齐次方程 Ax=0Ax = 0Ax=0 有非平凡解,当且仅当方程至少有一个自由变量。
其次方程 Ax=0Ax = 0Ax=0 可以表示为 span{v1,⋯,vp}span{v_1, cdots, v_p}span{v1,⋯,vp},其中 v1,⋯,vpv_1, cdots, v_pv1,⋯,vp 是适当的解向量;若唯一解是零向量,则解集就是 span{0}span{0}span{0};若方程 Ax=0Ax = 0Ax=0 仅有一个自由变量,解集是通过原点的一条直线。
非其次线性方程组有很多解时,一般可以表示为参数向量形式,即由一个向量加上满足对应齐次方程的一些向量的任意线性组合的形式,即 x=su+tvx = su + tvx=su+tv,其中 sss 和 ttt 是任意实数。
解释存在参数向量形式的解集,可以把向量的加法解释为平移,例如有 v∈R2v in R^2v∈R2 和 p∈R2p in R^2p∈R2,v+pv + pv+p 的结果就是把 vvv 沿着平行于通过 ppp 和 000 的直线移动,;若R2R^2R2 或 R3R^3R3中的直线 LLL 上的每一点都被平移 ppp,就得到一条平行于 LLL 的直线。
Ax=bAx = bAx=b 的解集是一条通过 ppp 而平行于 Ax=0Ax = 0Ax=0 的直线。
定理6 设方程 Ax=bAx=bAx=b 对某个 bbb 是相容的, ppp 是一个特解,则 Ax=bAx=bAx=b 的解集是所有形如 w=p+vkw=p+v_kw=p+vk 的向量的集合,其中 vkv_kvk 是其次方程 Ax=0Ax=0Ax=0 的任意一个解。
以上定理说明,如果 Ax=bAx=bAx=b 有解,则解集可由 Ax=0Ax=0Ax=0 的解平移向量 ppp 得到, ppp 是 Ax=bAx=bAx=b 的任意一个特解。
1.7 线性无关
对于 RnR^nRn 中的一组向量 {v1,⋯,vp}{v_1,cdots,v_p}{v1,⋯,vp} ,如果向量方程 x1v1+x2v2+⋯+xpvp=0x_1 v_1 + x_2 v_2 + cdots + x_p v_p = 0x1v1+x2v2+⋯+xpvp=0 仅有平凡解,则成这一组向量是线性无关的;对应地,如果存在不全为零的权 c1,⋯,cpc_1,cdots,c_pc1,⋯,cp 使c1v1+c2v2+⋯+cpvp=0c_1 v_1 + c_2 v_2 + cdots + c_p v_p = 0c1v1+c2v2+⋯+cpvp=0成立,则这一组向量是线性相关的。
对于矩阵[a1a2⋯an]left[ begin{matrix} a_1 & a_2 & cdots & a_n end{matrix}right][a1a2⋯an] ,矩阵方程 Ax=0Ax=0Ax=0 可以写成x1a1+x2a2+⋯+xnan=0x_1a_1+x_2a_2 + cdots+x_na_n=0x1a1+x2a2+⋯+xnan=0,则 AAA 的各列之间每一个线性相关关系对应于方程 Ax=0Ax=0Ax=0 的一个非平凡解,因此,矩阵 AAA 的列各列线性无关,当且仅当方程 Ax=0Ax =0Ax=0 仅有平凡解。
当仅有一个向量时,设其为 vvv,当 v≠0vneq0v=0 时向量方程 xpv=0x_pv=0xpv=0 仅有平凡解,所以 vvv 形成的集合是线性无关的;而如果 v=0v=0v=0 时,由于 xp0=0x_p0 = 0xp0=0有很多平凡解,所以零向量是线性相关的。
两个向量的集合 {v1,v2}{v_1,v_2}{v1,v2} 线性相关,当且仅当其中一个向量是另一个向量的倍数。
定理7 两个或更多个向量的集合 S={v1,⋯,vp}S={v_1,cdots,v_p}S={v1,⋯,vp} 线性相关,当且仅当 SSS 中至少有一个向量是其他向量的线性组合;事实上,若 SSS 线性相关,且 vi≠0v_i neq0vi=0 ,则某个 vjv_jvj(j>1)(j > 1 )(j>1) 是它前面几个向量 v1,⋯,vi−1v_1, cdots, v_{i-1}v1,⋯,vi−1 的线性组合。
定理8 若一个向量组的向量个数超过每个向量元素的个数,那么这个向量组线性相关;就是说,RnR^nRn 中的任意向量组 {v1,⋯,vp}{v_1, cdots, v_p}{v1,⋯,vp} ,当 p>np >np>n 时线性相关。
设想 AAA 是 n×pn times pn×p 的矩阵,方程对应于 ppp 个未知量的 nnn 个方程,如果 p>np >np>n ,即未知量比方程多,则必定存在自由变量。因此
Ax=0Ax = 0Ax=0 必定有非平凡解。
定理9 若向量组 S={v1,⋯,vp}S={v_1,cdots,v_p}S={v1,⋯,vp} 包含零向量,则它线性相关。
1.8 线性变换
矩阵方程 Ax=bAx=bAx=b 和对应的向量方程 x1a1+⋯+xnan=bx_1a_1 + cdots + x_na_n=bx1a1+⋯+xnan=b 之间的差别仅是记号上的不同,而另一方面,也会将矩阵 AAA 看作是一种“对象”,通过乘法“作用”于向量 xxx,产生新的向量称为 AxAxAx。按照这个视角,解方程 Ax=bAx=bAx=b 就是求出 RnR^nRn 中经过乘以 AAA 作用后变为向量 bbb 的 xxx。(下图是一个线性变化的举例图示)
由 xxx 到 AxAxAx 的对应是由一个向量集到另一个向量集的函数,这概念推广了通常的函数概念,通常的函数时把一个实数变成另一个实数的规则。由 RnR^nRn 到 RmR^mRm 的一个变换(或称函数、映射) TTT 是一个规则,它把 RnR^nRn 中的每个向量 xxx 对应以 RmR^mRm 中的一个向量 T(x)T(x)T(x) ,集 RnR^nRn 称为 TTT 的定义域,而 RmR^mRm 称为 TTT 的余定义域(或取值空间),符号 T:Rn→RmT: R^n to R^mT:Rn→Rm 说明 TTT 的定义域是 RnR^nRn 而余定义域是 RmR^mRm,对于 RnR^nRn 中的向量 xxx,RmR^mRm 中向量 T(x)T(x)T(x) 称为 xxx 在 TTT 作用下的像,所有像 T(x)T(x)T(x) 的集合称为 TTT 的值域。
矩阵变换可以记为 x→Axx to Axx→Ax,当 AAA 有 nnn 列时,TTT 的定义域为 R∗nR*nR∗n ,而当 AAA 的每一列有 mmm 个元素时,TTT 的余定义域为 R…mR…mR…m。
变换(或映射) TTT 称为是线性的,如果:
- 对 TTT 的定义域中一切 uuu 和 vvv ,T(u+v)=T(u)+T(v)T(u+v)=T(u) + T(v)T(u+v)=T(u)+T(v)
- 对一切 uuu 和标量 ccc ,T(cu)=cT(u)T(cu)=cT(u)T(cu)=cT(u)
另外,若 TTT 是线性变换,则 T(0)=0T(0)=0T(0)=0;对 TTT 的定义域中的一切向量 uuu 和 vvv 以及数 ccc 和 ddd 有 T(cu+dv)=cT(u)+dT(v)T(cu+dv)=cT(u)+dT(v)T(cu+dv)=cT(u)+dT(v) 。以下推广
T(c1v1+⋯+cpvp)=c1T(x1)+⋯+cpT(vp)T(c_1v_1+cdots+c_pv_p)=c_1T(x_1)+cdots+c_pT(v_p)T(c1v1+⋯+cpvp)=c1T(x1)+⋯+cpT(vp) 称为叠加原理,假设 viv_ivi 是进入某个系统的信号,T(vi)T(v_i)T(vi) 为系统对这些信号的相应,如果某一输入可以表示为这些信号的线性组合,则系统的相应是对各个信号的相应的同样的线性组合。
从 RnR^nRn 到 RmR^mRm 的每一个线性变换,实际上都是一级矩阵变换 x→Axx to Axx→Ax ,而且变换 TTT 的性质都归结为 AAA 的性质。寻找矩阵 AAA 的关键,是了解 TTT 完全由它对单位矩阵 InI_nIn 的各列 的作用所决定.
定理10 设 T:R∗n→RmT:R*n to R^mT:R∗n→Rm 为线性变换,则存在唯一的矩阵 AAA ,则对于 x∈Rnx in R^nx∈Rn,有 T(x)=AxT(x)=AxT(x)=Ax。事实上,AAA 是 $ m times n$ 矩阵,它的第 jjj 列是向量 T(ej)T(e_j)T(ej),其中 eje_jej 是单位矩阵 InI_nIn 的第 jjj 列:A=[T(e1)⋯T(en)]A = [T(e_1) cdots T(e_n)]A=[T(e1)⋯T(en)]。AAA 被称为线性变换 TTT 的标准矩阵。
定义映射:T:Rn→RmT:R^n to R^mT:Rn→Rm 称为到 RmR^mRm 上的映射,若 RmR^mRm 中任一 bbb 都至少有一个 RnR^nRn 中的 xxx 与之对应。而如果 RmR^mRm 中每个 bbb 是 RnR^nRn 中至多一个 xxx 的像,则称为一对一映射或单射。
定理11 设 T:Rn→RmT:R^n to R^mT:Rn→Rm 为线性变换,则 TTT 是一对一,当且仅当方程 Ax=0Ax=0Ax=0 仅有平凡解。
定理12 设 T:Rn→RmT:R^n to R^mT:Rn→Rm 是线性变换,设 AAA 是 TTT 的标准矩阵,则:
a. TTT 把 RnR^nRn 映射到 RmR^mRm 当且仅当 AAA 的列生成 RmR^mRm
b. TTT 是一对一映射,当且仅当 AAA 的各列线性无关