特征值,特征向量,相似性,对角化,对称矩阵,正交对角化等系列概念均基于方阵提出。
而现实中通常要处理的矩阵都属于长方阵形式。
对于一个
m
×
n
m \times n
m×n的非方阵
A
A
A来说,可以通过
A
T
A
A^TA
ATA方式构造一个对称的
n
×
n
n\times n
n×n的方阵;
对于 A T A A^TA ATA来说
- 其第 i i i行 j j j列的元素 a i j a_{ij} aij 是 A T A^T AT的第 i i i行点乘 A A A的第 j j j列的结果 ↔ \leftrightarrow ↔ 也即 A A A的 i i i列 ⋅ j \cdot j ⋅j列
- 其第 j j j行 i i i列的元素 a j i a_{ji} aji 是 A T A^T AT的第 j j j行点乘 A A A的第 i i i列的结果 ↔ \leftrightarrow ↔ 也即 A A A的 j j j列 ⋅ i \cdot i ⋅i列
- ∴ a i j = a j i \therefore a_{ij} = a_{ji} ∴aij=aji
因此,若
A
A
A是一个
m
×
n
m \times n
m×n的矩阵,则
A
T
A
A^TA
ATA将得到一个对称的
n
×
n
n \times n
n×n方阵,
从而
A
T
A
A^TA
ATA可以被正交对角化,拥有
n
n
n个实数特征值,
n
n
n个互相垂直的标准特征向量(模等于1)
λ
1
,
λ
2
,
λ
3
,
.
.
.
v
⃗
1
,
v
⃗
2
,
v
⃗
3
,
.
.
.
\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \lambda_1,\lambda_2,\lambda_3,... \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \vec v_1,\vec v_2,\vec v_3,...
λ1,λ2,λ3,... v1,v2,v3,...
取出方阵 A T A A^TA ATA的某一特征值 λ i \lambda _i λi与其对应的一个标准特征向量 v ⃗ i \vec v_i vi,存在如下联系:
∥ A ⋅ v ⃗ i ∥ 2 = ( A v ⃗ i ) ⋅ ( A v ⃗ i ) = ( A v ⃗ i ) T ( A v ⃗ i ) = v ⃗ i T A T A v ⃗ i \|A \cdot \vec v_i\|^{2} = (A \vec v_i)\cdot (A \vec v_i) = (A \vec v_i)^{T} (A \vec v_i) = \vec v_i^{T} A^T A \vec v_i ∥A⋅vi∥2=(Avi)⋅(Avi)=(Avi)T(Avi)=viTATAvi
∵ v ⃗ i \because \vec v_i ∵vi是方阵 A T A A^TA ATA的一个标准特征向量
∴ v ⃗ i T A T A v ⃗ i = v ⃗ i T λ i v ⃗ i = λ i v ⃗ i T v ⃗ i = λ i ∥ v ⃗ i ∥ 2 = λ i \therefore \vec v_i^{T} A^T A \vec v_i = \vec v_i^{T} \lambda _i \vec v_i = \lambda _i \vec v_i^T\vec v_i = \lambda _i \|\vec v_i\|^{2} = \lambda _i ∴viTATAvi=viTλivi=λiviTvi=λi∥vi∥2=λi∴ ∥ A ⋅ v ⃗ i ∥ 2 = λ i \therefore \|A \cdot \vec v_i\|^{2} = \lambda _i ∴∥A⋅vi∥2=λi,同时表明方阵 A T A A^TA ATA的特征值 λ i ≥ 0 \lambda _i \ge 0 λi≥0
推出奇异值(Singular Value) ∴ σ i = ∥ A ⋅ v ⃗ i ∥ 2 = λ i \therefore \sigma _i = \sqrt { \|A \cdot \vec v_i\|^{2} } = \sqrt {\lambda _i} ∴σi=∥A⋅vi∥2=λi,奇异值表示了 A v ⃗ i A\vec v_i Avi的长度。
根据矩阵的行空间与列空间一章,对于一个 m × n m \times n m×n的矩阵 A A A,其列空间将由矩阵内线性无关的列向量组生成( d i m ( C o l s p a c e ) ≤ m dim (Colspace) \le m dim(Colspace)≤m)。在这里,向量组 { A v ⃗ i } \{A\vec v_i\} {Avi}构成矩阵 A A A列空间的一组正交基( λ i ≠ 0 \lambda _i \ne 0 λi=0)
① 正交性证明
取出 { A v ⃗ i } \{A\vec v_i\} {Avi}中的两个基向量 A v ⃗ i , A v ⃗ j A\vec v_i , A\vec v_j Avi,Avj
( A v ⃗ i ) ( A v ⃗ j ) = ( A v ⃗ i ) T ( A v ⃗ j ) = v ⃗ i T A T A v ⃗ j = v ⃗ i T ( λ j v ⃗ j ) = λ j v ⃗ i T v ⃗ j = λ j ( v ⃗ i v ⃗ j ) = 0 (A\vec v_i)(A\vec v_j) = (A\vec v_i)^T(A\vec v_j) =\vec v_i^TA^TA\vec v_j = \vec v_i^T(\lambda _j\vec v_j) = \lambda _j \vec v_i^T\vec v_j = \lambda _j(\vec v_i\vec v_j)=0 (Avi)(Avj)=(Avi)T(Avj)=viTATAvj=viT(λjvj)=λjviTvj=λj(vivj)=0
② 证明 { A v ⃗ i } \{A\vec v_i\} {Avi}是 A A A的一组正交基
方阵 A T A A^TA ATA的 n n n个标准特征向量组 { v ⃗ 1 , v ⃗ 2 , . . . , v ⃗ n } \{\vec v_1,\vec v_2,...,\vec v_n\} {v1,v2,...,vn}构成 n n n维空间的一组基, 则该空间内任意向量 x ⃗ = k 1 v ⃗ 1 + k 2 v ⃗ 2 + . . . + k n v ⃗ n \vec x = k_1\vec v_1 + k_2\vec v_2 + ... + k_n\vec v_n x=k1v1+k2v2+...+knvn
对于 A A A 的列空间(维度 ≤ m \le m ≤m)中的向量 y ⃗ \vec y y(含有 m m m个元素),可以在一个 n n n维空间中寻找一个 x ⃗ \vec x x,从而表示为 y ⃗ = A ⋅ x ⃗ \vec y = A \cdot \vec x y=A⋅x的结果( m × n ⋅ n × 1 = m m\times n \cdot n\times 1 = m m×n⋅n×1=m)。
∴ y ⃗ = A ⋅ x ⃗ = A ⋅ k 1 v ⃗ 1 + A ⋅ k 2 v ⃗ 2 + . . . + A ⋅ k n v ⃗ n = k 1 A v ⃗ 1 + k 2 A v ⃗ 2 + . . . + k n A v ⃗ n \therefore \vec y = A \cdot \vec x = A\cdot k_1\vec v_1 + A\cdot k_2\vec v_2 + ... + A\cdot k_n\vec v_n = k_1A\vec v_1 + k_2A\vec v_2 + ... + k_nA\vec v_n ∴y=A⋅x=A⋅k1v1+A⋅k2v2+...+A⋅knvn=k1Av1+k2Av2+...+knAvn而 k 1 A v ⃗ 1 + k 2 A v ⃗ 2 + . . . + k n A v ⃗ n k_1A\vec v_1 + k_2A\vec v_2 + ... + k_nA\vec v_n k1Av1+k2Av2+...+knAvn就是 { A v ⃗ i } \{A\vec v_i\} {Avi}向量组的线性组合,由于 λ i = 0 → ∥ A ⋅ v ⃗ i ∥ 2 → A v ⃗ i = O \lambda _i = 0 \rightarrow \sqrt { \|A \cdot \vec v_i\|^{2} } \rightarrow A\vec v_i =O λi=0→∥A⋅vi∥2→Avi=O,从而使 { A v ⃗ i } \{A\vec v_i\} {Avi}向量组内存在线性相关组,所以刨去了 λ i = 0 \lambda _i = 0 λi=0这个因素之后,得到的 { A v ⃗ i } \{A\vec v_i\} {Avi}向量组内的所有向量将构成正交关系[①中已证明],形成矩阵 A A A的列空间的一组正交基。
在处理奇异值的时候,通常按从大到小的顺序排列 σ i \sigma _i σi,从而去掉等于 0 0 0 的奇异值。
如果
A
A
A 由
r
r
r个不为零的奇异值,则
{
A
v
⃗
1
,
A
v
⃗
2
,
.
.
.
,
A
v
⃗
r
}
\{A\vec v_1,A\vec v_2,...,A\vec v_r\}
{Av1,Av2,...,Avr}是
A
A
A的列空间的一组正交基
A
A
A的列空间的维度为
r
r
r;
r
a
n
k
(
A
)
=
r
rank(A) = r
rank(A)=r
A
A
A的列空间的一组标准正交基将描述为
{
A
v
⃗
1
σ
1
A
v
⃗
2
σ
2
.
.
.
,
A
v
⃗
r
σ
r
}
\{ \frac {A\vec v_1}{\sigma _1}\, \frac {A\vec v_2}{\sigma _2}\,..., \frac {A\vec v_r}{\sigma _r}\}
{σ1Av1σ2Av2...,σrAvr} ;
进一步简化表述
u
⃗
i
=
A
v
⃗
i
σ
i
{
u
⃗
1
,
u
⃗
2
,
.
.
.
,
u
⃗
r
}
\vec u_i = \frac {A\vec v_i}{\sigma _i}\ \ \ \{\vec u_1,\vec u_2,...,\vec u_r \}
ui=σiAvi {u1,u2,...,ur}在这里可以看到
σ
=
0
\sigma = 0
σ=0 等式将无意义。
使用向量组
{
u
⃗
1
,
u
⃗
2
,
.
.
.
,
u
⃗
r
}
\{\vec u_1,\vec u_2,...,\vec u_r \}
{u1,u2,...,ur}能更方便的表示一个矩阵。