数据科学、数据分析、人工智能必备知识汇总-----线性代数进阶-----持续更新

ydenergy_殷志鹏

已于 2025-04-03 15:12:56 修改

阅读量923

点赞数 9

分类专栏：机器学习数学深度学习文章标签：人工智能线性代数机器学习

于 2024-12-12 18:30:00 首次发布

本文链接：https://blog.csdn.net/grd_java/article/details/144393637

版权

深度学习同时被 3 个专栏收录

17 篇文章

订阅专栏

机器学习

11 篇文章

订阅专栏

数学

6 篇文章

订阅专栏

数据科学、数据分析、人工智能必备知识汇总-----主目录-----持续更新(进不去说明我没写完)：`https://blog.csdn.net/grd_java/article/details/140174015`

文章目录

1. 二次型

学二次型，很大原因是为了求Hessian矩阵

二次型就是纯二次项构成的一个函数。因为二次函数(方程)的二次部分最重要，为了方便研究，我们把含有n个变量的二次齐次函数: $f(x_1,x_2,\cdots,x_n) = a_{11}x_1^2+a_{22}x_2^2+\cdots+a_{nn}x_n^2+2a_{12}x_1x_2+2a_{13}x_1x_3+\cdots+2a_{n-1,n}x_{n-1}x_n$ 称为二次型

二次型就是一个数，就是一个向量 $x$ 和一个矩阵 $A$ 相乘的结果。就是上面这个式子，也是一种表现形式

二次型的矩阵表示及其秩

$f(x) = x^TAx$ ,其中 $A=A^T$ . $A$ 的秩称为二次型 $f$ 的秩。但要注意，若A不是实对称，需要化为实对称后，才能用这个求秩

$\begin{bmatrix}x_1 & \cdots &\cdots &x_n\end{bmatrix}$ $\begin{bmatrix} a_{11} & a_{12} & \cdots &a_{1n}\\\\ a_{21} & a_{22} & \cdots &a_{2n}\\\\ \cdots & \cdots & \cdots &\cdots\\\\ a_{n1} & a_{n2} & \cdots &a_{nn} \end{bmatrix}$ $\begin{bmatrix}x_1 \\ \vdots \\ \vdots \\ x_n\end{bmatrix}$

举个例子

这是对方阵而言的， $a_{ij}$ 有 $n$ 的平方这么多项，这种形式在机器学习中会见到

比如是一次型的: $f(x;w) = w^Tx+b$

或者二次型的: $f(x;w) = x^T w x + b$

例如我们遇到的场景的数据分布是一次型的，那我们就可以选择 logistic regression逻辑回归、SVM支持向量机等分界面为一次型的模型

如果场景的数据分布是二次型的，我们可以选择 naive bayes分类模型，朴素贝叶斯法

如果场景的数据分布既不是一次型也不是二次型,那我们可以选择基于决策树的模型,例如 gbdt梯度提升决策树，random forest随机森林等，或者 DNN深度神经网络,这些模型都高度非线性,表达能力极强，理论上可以拟合任意曲线

此时回看 Hessian 矩阵： $对于二次型函数f(x) = x^T A x$

$f(x)>0,x≠0,x属于\R,则f为$ $正定二次型,$ $A 为正定矩阵$

$f(x)≥0,x≠0,x属于\R,则f为$ $半正定二次型,$ $A 为半正定矩阵$

$f(x)<0,x≠0,x属于\R,则f为$ $负定二次型,$ $A 为负定矩阵$

$f(x)≤0,x≠0,x属于\R,则f为$ $半负定二次型,$ $A 为半负定矩阵$

以上条件皆不满足，则A为不定

正定

半正定

不定

2. 特征值与特征向量

在机器学习中会被用到，像 PCA 主成分分析，LDA 线性判别分析，以及其它算法里面都会用到它的理论和方法

设A是n阶矩阵， $\lambda$ 是一个数，若存在n维非零向量 $\xi$ ，使得 $A\xi = \lambda \xi，且\xi ≠0$ ，则称 $\lambda$ 是 $A$ 的特征值， $\xi$ 是 $A$ 的对应与特征值 $\lambda$ 的特征向量

我们已经知道,矩阵和向量的乘法就相当于对该向量做了一个线性变换。在这个变换中，大部分的向量都发生了偏移，脱离了原“轨道”

而 $A\xi = \lambda \xi$ ，表示 $矩阵 A$ 对 $\xi$ 做的线性变换，等价于 $一个值\lambda$ 对 $\xi$ 做的线性变换。我们就称 $\lambda$ 是 $A$ 的特征值，而 $\xi$ 是 $A$ 对应与 $特征值\lambda$ 的特征向量

又因为 $A\xi = \lambda \xi$ 可以化简为 $\lambda\xi - A\xi = (\lambda E - A)\xi = 0$ 。又因为 $\xi ≠ 0$ ，故 $|\lambda E - A|=0$

特征值并不唯一，可以有多个

$(\lambda E - A)\xi = 0$ ，这是n个未知数，n个方程的齐次线性方程组，它有非零解的充分必要条件是系数行列式 $|\lambda E - A|=0$

$\lambda_0是A的特征值 \Leftrightarrow$ $|\lambda E - A|=0$

$\lambda_0不是A的特征值 \Leftrightarrow$ $|\lambda E - A|≠0$

若 $\lambda_1,\lambda_2,\cdots,\lambda_n$ 是A的n个特征值，则 $\begin{cases}|A| =\lambda_1\lambda_2\cdots\lambda_n\\\\tr(A) = \lambda_1+\lambda_2+\cdots+\lambda_n\end{cases}$

$Ax=\lambda x$ ,其中 $A$ 是一个 $n \times n$ 的矩阵, $x$ 是一个n维向量,则我们说 $\lambda$ 是矩阵 $A$ 的一个特征值，而 $x$ 是矩阵 $A$ 的特征值 $\lambda$ 所对应的特征向量。

求出特征值和特征向量有什么好处呢? 就是我们可以将矩阵 $A$ 特征分解。如果我们求出了矩阵 $A$ 的 $n$ 个特征值 $\lambda_1≤\lambda_2≤\cdots≤\lambda_n$

以及这 $n$ 个特征值所对应的特征向量 $w_1,w_2,...,w_n)$

那么矩阵 $A$ 就可以用下式的特征分解表示

$A=W\sum W^{-1}$

令 $M$ 为 $n x n$ 矩阵，其特征值为 $\lambda_1,\lambda_2,\cdots,\lambda_n$ ，特征向量为 $V_1,V_2,...,V_n$ ，形成线性无关集合，以每个特征向量为列构成矩阵 $A$ ，如下所示

$A=[V_1,V_2,...,V_n]$

矩阵 $A$ 可以将矩阵 $M$ 对角化，乘积矩阵 $A^{-1}MA$ 的主对角元素是矩阵 $M$ 的特征值（这是个定理，记住就行，证明的话自己百度一下就有）:

$A^{-1}MA=\begin{bmatrix} \lambda_1 & 0 & \cdots & 0 \\\\ 0 & \lambda_2 & \cdots & 0 \\\\ \vdots & \vdots & \ddots & \vdots \\\\ 0 & 0 & \cdots & \lambda_n \\\\ \end{bmatrix}$ ，记为 $\varLambda$

此时等号两边左同乘A得 $AA^{-1}MA=A\varLambda$ ，因为 $\varLambda$ 是一个对角矩阵，所以可以随便移动位置，化简得 $EMA=\varLambda A$ ，又因为单位矩阵 $E$ 乘以任何矩阵 $M$ 都为 $M$ ，可以得到 $MA=\varLambda A$ ， $A$ 是矩阵 $M$ 对应特征值 $\varLambda$ 的特征向量

反之，如果存在可逆矩阵 $A$ ，使 $A^{-1}MA$ 为对角矩阵，则矩阵 $A$ 的列等于矩阵 $M$ 的特征向量， $A^{-1}MA$ 的主对角元素为矩阵 $M$ 的特征值

通过一个正交变换做到的， $P^{-1}AP=\varLambda$

$\varLambda$ 是对角矩阵，它就是对角线的值是矩阵所有特征值构成的矩阵

$\begin{bmatrix} \lambda_1 & 0 & \cdots & 0 \\\\ 0 & \lambda_2 & \cdots & 0 \\\\ \vdots & \vdots & \ddots & \vdots \\\\ 0 & 0 & \cdots & \lambda_n \\\\ \end{bmatrix}$

P 是正交矩阵，正交矩阵的定义是P的逆等于P的转置 $P^{-1}=P^T$

正交矩阵的性质，是行和列相互之间是正交的，一个向量组 $x_1,x_2,…,x_n)$ ，其中当 $i$ 不等于 $j$ 时, $x_i$ 和 $x_j$ 内积是 $0$ 。如果 $i = j$ ,那么向量内积就是1,其实它就是我们几何里面垂直的概念的抽象

$P\varLambda P^{-1} = A$

我们可以把一个矩阵拆分成，一个正交阵和 $\varLambda$ 还有正交阵的逆的乘积的,这就是我们的特征值分解

3. 多元函数的泰勒展开

一元泰勒展开公式： $f(x_0)+\dfrac{f^{'}({x_0})}{1!}·(x-x_0)^1+\dfrac{f^{''}({x_0})}{2!}·(x-x_0)^2+\dfrac{f^{'''}({x_0})}{3!}·(x-x_0)^3+...+\dfrac{f^{n}({x_0})}{n!}·(x-x_0)^n + RN(余项O((x-x^0)^n))$

至于多元的，因为我们研究的基本不超过2元，所以只展开2项

$f({x}_{k})+[\nabla f(x_k)]^T(x-x_k)+\dfrac{1}{2}[x-x_k]^TH(x_k)[x-x_k]+O^{n}$

其中 $H(x_k)$ 就是hessian矩阵 $\begin{bmatrix} \dfrac{\partial^2 f(x_k)}{\partial x_1 ^2} & \dfrac{\partial^2 f(x_k)}{\partial x_1 \partial x_2} & \cdots & \dfrac{\partial^2 f(x_k)}{\partial x_1 \partial x_n}\\\\ \dfrac{\partial^2 f(x_k)}{\partial x_2 \partial x_1} & \dfrac{\partial^2 f(x_k)}{\partial x_2^2} & \cdots & \dfrac{\partial^2 f(x_k)}{\partial x_2 \partial x_n}\\\\ \cdots & \cdots & \cdots & \cdots\\\\ \dfrac{\partial^2 f(x_k)}{\partial x_n \partial x_1} & \dfrac{\partial^2 f(x_k)}{\partial x_n \partial x_2} & \cdots & \dfrac{\partial^2 f(x_k)}{\partial x_n^2} \end{bmatrix}$

$f(x_k)$ 是标量,而且是个常数,零次项

接下来看一次项，注意 $x-x_k）$ 是个向量

$[\nabla f(x_k)]^T(x-x_k)$ ：是把梯度和 $x-x_k)$ 做内积

而二次项的内积，自然需要用hessian矩阵，是和 hessian 矩阵做内积

$x-x_k]^TH(x_k)[x-x_k]$ ，不就是前面二次型吗， $x^TAx\Rightarrow ax^2$

知道公式就行了，后面我们在推导梯度下降法,牛顿法，还有拟牛顿法的时候都会用到，到时候自然会加深理解

4. 矩阵和向量的求导公式

知道这些常用的即可，推导机器学习公式会用到

$\nabla w^T x = w$

证明如下：

$\begin{cases} w^T x = \displaystyle\sum_{i=1}^n w_i x_i\\\\ 不断对x_i依次求偏导，因为每个x_i都是一次的，求导为1，最终得到的就是w_i\\\\ 所以对x求偏导最终结果就是w \end{cases}$

$\dfrac{\partial AB}{\partial B} = A^T$ ：对两个相乘向量形式的其中一个向量求偏导（偏导对象非转置），为非偏导对象的转置
$\dfrac{\partial A^TB}{A}=B$ ：对两个相乘向量形式的其中一个向量求偏导，如果形式中偏导对象是转置形式给出的，结果是非偏导对象(不是转置)
$\dfrac{\partial X^T A X}{\partial X}=2AX$ ： $A$ 是对称矩阵时才成立，如果不是对称矩阵，可以看下面的推导

另外，假设有一个矩阵A， $A^TA$ 本身就是对称的，这是定理，一个矩阵乘以自己的转置，结果为一个对称矩阵

$\nabla x^TAx = (A+A^T)x$

二阶导就是再一次对 $x$ 求导

$\nabla^2x^TAx = A+A^T$

5. 奇异值(SVD)分解

分解就是对角化

$A=U\sum V^T$

前面的知识表明了一件事，对一个n阶方阵而言,可以进行分解（对角化，在特征值和特征向量介绍过）。但如果 A不是一个方阵，这种分解(对角化 $A=P\varLambda P^{-1}$ )将是无效的

奇异值分解比较神奇，可以应用于任意形状矩阵，如果 $A$ 是一个 $m * n$ 的矩阵,它一样可以分解成为三个矩阵的乘积 $U,V和\sum$

其中 $U 和 V$ 都是正交矩阵， $\sum$ 是对角矩阵，注意这里 $\sum$ 并不是一个方阵，而是 $m * n$ 的矩阵

$\begin{bmatrix} \lambda_1 & 0 & \cdots & 0 \\\\ 0 & \lambda_2 & \cdots & 0 \\\\ \vdots & \vdots & \ddots & \vdots \\\\ 0 & 0 & \cdots & \lambda_n \\\\ \end{bmatrix}$

SVD 也是对矩阵进行分解(对角化)，但是和特征分解不同，SVD 并不要求要分解的矩阵为方阵。

假设我们的矩阵 $A$ 是一个 $m \times n$ 的矩阵，那么我们定义矩阵 $A$ 的 $S V D$ 为: $A=U\sum V^T$

$U$ 是 $AA^T$ 的正交化特征向量所构成的矩阵，所以是 $m * m$ 的矩阵（对称的）

$V$ 是 $A^TA$ （注意 $A^T$ 的位置，和 $U$ 是反过来的）的正交化特征向量所构成的矩阵，是 $n * n$ 的矩阵

$\sum$ 是一个 $m * n$ 的矩阵，除了主对角线上的元素以外全为 0，主对角线上的每个元素都称为奇异值

$U$ 是一个 $m * m$ 的矩阵, $V$ 是一个 $n * n$ 的矩阵

$U 和 V$ 都是酉矩阵

满足 $U^TU = E$ , $V^TV = E$

下图可形象的看出上面关于SVD的定义

$\sum^T\sum = \sum^2$

6. 奇异值分解如何求解

那么我们如何求出 $S V D$ 分解后的 $U, \sum, V$ 这三个矩阵呢?

如果我们将 $A^{T}$ 和 $A$ 做矩阵乘法,那么会得到 $n \times n$ 的一个方阵。既然 $A^TA$ 是方阵，那么我们就可以进行特征分解，得到的特征值和特征向量满足:

$(A^TA)v_i = \lambda_i v_i$

这样我们就可以得到矩阵 $A^{T}A$ 的 $n$ 个特征值和对应的 $n$ 个特征向量 $v$ 了

将 $A^TA$ 的所有特征向量张成一个 $n * n$ 的矩阵 $V$ ,就是我们 $S V D$ 公式里面的 $V$ 矩阵了。一般我们将 $V$ 中的每个特征向量叫做 $A$ 的右奇异向量

如果我们将 $AA^T$ 做矩阵乘法 ,那么会得到 $m * m$ 的一个方阵 $AA^T$ ，既然 $AA^T$ 是方阵，那么我们就可以进行特征分解，得到的特征值和特征向量满足:

$(AA^T)u_i = \lambda_i u_i$

这样我们就可以得到矩阵 $AA^T$ 的 $m$ 个特征值和对应的 $m$ 个特征向量 $u$ 了

将 $AA^T$ 的所有特征向量张成一个 $m * m$ 的矩阵 $U$ ,就是我们 $S V D$ 公式里面的 $U$ 矩阵了。一般我们将 $U$ 中的每个特征向量叫做 $A$ 的左奇异向量。

$U$ 和 $V$ 都求出来了，现在就剩下奇异值矩阵 $\sum$ 没有求出了。

由于 $\sum$ 除了对角线上是奇异值其他位置都是0，那我们只需要求出每个奇异值 $\sigma$ 就可以了。我们注意到:

$A=U\sum V^T$

$AV=U\sum V^TV$

$U\sum$ ：前面说过 $U 和 V$ 都是酉矩阵，满足 $U^TU = E$ , $V^TV = E$

$Av_i=\sigma_i u_i$ ： $u_i是U矩阵第i列$ ， $\sigma_i和v_i同理$ ，方便我们求出 $\sigma_i$

$\sigma_i = \dfrac{Av_i}{u_i}$

这样我们可以求出我们的每个奇异值，进而求出奇异值矩阵 $Σ$ 。

还有一个问题,我们说 $A^TA$ 的特征向量组成的就是我们 $S V D$ 中的 $V$ 矩阵，而 $AA^T$ 的特征向量组成的就是我们 $S V D$ 中的 $U$ 矩阵,这有什么根据吗?

以矩阵 $V$ 为例，由上一节已知 $U^TU = E$ ， $\sum^T\sum = \sum^2$

$\begin{cases} A=U\sum V^T\\\\ A^T = V\sum^T U^T\\\\ A^TA=V\sum^TU^TU\sum V^T=V\sum^2V^T \end{cases}$

可以看出 $A^TA$ 的特征向量组成的就是 $S V D$ 的 $V$ 矩阵。而同样的证明步骤可以推出 $AA^T$ 的特征向量组成的就是我们 $S V D$ 中的 $U$ 矩阵

进一步我们还可以看出我们的特征值矩阵等于奇异值矩阵的平方,也就是说特征值和奇异值满足如下关系:

$\sigma_i = \sqrt{\lambda_i}$

这样也就是说,我们可以不用 $\sigma_i = \dfrac{Av_i}{u_i}$ 来计算奇异值,也可以通过求出 $A^TA$ 的特征值取平方根来求奇异值。

7. 奇异值分解性质

费这么大的力气做SVD 有什么好处， SVD 有什么重要的性质值得我们注意呢?

对于奇异值,它跟我们特征分解中的特征值类似，在奇异值矩阵中也是按照从大到小排列，而且奇异值的减少特别的快,在很多情况下,前 10%甚至 1%的奇异值的和就占了全部的奇异值之和的 99%以上的比例

也就是说，我们也可以用最大的k个的奇异值和对应的左右奇异向量来近似描述矩阵。

$A_{m*n} = U_{m*m}\sum_{m*n} V^T_{n*n}$ $≈U_{m*k}\sum_{k*k}V^T_{k*n}$

其中k要比n小很多,也就是一个大的矩阵 $A$ 可以用三个小的矩阵

$U_{m*k}\sum_{k*k}V^T_{k*n}$ 来表示

如下图所示，现在我们的矩阵 $A$ 只需要 $3$ 个小矩阵就可以近似描述了

$U$ 的每一列都是标准正交的(orthonormal)， $V^T$ 每一行都是标准正交的。 $Σ$ 是呈对角线的(diagonal)，只有对角线有值，而且一定都是非负的

意味着对角线一定有值，但是也有可能值是0,而且神奇的地方,如果左上角有值 $σ 1$ ,第二个左上角值是 $σ 2$ ，那么 $σ 1$ 一定大于等于 $σ 2$ ,并且 $σ 2$ 大于等于 $σ 3$ ,以此类推

$\sigma_1 ≥ \sigma_2 ≥ \cdots ≥ \sigma_k > 0$

所以 $\sum$ 中有 $k 个非 0$ 的值，依次从左上角往右下角方向排列，我们可以把 $\sum$ 中等于 $0$ 的行列去掉就保留 $k * k$ 个值,那么U和V中也分别只保留 $k$ 列和 $k$ 行，我们会发现一样乘回来可以得到 $A$ 仍然不变。

但是如果我们保留的 $小于 k 个$ ,那么乘回去的矩阵就 $不等于原来的 A 了$ 。如果 $去掉的是第 k 个$ ，那么乘回来的矩阵就是 $A +$ ，是 $最接近 A 的矩阵$

还比如可以求解对称矩阵的逆矩阵,可以用于降维算法中的特征分解还可以用于推荐系统，以及自然语言里面的主题分析里面，会用到这个算法的

SVD可用于数据压缩

奇异值分解在数值计算是非常有用的，首先可以做矩阵的压缩

import numpy as np
arr = np.array([[0, 0, 0, 2, 2], 
				[0, 0, 0, 3, 3], 
				[0, 0, 0, 1, 1], 
				[1, 1, 1, 0, 0], 
				[2, 2, 2, 0, 0], 
				[5, 5, 5, 0, 0],
				[1, 1, 1, 0, 0]])
# 1. 分解
u, sigma, v = np.linalg.svd(arr)
# 2. 重构
new_arr = np.mat(u[:, 0:2]) * np.mat(np.diag(sigma[0:2])) * np.mat(v[0:2, :])

SVD 可用于 PCA 降维（python的Scikit-learn库中的PCA就是用SVD实现）

在中心化后由于特征的均值变为0,所以数据的协方差矩阵 $C$ 可以用 $E(XX^T)或\dfrac{1}{m}XX^T$ 来表示， $X^T$ 为矩阵的转置。这里 $X$ 每一行为一个特征。当然也可以表示为 $E(X^TX)$ 或者 $\dfrac{1}{m}X^TX$ ,这时每一行为一个样本。

SVD 分解得到的三个矩阵分别称为:左奇异向量，奇异值矩阵，右奇异向量。

左奇异向量用于压缩行，右奇异向量压缩列

压缩方法均是取奇异值较大的左奇异向量或者右奇异向量与原数据 $C$ 相乘。

SVD可用于协调过滤（推荐算法中的内容）

可以直接计算 jim 与其余三个用户的相似度,然后选最相似的样本来为 Jim 的两个空位打分。但是这样，如果一旦样本、特征过多,计算量就猛增。

而事实上，我们不一定需要那么多特征，因此可以使用 $S V D$ 分解把样本映射到低维空间。(事实上，容易能从数据中看出来映射 2维空间，左边三个和右边两个明显不一样，左边三个是日料，右边两个偏欧美的饮食风格)

food = np.mat([[2, 0, 0, 4, 4], [5, 5, 5, 3, 3], [2, 4, 2, 1, 2], [1, 1, 1, 5, 4]])
u, sigma, v = np.linalg.svd(food)
simple_food = np.mat(u[:, 0:2]) * np.mat(np.diag(sigma[0:2])) * np.mat(v[0:2, :])

8. SVD 用于矩阵求逆

在矩阵求逆过程中，矩阵通过 SVD 转换到正交空间，不同得奇异值和奇异值向量代表了系统矩阵中不同的线性无关(或独立)项。

对矩阵进行 SVD 分解，形式如下所示:

$[H]_{n*v}=[U]_{n*n} [\sum]_{n*v} [V]_{v*v}^T=\displaystyle\sum_{i=1}^n\{U_i\}_n \sigma_i\{V_i\}_{v}^T$

奇异值矩阵为： $[\sum] = \begin{bmatrix} \sigma_1 & 0 & \cdots & \cdots \\\\ 0 & \sigma_2 & \cdots & \cdots \\\\ 0 & \cdots & \cdots & \cdots \\\\ 0 & \cdots & \cdots & \sigma_n \end{bmatrix}$

当用 SVD 方法进行求逆时,会使得求逆运算变得非常简单,这是因为通过 SVD 求逆,只需要对奇异值求倒数即可

而对于一个正交阵 $B$ ,有 $B^{-1}=B^T$ 这个性质。因此，其求逆形式为:

上面特性中我们讲过 $U$ 的每一列都是标准正交的(orthonormal)， $V^T$ 每一行都是标准正交的。 $Σ$ 是呈对角线的(diagonal)，只有对角线有值，而且一定都是非负的

$\begin{cases} [H^{-1}]_{n*v} = ([V]_{v*v}^T)^{-1}([\sum]_{n*v})^{-1}(U_{n*n})^{-1}\\\\ =[V]_{v*v}[\sum^{-1}]_{v*n}[U]^{T}_{n*n}\\\\ =\sum_{i=1}^n {V_i}_v \sigma_i^{-1} {U_i}_n^{T} \end{cases}$

$[\sum^{-1}]_{v*n} = \begin{bmatrix} \sigma_1^{-1} & 0 & \cdots & \cdots \\\\ 0 & \sigma_2^{-1} & \cdots & \cdots \\\\ 0 & \cdots & \cdots & \cdots \\\\ 0 & \cdots & \cdots & \sigma_n^{-1} \end{bmatrix}$

可以看出，SVD 求逆是原始奇异值的倒数，这就使得通过 $S V D$ 对矩阵求逆变得非常简单