PCA主成分分析

最新推荐文章于 2020-11-27 13:26:21 发布

code__online

最新推荐文章于 2020-11-27 13:26:21 发布

阅读量611

点赞数

分类专栏：机器学习文章标签： PCA 降维

本文链接：https://blog.csdn.net/code__online/article/details/90733872

版权

机器学习专栏收录该内容

20 篇文章

订阅专栏

本文深入讲解了主成分分析（PCA）这一降维方法的基本原理，包括协方差与散度矩阵的概念，PCA的两种推导方法：最近重构性和最大可分性，并详细介绍了PCA算法的步骤，以及核化线性降维的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 背景

在研究多变量的数据时，变量太多不仅导致数据的复杂性，而且不同的变量之间可能存在一定的相关关系，即两个变量之间的信息有一定的重叠，这无疑为分析问题增加了难度。为了提取数据中的主要信息成分，提出了一个新的降维方法PCA。主成分分析（Principal Component Analysis，简称PCA）是最常用的一种降维方法。它是将原先提出的所有变量中关系紧密的变量删除，建立尽可能少的新变量，使得这些新变量两两不相关，而且这些新变量尽可能的包含原有的信息。

2. 基础知识

协方差与散度矩阵

样本均值 $\bar x=\frac{1}{n}\sum_{i=1}^Nx_i$ 样本方差 $S^2=\frac{1}{n-1}\sum_{i=1}^N(x_i-\bar x)^2$ 样本X和样本Y的协方差 $\begin {aligned}cov(X,Y)&=E[(X-E(X))(Y-E(Y))] \\ & = \frac{1}{n-1}\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)\end {aligned}$ 假如样本X和Y的维度为2维。那么它们之间的协方差为： $cov(X,Y)=\begin{bmatrix} cov(x,x)& cov(x,y) \\ cov(y,x) & cov(y,y) \end{bmatrix}$ 如果协方差为正，说明X和Y是正相关关系；协方差为负，说明X和Y是负相关关系；协方差为0，说明X与Y不相关。

散度矩阵 $S=\sum_{i=1}^n(\boldsymbol {x_i}-\boldsymbol{m})(\boldsymbol{x_i}-\boldsymbol{m})^T$ $\boldsymbol{m}=\frac{1}{n}\sum_{i=1}^n\boldsymbol{x_i}$ 数据X的散度矩阵为 $XX^T$ 。散度矩阵等于协方差矩阵乘以（总数据量-1）。因此，它们的特征值与特征向量是相同的。

3. PCA

假设数据集中有m个数据{ $x_1,x_2,...,x_m$ }，每一个数据是d维数据。目标是在尽可能保证原有数据的信息条件下，将数据的维度从 $d$ 维降到 $d^{'}$ 维。虽然对数据降维会导致原有数据信息的损失，但是希望是使得损失尽可能的小。那么，如何将 $d$ 维数据降到 $d^{'}$ 维度呢？

举一个例子，如下图是将二维数据降到一维。希望是找到一个维度方向，可以代表这两个维度的数据。图中，有两个维度方向， $u_1$ 和 $u_2$ 。那么，哪一个向量可以更好的代表原有数据呢？
在这里插入图片描述
直观来讲， $u_1$ 比 $u_2$ 更适合作为一维方向。原因可从以下两个方面来解释：

最近重构性：样本点到这个直线的距离都足够近；
最大可分性：样本点在这个直线上的投影尽可能分开；

3.1 PCA的推导方法：最近重构性

假设m个d维数据{ $x_1,x_2,...,x_m$ }，首先进行数据中心化，即 $\sum_{i=1}^mx_i=0$ ，坐标系为{ $w_1,w_2,...,w_d$ }，其中w是标准正交基，即满足 $w||_2=1,w_i^Tw_j=0$ 。如果将数据从 $d$ 维降到 $d^{'}$ 维，那么在新坐标系中的投影为 $z_i=(z_{i1},z_{i2},...,z_{id^{'}})$ ，其中 $z_{ij}=\mathbf w_j^Tx_i$ 是 $x_i$ 在低维坐标系下第j维的坐标。如果用 $z_i$ 来重构数据 $x_i$ ，那么恢复数据为 $\hat {x}_i=\sum_{j=1}^{d^{'}}z_{ij}\mathbf w_j=Wz_i$ ，其中W为标准正交基组成的矩阵。
考虑到整个数据集，希望所有样本到这个超平面的距离尽可能的小，即 $\begin {aligned}\sum_{i=1}^m\left \| \sum_{j=1}^{d^{'}}z_{ij}w_j-x_i \right \|_2^2 &=\sum_{i=1}^m||Wz_i-x_i||^2_2 \\ &=\sum_{i=1}^mz_i^TW^TWz_i-2\sum_{i=1}^m(Wz_i)^Tx_i + \sum_{i=1}^mx_i^Tx_i \\ &=\sum_{i=1}z_i^Tz_i-2\sum_{i=1}^mz_i^Tz_i+\sum_{i=1}^mx_i^Tx_i \\ &=-\sum_{i=1}^mz_i^Tz_i+\sum_{i=1}^mx_i^Tx_i \\ &=-tr(Z^TZ)+\sum_{i=1}^mx_i^Tx_i \\ &=-tr(W^TXX^TW)+\sum_{i=1}^mx_i^Tx_i\end {aligned}$ 其中，用到的公式有 $AB)^T=B^TA^T,W^TW=I,z_i=W^Tx_i$ 。由于 $\sum_{i=1}^mx_i^Tx_i$ 是数据集的协方差矩阵，为常数。W的每一个向量 $\mathbf w_j$ 是标准正交基，因此上式可转化为： $arg\min_{W} \quad -tr(W^TXX^TW) \quad s.t. \quad W^TW=I$ 通过拉格朗日函数推导得到： $J(W)=-tr(W^TXX^TW+\lambda(W^TW-I))$ 对W求导得到： $XX^TW=\lambda W$ 此时可以看出，W为 $X^TX$ 的 $d^{'}$ 个特征向量组成的矩阵， $\lambda$ 为 $X^TX$ 矩阵的特征值组成的矩阵，特征值在主对角线上，非对角线上的元素为0。当数据集从 $d$ 维降到 $d^{'}$ 时，只需按照特征值的由大到小顺序找到前 $d^{'}$ 个特征值及对应的特征向量，这些特征向量组成的矩阵就是我们要求得矩阵。再通过矩阵变换 $z_i=W^Tx_i$ 将原始数据映射到 $d^{'}$ 维空间中。

3.2 PCA的另一推导方法：最大可分性

从最大可分性出发，对于任意一个样本 $x_i$ ，在新空间超平面上的投影为 $W^Tx_i$ ，在新坐标系中的投影方差为 $W^Tx_ix_i^TW$ 。若所有样本的投影尽可能分开，则应该使得投影后的样本方差最大化。即最大化 $\sum_{i=1}^mW^Tx_ix_i^TW$ $arg\max_W \quad tr(W^TXX^TW) \quad s.t. \quad W^TW=I$ 和上一个方法相同，用拉格朗日函数得到： $J(W)=tr(W^TXX^TW+\lambda(W^TW-I))$ 对W求导得到： $XX^TW=-\lambda W$ 类似，W为 $X^TX$ 的 $d^{'}$ 个特征向量组成的矩阵， $\lambda$ 为 $X^TX$ 矩阵的特征值组成的矩阵，特征值在主对角线上，非对角线上的元素为0。当数据集从 $d$ 维降到 $d^{'}$ 时，只需按照特征值的由大到小顺序找到前 $d^{'}$ 个特征值及对应的特征向量，这些特征向量组成的矩阵就是我们要求得矩阵。再通过矩阵变换 $z_i=W^Tx_i$ 将原始数据映射到 $d^{'}$ 维空间中。

4. PCA算法

输入： $d$ 维样本集 $D=\left\{x_1,x_2,...,x_m\right\}$
输出：降维后的样本集 $D^{'}$

对所有样本进行中心化： $x_i=x_i-\frac{1}{m}\sum_{i=1}^mx_i$
计算样本的协方差矩阵 $XX^T$
对协方差矩阵 $XX^T$ 进行特征值分解
取最大的 $d^{'}$ 个特征值所对应的特征向量 $\left\{w_1,w_2,...,w_{d^{'}}\right\}$ ，对所有特征向量进行标准化后，组成特征向量矩阵W
对每一个样本 $x_i$ ，投影得到新的样本 $z_i=W^Tx_i$
得到输出样本集 $D^{'}=\left\{z_1,z_2,...,z_m\right\}$

对于降维后的维数 $d^{'}$ 可由用户事先指定，也可通过设置一个主成分比重阈值 $t\in (0,1]$ 。假设特征值为 $\lambda_1\ge \lambda_2\ge ...\ge \lambda_n$ 则选取使下式成立的最小 $d^{'}$ 值： $\frac{\sum_{i=1}^{d^{'}}\lambda_i}{\sum_{i=1}^d \lambda_i}\ge t$

5. 核化线性降维

如果数据是线性的，线性降维方法可将数据从高维空间映射到低维空间。然而，一般情况下，数据是非线性的，不能使用PCA线性降维。因此，可先将n维数据映射到更高维N的空间，然后再从N维空间降维到低维空间n’。
非线性降维是一种常用的方法，核函数的主成分分析称为核主成分分析KPCA。假设n维空间到高维空间的映射函数为 $\phi$ ，n维空间的特征分解为： $\sum_{i=1}^mx_ix_i^TW=\lambda W$ 高维空间的特征分解为： $\sum_{i=1}^m\phi(x_i)\phi(x_i)^TW=\sum_{i=1}^m\boldsymbol k(x_i,x_i)W=\lambda W$