笔记（六）机器学习（周志华）第6章支持向量机SVM_考虑一个两维特征空间中的二分类问题。训练集包含8个样本,其在二维空间中的分布如-CSDN博客

本文链接：https://blog.csdn.net/lzbmc/article/details/102716844

第6章支持向量机

1. 间隔与支持向量
2. 对偶问题
3. 核函数
4. 软间隔与正则化
5. 支持向量回归(SVR)
6. 核方法

1. 间隔与支持向量

训练样本集 $D=\{(x_1,y_1),(x_2,y_2),...(x_m,y_m)\}，y_i\in\{-1,+1\}$
分类学习的最基本想法就是基于训练集D在样本空间中找到一个划分超平面，将不同类别的样本分开。
在这里插入图片描述
能将训练样本划分开的平面可能有很多个，应该选择位于两类训练样本“正中间”的划分超平面，因为这个超平面的所产生的分类结果是最鲁棒的，泛化能力最强。
分离超平面对应于方程：
$w^Tx+b=0$
其中 $w=(w_1;w_2;...w_d)$ 为法向量，指向正类，决定了超平面的方向；b为位移项（截距），决定了超平面与原点的距离。可用(w,b)表示。
样本空间中任意一点到超平面(w,b)的距离可写为：
$r=\frac{|w^Tx+b|}{||w||}$
复习：点 $p(x_0,y_0)$ 到直线 $a x + b y + c = 0$ 的距离： $d=\frac{|ax_0+by_0+c|}{\sqrt{a^2+b^2}}$
假设超平面(w,b)能将训练样本正确分类，则有：
$\begin{cases} w^Tx_i+b>0, y_i=+1;\\ w^Tx_i+b<0, y_i=-1 \end{cases} \tag{6.1}$
距离超平面最近的几个训练样本，被称为“支持向量”。
假设支持向量到超平面的距离为r（其他样本点肯定大于r），所以有：
$\frac{|w^Tx+b|}{||w||}\ge{r}$
根据(6.1)对正负两类去绝对值得：
$\left\{\begin{aligned} \frac{w^Tx_i+b}{||w||}\ge{r},\quad y_i=+1;\\ \frac{w^Tx_i+b}{||w||}\leq{r},\quad y_i=-1 \end{aligned} \right.$
两边同时除以r得：
$\left\{\begin{aligned} w_r^Tx_i+b_r \ge{+1},\quad y_i=+1;\\ w_r^Tx_i+b_r \leq{-1},\quad y_i=-1 \end{aligned} \right.\\ 其中w_r=\frac{w}{||w||r},\quad b_r=\frac{b}{||w||r}$
线性缩放，例如2x+2y=0与x+y=0是同一条直线。
$w_r和b_r$ 仍是直线的法向量和截距，用w表示 $w_r$ ,b表示 $b r$
所以得到：
$\left\{\begin{aligned} w^Tx_i+b \ge{+1},\quad y_i=+1;\\ w^Tx_i+b \leq{-1},\quad y_i=-1 \end{aligned} \right. \tag{6.3}$
合并： $y_i(w^Tx+b) \ge 1$
支持向量使等号成立。即 $w^Tx+b|=1$

在这里插入图片描述
所以，间隔为两个异类支持向量到超平面的距离之和为：
$\gamma=2*\frac{|w^Tx+b|}{||w||} = \frac{2}{||w||} \tag{6.4}$

想要找到“最大间隔”的划分超平面，就是要找满足(6.3)中约束的参数w和b，使得 $\gamma$ 最大，即：
$\begin{aligned} &\max_{w,b} \;\frac{2}{||w||} \\ &s.t.\;\;y_i(w^Tx_i+b)\ge1, \;i=1,2,...,m. \tag{6.5} \end{aligned}$
最大化间隔就是使 $∣ ∣ w ∣ ∣$ 最小化，转换为求解凸二次规划问题，即最小化 $w||^2$ ，乘以 $\frac{1}{2}$ 为了求导方便，于是重写(6.5)式：
$\begin{aligned} &\min_{w,b} \; \frac{1}{2}||w||^2 \\ &s.t.\;\;y_i(w^Tx_i+b)\ge1, \;i=1,2,...,m. \tag{6.6} \end{aligned}$
这就是支持向量机（SVM）的基本型。

2. 对偶问题

2.1 对偶问题

我们希望求解(6.6)得到大间隔划分超平面所对应的模型
$f(x)=w^Tx+b \tag{6.7}$
其中w和b是模型参数,。（6.6）是一个凸二次规划问题，可以直接用现成的优化计算包求解，这里是使用拉格朗日乘子法得到其对偶问题。具体来说，

1、对(6.6)的每条约束添加拉格朗日乘子 $\alpha_i\ge0$ ，该问题的拉格朗日函数可写为：
$L(w,,b,\alpha) = \frac{1}{2}||w||^2 + \sum_{i=1}^m\alpha_i(1-y_i(w^Tx_i+b)) \tag{6.8}$
其中 $\alpha=(\alpha_1;\alpha_2;...;\alpha_m)$ 。
2、令 $L(w,b,\alpha)$ 对w和b的偏导为0，得：