很久以前写的Xgboost有一些没写好，现在填坑_part1【xgboost是gbdt升级版】

本文链接：https://blog.csdn.net/github_38414650/article/details/109903170

无论是gbdt还是xgboost，以前我纠结拟合的是啥，后来才明白，优化才是核心。

拟合是外在，优化是核心

拟合是外在，优化是核心

GBDT也好，XGBOOST也好，目标就是寻找多棵树的预测结果，合起来比如简单求和、加权求和，与实际值尽量接近（损失函数最小）。

本质工作就是最小化损失函数，使得预测值与实际值尽量接近

1.以GBDT来看树的生成

拿起笔，拿一张纸，边写边画，门槛不高，易懂，还是会损失一些严谨性。

既然目标是找到多棵树（树是二叉树，多叉树可等价为一个多层的二叉树），合起来（比如求和）后，样本的预测值与实际值尽量接近，那么我们首先来解决一个问题：

1.1 叶子节点值如何确定：损失函数求最优

假设已经存在了 $t - 1$ 棵树，如何设计第 $t$ 棵树，使得经过第 $t$ 棵树后，整体样本的预测值与实际值尽量接近？

假设已经存在了 $t - 1$ 棵树（ $t = 1$ 时，就是GBDT/XgBoost的初始状态）， $m$ 个样本，每个样本的实际值也就是label为 $y^r_i$ ，其中 $i = 1, 2, 3 . . . m$ ；
每个样本第 $k$ 棵树的预测值（叶子节点值）为 $w^k_i$ ，其中 $k = 1, 2 . . . t - 1$ ， $i = 1, 2, 3 . . . m$ ；
每个样本前面 $t - 1$ 棵树的预测值之和 $y^{t-1}_i = \sum_{k=1}^{t-1}w_i^k$ ， $i = 1, 2, 3 . . . m$ ；
对于第 $t$ 棵树，先假设这棵树不分裂，只有一个根节点、也是叶子节点，那么这m个样本都分配到这个节点，那么m个样本在这颗树的预测值 $w^t_i$ 是相等的，即 ${w^t_1}={w^t_2}=...={w^t_m}$ ，那么，请问 $w^t_i$ 取值多少时能使得m个样本的 $y^{t}_i$ 与label值 $y^r_i$ 整体最接近？；
首先，如何衡量m个样本的 $y^{t}_i$ 与label值 $y^r_i$ 的整体接近程度呢，构建一个损失函数 $L=1/m*\sum_{i=1}^ml(y^{t}_i,y^r_i)$ ，当 $L$ 越小时，m个样本的 $y^{t}_i$ 与label值 $y^r_i$ 的整体越接近；
先做一个简单的，假设使用平方损失函数也就是 $L=1/m*\sum_{i=1}^m(y^{t}_i-y^r_i)^2$ ，代入3的公式得到 $L=1/m*\sum_{i=1}^m(y^{t-1}_i+w^t_i-y^r_i)^2$ ，对于构建 $t$ 棵树的时候，前面 $t - 1$ 棵树已经生成，所以 $y^{t-1}_i$ 可以看做常数， $y^r_i$ 本来也是固定的，所以可以假设这么一个常数 $c^{t-1}_i=y^r_i-y^{t-1}_i$ ， $L$ 可以变为 $L=1/m*\sum_{i=1}^m(y^{t-1}_i+w^t_i-y^r_i)^2=1/m*\sum_{i=1}^m(w^t_i-c^{t-1}_i)^2$ ；
进一步，利用4中 $w^t_i$ 都相等，设为 $x$ ，对于 $L$ 换个高中就熟悉的形式 $L=1/m*\sum_{i=1}^m(x-c^{t-1}_i)^2$ ，是不是很熟悉了， $L$ 是关于 $x$ 的二次函数，二次函数求最值，很简单吧；
恩，二次函数求极值会发现 $x=1/m*\sum_{i=1}^mc^{t-1}_i$ ，是不是就是 $m$ 个样本在 $t - 1$ 树后残差 $y^r_i-y^{t-1}_i$ 的平均值；
所以，在损失函数为平方损失的时候，会发现第 $t$ 棵树学习的恰好是前 $t - 1$ 棵树的残差，这是损失函数最小化时的表象。

1.2 一次分裂的分裂点选择：枚举选最优

前面考虑的是第 $t$ 棵树不分裂，只有一个根节点，现在要求第 $t$ 棵树分裂1次，使得经过第 $t$ 棵树后，整体样本的预测值与实际值尽量接近？

继续画一画， $m$ 个样本有 $j$ 个特征，每个特征分裂点个数为 $a_j$ ，那么枚举的话，可以生成 $\sum_{i=1}^ja_i$ 种二叉树；从中，随便拿一个二叉树 $Tree_s$ ；
按照该树选择的特征和分裂点，一部分样本分配到左节点 ${N}_{left}$ ，叶子节点取值为 $w_{s,left}$ ，另一部分样本分配到右节点 ${N}_{right}$ ，叶子节点取值为 $w_{s,right}$ ，这个时候 $w_{s,left}$ 和 $w_{s,right}$ 的取值不用再说了吧，为使得损失函数 $L_s$ 最小，继续上面的最优化求解，结果为这个叶子节点下样本残差的均值，此时的 $L_s$ 也是 $Tree_s$ 对应的最优值；
在 $\sum_{i=1}^ja_i$ 种二叉树中，哪一棵树的 $L_s$ 最小，就是这一轮分裂枚举的最优二叉树。

1.3 多次分裂的分裂点选择：复杂度计算+贪婪策略

进一步，前面考虑的是要求第 $t$ 棵树只分裂1次，使得经过第 $t$ 棵树后，整体样本的预测值与实际值尽量接近，那么现在要求分裂2次、3次、 $h$ 次、任意次呢，怎么做？

答案：大家都知道，用的贪婪策略，也就是先第一层遍历特征和分裂点，寻找最优的分裂点和叶子节点值；然后下一层也如此，一层一层下去。

现在我们来想想为什么选择这个策略：

先看看决策树生成的复杂度，第一层根节点最优分裂，对于 $m$ 个样本，有 $j$ 维特征，每个特征可分裂点数为 $a_j$ ，必然存在 $a_j\leq m$ ，那么第一层枚举特征、分裂点的种类数为 $s_1=(\sum_{i=1}^ja_i)\leq j*m$ ，也就是说，枚举特征、特征分割点，需要遍历 $s_1$ 次，取 $L_s$ 最小的作为这一轮分裂选择；如果计算一次 $L_s$ 的时间成本为 $T_{cons}$ ，那么这一层枚举寻优时间消耗为 $s_1*T_{cons}\leq j*m*T_{cons}$ ；
第1层根节点分裂后，第2层左节点样本数为 $m_{2,l}$ ，右节点样本数为 $m_{2,r}$ ，满足 $m_{2,l}+m_{2,r}=m$ ，第2层左节点寻找最优分裂，枚举次数为 $s_{2,l}\leq j*m_{2,l}$ ，同样，右侧节点寻找最有分裂，枚举次数为 $s_{2,r}\leq j*m_{2,r}$ ，整体的枚举次数 $s_2=s_{2,l}+s_{2,r}\leq j*m_{2,l}+j*m_{2,r}=j*m$ ；这一层枚举寻优时间消耗为 $s_2*T_{cons}\leq j*m*T_{cons}$
你会发现，每一次层枚举次数的上边界值为 $j * m$ ，当然这只是边界值，实际的情况应该是 $j * 10$ 或者 $j * 100$ 这种，就是把特征按照分位点或者什么规则分成10个区间、100个区间等，就不细究了。这里重点就是，每一层的枚举花费时间都是一个级别，都是 $j*m*T_{cons}$ 这个级别
关键点来了：对于深度为D层的树，你要找到数的最优结构，枚举次数是 $j*m)^D$ ，到这里，你发现了，枚举最优树结构的复杂度是指数级别，因此选择贪婪策略是妥协选择。
贪婪做法：先遍历第1层选最优，再到第2层选最优…然后到D层，复杂度变为 $(j * m) * D$ ，哦豁，相对来说是线性级别。当然，贪婪的结果就是得到的结果是局部最优，不一定是全局最优。
这就是实际情况，并不一定需要全局最优，局部最优也够解决问题了

2.再看Xgboost损失函数

2.1 损失函数一般化，后面寻优策略本质未变

损失函数一般化，二阶近似，加上考虑模型复杂度的正则项。

一步步来，我们先搬出来上面的旧损失函数：

$L=\sum_{i=1}^ml(y^{t}_i,y^r_i)$

当时 $l(y^{t}_i,y^r_i)$ 假设为平方损失，后面就是一个一般的函数。

同样，与咱们上面的「1.1 叶子节点值如何确定」一样，仍然先考虑第 $t$ 棵树不分裂节点，样本都在这个节点下，预测值 $w_i^t$ 都相等，原来的损失函数改一下到xgboost论文里的函数：

$L=\sum_{i=1}^ml(y^{t}_i,y^r_i)+\gamma *T +\frac{1}{2}* (w_i^t)^2$

后面的2项我在以前的博客说过啦：
在这里插入图片描述
我们重点来聊聊 $l(y^{t}_i,y^r_i)$ ，按照上文可以写成：

$l(y^{t}_i,y^r_i)=l(y^{t-1}_i+w^t_i,y^r_i)$

我先假设一下，大家的数学水平在多年社会毒打后，停留在高中、大一这个层次，印象中留下的只有导数这么点感觉，我们把上面的形式换一个熟悉一点的情况：

$l(y^{t}_i,y^r_i)=l(y^{t-1}_i+w^t_i,y^r_i)\rightarrow l(x_0+\Delta x,c)$

然后，设计到泰勒展开式，这个呢，你可以百度一下，意思就是在 $x=x_0$ 处用一个多项式 $f_{multi}(x_0)$ 来近似表示原函数，要求这个新的多项式函数在 $x=x_0$ 处的函数值、1阶导、各级导数都与原函数相等：

$l(x_0+\Delta x,c) \approx l(x_0,c)+\frac{\partial l(x,c)}{\partial x}_{x=x_0}*\Delta x+\frac{1}{2}*\frac{\partial l^2(x,c)}{\partial x^2}_{x=x_0}*\Delta x^2$

写到这里，把 $x_0$ 换回去 $y^{t-1}_i$ ， $\Delta x$ 换回去 $w^t_i$ ，然后细品一下，细细品：

$l(y^{t-1}_i+w^t_i,y^r_i) \approx \frac{1}{2}a_i*(w^t_i)^2+b_i*(w^t_i)+c_i$

其中 $a_i=\frac{\partial l^2(x,c)}{\partial x^2}_{x=x_0}$ ， $b_i=\frac{\partial l(x,c)}{\partial x}_{x=x_0}$ ， $c_i=l(x_0,c)$

（这里采用的符号、变量名很业余，很不严谨，只是方便回忆起高中数学、大学数学的感觉，好理解，理解是目的，形式咱先忍一忍…）

到这里，是不是发现损失函数也是一个二次函数，继续重新走上面的路「1.以GBDT来看树的生成：1.1叶子节点值如何确定；1.2一次分裂的分裂点选择；1.3 多次分裂的分裂点选择」，是不是又是二次函数求最值、枚举取最优，完事儿？

ps:还记得平方损失时，叶子节点数值 $w_i^t$ 是节点样本的均值，那么看看上面新的损失函数二次近似以后叶子节点值是多少：

以节点不分离为例，此时 $T = 1$ ，

$L=\sum_{i=1}^m(\frac{1}{2}a_i*(w^t_i)^2+b_i*(w^t_i)+c_i)+\gamma +\frac{1}{2}* (w_i^t)^2$

二次函数求最值，不多说，还是如此的简单：

${w_i^t}^*=-\frac{\sum_1^mb_i}{\gamma+\sum_1^ma_i}$

虽说后面的部分有工程上的细节优化，但是不改贪婪+枚举寻优的本质？

2.2 看下正则和二阶近似

1.正则提高泛化能力

实话说，原理上我也没仔细研究过，暂时贴一下人家的回答，我有空回头研究，https://www.zhihu.com/question/20700829：

在这里插入图片描述 看见没，人家这叫专业！

2.为啥是二阶近似，而不是一阶，为了快？

这个话题太专业了，看看人家的回答吧。

借用https://www.jiqizhixin.com/articles/2020-02-27-5的说法：

（1）直观感觉上
假设如果我们希望找到 $L$ 的「谷底」：
采用一阶梯度，也就是坡度的陡和缓来确定步子要迈多大；
而坡度本身也是有变化的，即逐渐变陡或变缓；
之前我们可以慢慢多走几步，就能根据坡度的变化直接调整；
如果能用二阶梯度，相当于梯度的梯度，那么也就知道坡度变化的趋势，因此一步就能走的更精准。
在这里插入图片描述
（2）二阶优化，就是单次计迭代计算量增加了，但是每一步走得更精准，因而迭代步数更少，这是二阶梯度算法 Shampoo 表现
（3）举一个不恰当，但是很直观的例子，拿二次函数寻最优来看，按一阶优化，要走几步才能到最低点，每一步计算下一阶导数就行；按二阶优化牛顿法，一步到位，但是要计算一阶导数和二阶导数，牛顿法我就不写公式了，看下这里https://blog.csdn.net/Im_Chenxi/article/details/80546742。