集合策略与学习器的多样性

最新推荐文章于 2024-10-12 01:33:26 发布

qq_28487595

最新推荐文章于 2024-10-12 01:33:26 发布

阅读量583

点赞数

本文链接：https://blog.csdn.net/qq_28487595/article/details/88658521

版权

本文探讨了集成学习中的集合策略，如简单平均法和加权平均法，并指出加权平均法的权重学习可能因训练数据限制导致过拟合。投票法作为另一种策略在不同性能学习器中发挥作用。此外，介绍了通过学习法和二次学习技术提高集成模型的可解释性和性能，特别是stacking的原理。最后，提到了多样性度量和如何增强集成的多样性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

西瓜书 8.4/ 8.5
结合策略
假定集成包涵T个基学习器： h1 …hT
hi 在 x 上的输出为 hi(x)
常见的结合策略：

简单平均法：
在这里插入图片描述

加权平均法：
在这里插入图片描述
wi 是个体学习器的hi 的权重，且满足：

说明：
加权平均法的权重一般是从训练数据中学习而得，现实任务中的训练样本通常不充分或存在噪声，这将使得学习出的权重不完全可靠，尤其是对规模比较大的集成来说，要学习的权重较多，容易过拟合。
加权平均法未必一定优于简单平均法，在个体学习器性能相差较大时使用加权平均法，在个体学习器性能相近时使用简单平均法。

投票法

      绝对多数投票法
                     即若某标记 得票数过半，则预测为该标记，否则拒绝预测。
      相对多数投票法
                  即预测为得票最多的标记，若同时有多个标记获得最高票，则从中随机选取一个。
      加权投票法
            
 注意： 
       不同的学习器输出的数据类型有：
              1  类标记（非1 即0  硬投票）
              2   类概率 （软投票）
              不同类型的值，相互转化 ，然后 使用Platt缩放 ，等分回归，等进行校准后才能使用。

学习法

  通过另一个学习器来进行结合，把个体学习器称为初级学习器，用于结合的学习器为次级学习器或元学习器。
   代表 为 Stacking
          1   先从初始数据集训练出初级学习器，
          2   然后生成一个新数据集用于训练次级学习器
          3   在这个新数据集中，初级学习器的输出被当作样例输入特征，而初始样本的标记仍被当作样例标记。
          训练阶段 ， 使用交叉验证或留一法这样的方式，使用训练初级学习器未使用的样本来产生次级学习器的训练样本，

8.5 ：

多样性：
    1  误差-分歧分解
               与构建泛化能力强的集成，个体学习器应 好而不同，
               这里的分歧项 表征了个体学习器在样本x上的不一致性，即在一定程度上反映了个体学习器的多样性。
               个体学习器的准确性越高，多样性越大，则集成越好，称为误差---分歧分解。
    
    2  多样性度量
            是用于度量集成中个体分类器的多样性，即估算个体学习去器的多样化程度，典型的做法是考虑个体分类器的两两相似 / 不相似性
            常见的多样性度量：
                不合度量
                相关系数
                Q--统计量
                k--统计量 
    3   多样性增强：
                常见的做法：
                       数据样本扰动
                       输入属性扰动
                       输出表示扰动
                       算法参数扰动

集成学习技术的实际计算开销并不比使用单一的学习器大很多。
集成包括多个学习器，即便个体学习器有较好的可解释性，集成仍是黑箱模型，已有一些工作试图改善集成的可解释性，例如将集成转化成为单模型，从集成中抽取符号规则等，这方面的研究衍生出了能产生性能超越集成的单学习器的二次学习技术。