集合策略 与 学习器的多样性

本文探讨了集成学习中的集合策略,如简单平均法和加权平均法,并指出加权平均法的权重学习可能因训练数据限制导致过拟合。投票法作为另一种策略在不同性能学习器中发挥作用。此外,介绍了通过学习法和二次学习技术提高集成模型的可解释性和性能,特别是stacking的原理。最后,提到了多样性度量和如何增强集成的多样性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

西瓜书 8.4/ 8.5
结合策略
假定 集成包涵T个基学习器 : h1 …hT
hi 在 x 上的输出 为 hi(x)
常见的结合策略:

简单平均法 :
在这里插入图片描述

加权平均法:
在这里插入图片描述
wi 是个体学习器的hi 的权重,且满足:
在这里插入图片描述
说明 :
加权平均法 的权重一般是从 训练数据中学习而得,现实任务中的训练样本通常不充分或存在噪声,这将使得学习出的权重不完全可靠,尤其是对规模比较大的集成来说,要学习的权重较多,容易过拟合。
加权平均法未必一定优于简单平均法,在个体学习器性能相差较大时使用加权平均法,在个体学习器性能相近时使用简单平均法。

投票法

      绝对多数投票法
                     即若某标记 得票数过半,则预测为该标记,否则拒绝预测。
      相对多数投票法
                  即预测为得票最多的标记,若同时有多个标记获得最高票,则从中随机选取一个。
      加权投票法
            
 注意: 
       不同的学习器输出的数据类型有:
              1  类标记(非1 即0  硬投票)
              2   类概率 (软投票)
              不同类型的值,相互转化 ,然后 使用Platt缩放 ,等分回归,等进行校准后才能使用。

学习法

  通过另一个学习器来进行结合,把个体学习器称为初级学习器,用于结合的学习器为次级学习器或元学习器。
   代表 为 Stacking
          1   先从初始数据集训练出初级学习器,
          2   然后生成一个新数据集用于训练次级学习器
          3   在这个新数据集中,初级学习器的输出被当作样例输入特征,而初始样本的标记仍被当作样例标记。
          训练阶段 , 使用交叉验证或留一法这样的方式,使用训练初级学习器未使用的样本来产生次级学习器的训练样本,

8.5 :

多样性:
    1  误差-分歧分解
               与构建泛化能力强的集成,个体学习器应 好而不同,
               这里的分歧项 表征了个体学习器在样本x上的不一致性,即在一定程度上反映了个体学习器的多样性。
               个体学习器的准确性越高,多样性越大,则集成越好,称为误差---分歧分解。
    
    2  多样性度量
            是用于度量集成中个体分类器的多样性,即估算个体学习去器的多样化程度,典型的做法是考虑个体分类器的两两相似 / 不相似性
            常见的多样性度量:
                不合度量
                相关系数
                Q--统计量
                k--统计量 
    3   多样性增强:
                常见的做法:
                       数据样本扰动
                       输入属性扰动
                       输出表示扰动
                       算法参数扰动

集成学习技术的实际计算开销并不比使用单一的学习器大很多。
集成包括多个学习器,即便个体学习器有较好的可解释性,集成仍是黑箱模型,已有一些工作试图改善集成的可解释性,例如 将集成转化成为单模型,从集成中抽取符号规则等,这方面的研究衍生出了能产生性能超越集成的单学习器的 二次学习技术。

  • stacking 原理流程

  • 常见的多样性度量和多样性增强 的具体操作步骤

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值