西瓜书 8.4/ 8.5
结合策略
假定 集成包涵T个基学习器 : h1 …hT
hi 在 x 上的输出 为 hi(x)
常见的结合策略:
简单平均法 :
加权平均法:
wi 是个体学习器的hi 的权重,且满足:
说明 :
加权平均法 的权重一般是从 训练数据中学习而得,现实任务中的训练样本通常不充分或存在噪声,这将使得学习出的权重不完全可靠,尤其是对规模比较大的集成来说,要学习的权重较多,容易过拟合。
加权平均法未必一定优于简单平均法,在个体学习器性能相差较大时使用加权平均法,在个体学习器性能相近时使用简单平均法。
投票法
绝对多数投票法
即若某标记 得票数过半,则预测为该标记,否则拒绝预测。
相对多数投票法
即预测为得票最多的标记,若同时有多个标记获得最高票,则从中随机选取一个。
加权投票法
注意:
不同的学习器输出的数据类型有:
1 类标记(非1 即0 硬投票)
2 类概率 (软投票)
不同类型的值,相互转化 ,然后 使用Platt缩放 ,等分回归,等进行校准后才能使用。
学习法
通过另一个学习器来进行结合,把个体学习器称为初级学习器,用于结合的学习器为次级学习器或元学习器。
代表 为 Stacking
1 先从初始数据集训练出初级学习器,
2 然后生成一个新数据集用于训练次级学习器
3 在这个新数据集中,初级学习器的输出被当作样例输入特征,而初始样本的标记仍被当作样例标记。
训练阶段 , 使用交叉验证或留一法这样的方式,使用训练初级学习器未使用的样本来产生次级学习器的训练样本,
8.5 :
多样性:
1 误差-分歧分解
与构建泛化能力强的集成,个体学习器应 好而不同,
这里的分歧项 表征了个体学习器在样本x上的不一致性,即在一定程度上反映了个体学习器的多样性。
个体学习器的准确性越高,多样性越大,则集成越好,称为误差---分歧分解。
2 多样性度量
是用于度量集成中个体分类器的多样性,即估算个体学习去器的多样化程度,典型的做法是考虑个体分类器的两两相似 / 不相似性
常见的多样性度量:
不合度量
相关系数
Q--统计量
k--统计量
3 多样性增强:
常见的做法:
数据样本扰动
输入属性扰动
输出表示扰动
算法参数扰动
集成学习技术的实际计算开销并不比使用单一的学习器大很多。
集成包括多个学习器,即便个体学习器有较好的可解释性,集成仍是黑箱模型,已有一些工作试图改善集成的可解释性,例如 将集成转化成为单模型,从集成中抽取符号规则等,这方面的研究衍生出了能产生性能超越集成的单学习器的 二次学习技术。
-
stacking 原理流程
-
常见的多样性度量和多样性增强 的具体操作步骤