一、集成学习概念
在统计学和机器学习中,集成学习(Ensemble learning)方法通过组合多种学习算法来获得比单独使用任何一种算法更好的预测性能(维基百科)。集成学习结合了多个学习器(或基学习器)的预测结果,以提高整体模型的性能,尤其是在模型的泛化能力上。集成学习的核心思想是“集思广益”,即通过组合多个模型来减少单一模型可能存在的偏差和方差,从而提高预测的准确性和稳定性。集成学习可以应用于各种机器学习任务,包括分类、回归、聚类等。
二、集成学习类别
1、Bagging
Bagging(Bootstrap Aggregating)通过从原始数据集中创建多个不同的训练集来训练多个基学习器,然后将这些学习器的预测结果结合起来,以提高整体模型的性能(科技理解为投票机制)。Bagging的主要目的是减少模型的方差,从而提高泛化能力,随机森林就是典型的Bagging算法。Bagging的工作原理包括以下几个步骤:
(1)自助采样(Bootstrap Sampling):从原始数据集中有放回地随机抽取样本,生成多个新的训练集,每个训练集的大小与原始数据集相同,但样本可能会重复。
(2)训练基学习器:在每个新的