通俗易懂的机器学习——集成学习

普通决策树与随机森林的对比

生成circles数据集

X,y = datasets.make_moons(n_samples=500,noise=0.3,random_state=42)
plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.show()

在这里插入图片描述

画图函数

def plot_decision_boundary(model, X, y):
    x0_min, x0_max = X[:,0].min()-1, X[:,0].max()+1
    x1_min, x1_max = X[:,1].min()-1, X[:,1].max()+1
    x0, x1 = np.meshgrid(np.linspace(x0_min, x0_max, 100), np.linspace(x1_min, x1_max, 100))
    Z = model.predict(np.c_[x0.ravel(), x1.ravel()]) 
    Z = Z.reshape(x0
### 易于理解的《机器学习》(西瓜书)笔记 #### 决策树概述 决策树是一种基于树形结构进行决策的监督学习方法。通过一系列的条件判断,最终到达叶子节点完成分类或回归任务[^1]。 #### 构建决策树的过程 构建一棵决策树是从根节点开始,依据某种特征选择准则不断分裂数据集,创建新的分支直至满足特定终止条件为止。这一过程可以采用递归来实现,使得逻辑清晰明了[^5]。 #### 特征选择的重要性 为了使生成的决策路径尽可能纯净,在每一步都需要挑选最优划分属性。常用的衡量指标有信息增益、基尼指数等,它们帮助确定哪个特性最有利于区分不同类别的样本。 #### 防止过拟合的方法——集成学习之随机森林 单独的一棵决策树可能因为训练过程中偶然因素而变得复杂度过高从而导致过拟合现象发生;为此可以通过建立多个CART(Classification And Regression Trees)并行工作来提高稳定性与准确性。具体做法是在每次抽样时引入一定量噪声干扰以及限制单棵树的最大深度等方式降低个体差异带来的影响[^4]。 #### 偏差-方差权衡原理简介 当评价某个算法的好坏时不仅要考虑其平均表现还要关注波动情况。“偏差-方差分解”理论为我们提供了一个框架用于分析模型误差来源,并指导如何调整参数设置达到最佳效果[^2]。 #### 线性模型的优势特点 尽管非线性关系普遍存在但在很多实际应用场景中简单的线性假设依然能够取得不错的结果。这类模型具备计算效率高、易于理解和解释性强等特点特别适合初学者入门练习使用[^3]。 ```python from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier, plot_tree import matplotlib.pyplot as plt # 加载鸢尾花数据集 data = load_iris() X, y = data.data, data.target # 创建并训练决策树模型 clf = DecisionTreeClassifier(random_state=0) clf.fit(X, y) plt.figure(figsize=(12,8)) plot_tree(clf, filled=True, feature_names=data.feature_names, class_names=data.target_names); ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

艾醒(AiXing-w)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值