Sklearn 机器学习 决策树 模型参数值叶节点最小样本数

💖亲爱的技术爱好者们,热烈欢迎来到 Kant2048 的博客!我是 Thomas Kant,很开心能在CSDN上与你们相遇~💖

在这里插入图片描述

本博客的精华专栏:
【自动化测试】 【测试经验】 【人工智能】 【Python】


在这里插入图片描述

Sklearn 决策树模型参数详解:叶节点最小样本数(min_samples_leaf)

在使用 Sklearn 构建决策树(DecisionTreeClassifierDecisionTreeRegressor)模型时,min_samples_leaf 是一个非常关键的参数,影响模型的泛化能力、结构复杂度和预测稳定性。

本文将从定义、作用、对比实验、调参方法等多个角度,详细讲解这个参数的使用技巧与实践建议。


🌱 一、什么是 min_samples_leaf?

参数定义

min_samples_leaf 表示一个叶子节点上最少需要包含的样本数。在训练过程中,如果一个分裂操作会导致某个子节点样本数少于该值,该分裂将不会被执行。

DecisionTreeClassifier(min_samples_leaf=5)

表示:每个叶节点至少包含 5 个样本,分裂操作才能成立。

默认值与类型说明

  • 默认值: 1

  • 支持类型:

    • 整数: 指定最小样本个数,例如 min_samples_leaf=5
    • 浮点数(0~1): 表示样本总数的比例,例如 min_samples_leaf=0.05 表示每个叶节点至少包含 5% 的训练样本

⚠️ 注意:浮点数类型对于大数据集尤为实用,可避免固定样本值在不同规模数据集中的“不合理性”。


🌳 二、为什么要设置 min_samples_leaf?

1. 降低过拟合风险

min_samples_leaf=1 时,模型可能会学习训练集中极端样本,导致模型复杂、对噪声敏感,从而出现过拟合。

<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Thomas Kant

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值