- 博客(3)
- 收藏
- 关注
原创 CART算法(1.回归树)
因此用平方误差和最小的准则求解每个单元上的最优输出值时,每个划分的特征空间的均值就是最优输出值。一颗回归树对应的是输入空间的划分以及在划分的单元上的输出值,因此我们构造回归树的主要任务就是。(3)对得到的两个子区域继续调用步骤1,2,直到满足停止条件。(2)对选定的(j,s)进行划分区域和得到相应的输出值。定义如下:(其实就是对应每个划分的特征空间的均值)(4)讲输入的特征空间划分为M个区域,生成决策树。就是对应区间的y的均值,即。为第m个划分的特征空间。找到j点为切分点的最小的。
2024-12-24 00:25:16
591
原创 ID3算法和C4.5算法
从根结点开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值的结点建立子结点,然后对子结点递归地调用以上方法,构建决策树。在决策树构建过程中,在节点划分前进行估计,如果当前节点划分不能带来决策树泛化性能的提升,就停止划分,将当前节点标记为叶节点。从叶结点开始,分别计算每个叶结点的经验熵,再计算叶结点回缩到其父结点时的树的损失函数,与当前树的损失函数比较,是t结点第k类的样本书,就以前面的高尔夫例子来说,假如这个结点是天气状况,那定义。就是晴天且打高尔夫的数量,
2024-12-16 20:51:19
629
原创 决策树(学习笔记)
高收入” 分支下的内部节点是 “对电子产品的需求程度”,有两个分支 “高需求” 和 “低需求”,“高需求” 叶节点对应的是 “购买”,“低需求” 叶节点对应的是 “不购买”;以一个简单的疾病诊断决策树为例,根节点是 “是否发烧”,有 “是” 和 “否” 两个分支。:表示随机变量不确定的度量,熵越大,表示随机变量的不确定性就越大,当p=0.5的时候,随机变量不确定性越大,熵值也取得最大值。为再A特征给定条件下数据集D的不确定性,二者之差,表示由于特征A使得对数据集D的分类的不确定性减少的程度。
2024-12-14 18:57:07
2103
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人