[心得]机器学习精华笔记

本文记录了作者研读机器学习书籍的心得,涵盖模型构建、学习算法、防止过拟合策略、决策树与概率理论的应用,以及在线学习和深度学习的简介。通过实例解析了ROC曲线、熵和Gini指标、贝叶斯最优分类器等关键概念,旨在提供机器学习的实用指南。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

一直知道机器学习很火,终于动手看完Peter Flach的机器学习。第一次看,好多东西只有模糊概念,记一份笔记在此。

干货

机器学习是对依据经验提升其知识或性能的算法与系统的系统性研究。
任务是借助模型来完成的,而学习问题则是通过用于生成模型的学习算法来解决。
机器学习所关注的是使用恰当的特征来构建恰当的模型。

模型赋予了机器学习领域以多样性,而任务和特征则赋予其一致性。

希望先忽略先验分布或假设其为均匀分布时,请使用似然;否则,请使用后验概率。
一切都应该尽可能简单。
在覆盖图中,具有相同准确率的分类器,可用斜率为1的线段连接。

在规范化的覆盖图中,斜率为1的线段连接了具有相同平均查全率的分类器。
ROC曲线下方的面积表示排序准确率。

分组模型的ROC曲线中的线段数与该模型中实例空间中的区隔数相同;数据集中的每个实例都与评分模型的ROC曲线中的一条线段对应。

减少对模型的求精,有时可以获得更优的排序性能。
可借助冰姐分值对实例空间的区隔进行整合,以改善ROC曲线中凹状的部分。
为避免过拟合,需要从数据中估计出的参数数目应显著少于数据点的个数。
在描述性学习中,任务和学习问题是同一的。

LGG是我们能够从数据中学习到的最为保守的推广。
任意介于嘴不具一般性和最具一般性的某一概念之间的概念都是一种可能的假设。通过架设空间的任意一条向上路径都与一条覆盖曲线相对应。

决策树的描述能力优于合取概念。
一种避免过拟合切有利于学习的方式是有意选择具有一定局限性的假设语言。
由决策树叶结点中的经验概率获得的排序可一条在训练数据上生成凸ROC曲线。

熵和Gini指标对类分布的波动较为敏感

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值