前言
一直知道机器学习很火,终于动手看完Peter Flach的机器学习。第一次看,好多东西只有模糊概念,记一份笔记在此。
干货
机器学习是对依据经验提升其知识或性能的算法与系统的系统性研究。
任务是借助模型来完成的,而学习问题则是通过用于生成模型的学习算法来解决。
机器学习所关注的是使用恰当的特征来构建恰当的模型。
模型赋予了机器学习领域以多样性,而任务和特征则赋予其一致性。
希望先忽略先验分布或假设其为均匀分布时,请使用似然;否则,请使用后验概率。
一切都应该尽可能简单。
在覆盖图中,具有相同准确率的分类器,可用斜率为1的线段连接。
在规范化的覆盖图中,斜率为1的线段连接了具有相同平均查全率的分类器。
ROC曲线下方的面积表示排序准确率。
分组模型的ROC曲线中的线段数与该模型中实例空间中的区隔数相同;数据集中的每个实例都与评分模型的ROC曲线中的一条线段对应。
减少对模型的求精,有时可以获得更优的排序性能。
可借助冰姐分值对实例空间的区隔进行整合,以改善ROC曲线中凹状的部分。
为避免过拟合,需要从数据中估计出的参数数目应显著少于数据点的个数。
在描述性学习中,任务和学习问题是同一的。
LGG是我们能够从数据中学习到的最为保守的推广。
任意介于嘴不具一般性和最具一般性的某一概念之间的概念都是一种可能的假设。通过架设空间的任意一条向上路径都与一条覆盖曲线相对应。
决策树的描述能力优于合取概念。
一种避免过拟合切有利于学习的方式是有意选择具有一定局限性的假设语言。
由决策树叶结点中的经验概率获得的排序可一条在训练数据上生成凸ROC曲线。
熵和Gini指标对类分布的波动较为敏感