第一章:绪论
- 基本概念与术语:
机器学习就是让计算机从数据中“学习”出规律,然后利用规律对未知的数据进行预测等操作。比如我们有一堆西瓜的数据(大小、色泽、敲起来的声音等特征),想通过这些数据来总结出什么样的西瓜是甜的,这就是在做机器学习啦。
训练集就是拿来让计算机学习的那部分已知的数据,像一堆已经知道甜不甜的西瓜的数据集合。测试集则是之后用来检验计算机学得好不好的另外一部分数据,好比新拿来一些西瓜,看按之前学的规律能不能判断对它们甜不甜。
样本就是单个的数据记录,比如一个具体西瓜的相关特征描述就是一个样本,特征就是描述样本的那些属性,像西瓜的色泽就是一个特征,而标记就是对应样本的结果,比如这个西瓜对应的是甜或者不甜这个结果就是标记,有标记的学习任务叫监督学习(知道西瓜甜不甜去学规律),没标记的(只看西瓜各种特征,不知道甜不甜去总结规律)就叫无监督学习。
第二章:模型评估与选择
- 评估的重要性:
我们训练出一个机器学习的模型后,得知道它好不好呀,就像做了个挑西瓜的“小助手”,得看看这个助手判断西瓜甜不甜到底准不准。 - 常见评估方法:
留出法就是把数据分成两部分,一部分训练,一部分测试,不过要注意划分得合理些,别数据分布太偏了。交叉验证法呢,是把数据分成好几份,轮流用不同的部分当测试集,其他当训练集,综合起来看模型的表现。还有自助法,简单说就是通过有放回抽样的方式构造训练集和测试集,这样能在数据量不大的时候也能较好地评估模型。 - 性能度量指标:
像准确率,就是预测对的样本数占总样本数的比例,好比判断西瓜甜不甜,判断对的西瓜个数除以总的西瓜个数,越高说明模型越准。还有错误率(和准确率相反啦)、查准率、查全率等,查准率就是预测是甜西瓜里真正甜西瓜的比例,查全率是真正甜西瓜里被预测出来甜的比例,不同场景下关注不同指标来衡量模型好坏。
第三章:线性模型
- 大致原理:
线性模型就是假设我们要预测的结果(比如西瓜甜不甜对应的某个数值表示)和输入的特征(西瓜的大小、色泽等)之间存在一种线性关系,就好像可以用一个直线方程那样的形式来表示。比如通过西瓜的重量和色泽等特征通过一定的系数组合起来(类似 y = ax + b 里的 a、b 是系数,x 是特征,y 是预测结果),来判断西瓜甜的程度。 - 主要术语:
权重(系数)就是前面说的那个 a、b 这些东西,它决定了每个特征对结果影响的大小,特征值越大,对应的权重越大,那这个特征对最终结果影响就越大啦。线性回归就是一种典型的线性模型,目标是找到最合适的权重,让预测的结果和真实结果尽可能接近,比如找到合适的系数让根据西瓜特征预测出来的甜的程度和实际吃起来的甜的程度误差最小。