
hacker_机器学习算法
机器学习算法
睹小物
change is always better
展开
-
ROC曲线的理解
1 ROC曲线的概念受试者工作特征曲线 (receiver operating characteristic curve,简称ROC曲线),又称为 感受性曲线(sensitivity curve)。得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一 信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。接受者操作特性曲线就是以假阳性概率(False positive rate...原创 2019-05-23 17:56:11 · 9216 阅读 · 0 评论 -
模型检测--解读混淆矩阵
混淆矩阵(confusion matrix)在图像精度评价中,主要用于比较分类结果和实际测得值,可以把分类结果的精度显示在一个混淆矩阵里面。混淆矩阵是通过将每个实测像元的位置和分类与分类图像中的相应位置和分类相比较计算的。如有150个样本数据,这些数据分成3类,每类50个。分类结束后得到的混淆矩阵为:每一行之和为50,表示50个样本,第一行说明类1的50个样本有43个分类正确,5个错...原创 2019-05-17 20:25:07 · 5909 阅读 · 0 评论 -
annotate 函数的用法
Axes.annotate(s,xy,*args,**kwargs)s:注释文本的内容 xy:被注释的坐标点,二维元组形如(x,y) xytext:注释文本的坐标点,也是二维元组,默认与xy相同 xycoords:被注释点的坐标系属性,允许输入的值如下属性值 含义 'figure points' 以绘图区左下角为参考,单位是点数 'figure pixels'...原创 2019-05-15 21:40:26 · 6008 阅读 · 0 评论 -
认识线性回归算法
目录算法 :回归算法策略:损失函数如何使损失函数值最小,那么就要w(权重)尽量小?正规方程(计算w方法)梯度下降(计算w方法)岭回归(解决过拟合)算法 :回归算法策略:损失函数如何使损失函数值最小,那么就要w(权重)尽量小?优化:正规方程sklearn.linear_model.LinearRegression梯度下降...原创 2019-05-05 22:12:58 · 289 阅读 · 0 评论 -
认识决策树算法及随机森林
目录认识决策树:信息熵信息增益决策树是怎样对特征抽取后的结果进行计算的?构造的决策树,随着深度的加深,容易造成过拟合现象:认识决策树:例子:对是否可以贷款进行决策树构造决策树就好比:二叉树分类中,关键的信息分类标准占重要地位且放在首位(信息增益值大的特征)信息熵:(描述信息的不确定性,值越大,不确定性越大)信息熵信息等价于消除不确...原创 2019-05-04 18:29:40 · 1064 阅读 · 1 评论 -
混淆矩阵
混淆矩阵:(分类模型的评估)代码:sklearn.metrics.classification_report(y_true,y_pred,target_names=None)y_true:真实目标值y_pred:估计器预测目标值arget_names:目标类别名称return:每个类别精确率与召回率准确率、召回率:...原创 2019-05-03 20:27:34 · 1087 阅读 · 0 评论 -
朴素贝叶斯算法
概率知识点:联合概率:包含多个条件,且所有条件同时成立的概率记作:????(????,????)P(A,B)条件概率:就是事件A在另外一个事件B已经发生条件下的发生概率记作:????(????|????)P(A|B)特性:P(A1,A2|B) = P(A1|B)P(A2|B)注意:此条件概率的成立,是由于A1,A2相互独立的结果贝叶斯公式:例子:(把下图逆时针转90度便于理解,科技、娱乐...原创 2019-05-03 19:02:16 · 465 阅读 · 0 评论 -
特征抽取-特征处理等的理解
数据类型: 离散型数据:记录不同类别个体的数目所得到的数据又称计数数据,所以有这些数据全部都是整数,而且不能再细分,也不能进一步提高他们的精确度。 连续型数据:变量可以在某个范围内取任一数,即变量的取值可以是连续的,如,长度、时间、质量值等,这类整数通常是整数,含有小数部分。注:只要记住一点,离散型是区间内不可分,连续型是区间内可分特...原创 2019-05-03 18:46:24 · 311 阅读 · 0 评论