
机器学习
文章平均质量分 50
-似曾相识燕归来
软件工程专业,终身学习型~
展开
-
k-近邻算法实现(k-NN)
算法思想:计算目标与样本库中所有样本的距离,根据计算出来的距离将所有样本由近到远进行排序,取出前k个样本,将这k个样本中出现次数最多的类型作为目标的类别。 from numpy import * import operator def createDataSet(): group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]]原创 2018-01-27 13:57:51 · 619 阅读 · 0 评论 -
决策树(decision tree)
决策树的主要思想:计算数据集上的熵,划分数据集以获得最大的信息增益,再在子数据集上划分数据集以获得最大的信息增益,一直到子数据集下的所有实例都具有相同的类型,从而获得了一棵“决策树”。当需要使用决策树时,只需要根据新个体的各个特征,在决策树上从上往下走,最后到达的叶子节点就是新个体的分类。(看完下面的实现再来看这段话应该会更有感觉) 有关信息、熵和信息增益有详细资料可以看这儿。信息&熵&信息增益原创 2018-02-27 20:05:08 · 359 阅读 · 0 评论 -
朴素贝叶斯
朴素贝叶斯:朴素指的是统计意义上的独立,即一个特征或者单词出现的可能性和其它词没有关联。 p(ci|ω)=p(ω|ci)p(ci)p(ω)p(c_i|\omega) = \frac {p(\omega|c_i)p(c_i)}{p(\omega)} from numpy import * def loadDataSet(): postingList = [['my', 'dog', 'has原创 2018-02-28 10:15:44 · 401 阅读 · 0 评论 -
AdaBoost
0.目录 0.目录 1.算法思想 2.实现代码 3.参考文献 1.算法思想 AdaBoost:属于元算法,它是通过组合多个弱分类器来构建一个强分类器。全称adaptive boosting(自适应boosting)。 2.实现代码 from numpy import * def loadSimpData(): datMat = matrix...原创 2018-03-02 10:30:44 · 379 阅读 · 0 评论 -
机器学习中的正确率、召回率
下图是一个二分类问题的混淆矩阵: 预测结果 预测结果 +1 -1 真实结果 +1 真正例(TP) 伪反例(FN) 真实结果 -1 伪正例(FP) 真反例(TN) 正确率:TP/(TP+FP),表示预测为正例的样本中真正正例的比例。 召回率:TP/(TP+FN),表示预测为正例的真实正例占所有正例的比例。原创 2018-03-02 11:15:37 · 1437 阅读 · 1 评论