
Machine Learning
文章平均质量分 70
code_caq
机器学习、计算机视觉爱好者。
努力学习的新人!
展开
-
sklearn.linear_model——LogisticRegression调参小结
ref: 官方文档: http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html http://blog.csdn.net/sun_shengyun/article/details/53811483 未完待续……from sklearn.linear_mode...原创 2017-05-14 17:21:34 · 28624 阅读 · 1 评论 -
决策树模型组合之随机森林与GBDT
ref: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com前言:决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时,单决策树又有一些不好的地方,比如说容易over-fitting,虽然有一些方法,如剪枝可以减少这种情况,但是还是不够的。模型组合(比如说有Boost转载 2017-05-09 18:52:53 · 457 阅读 · 0 评论 -
sklearn.linear_model——梯度提升树(GBDT)调参小结
文章来源:http://www.cnblogs.com/pinard/p/6143927.html1. scikit-learn GBDT类库概述 在sacikit-learn中,GradientBoostingClassifier为GBDT的分类类, 而GradientBoostingRegressor为GBDT的回归类。两者的参数类型完全相同,当然有些参数转载 2017-07-11 14:55:32 · 1960 阅读 · 0 评论 -
对数几率回归(Logistic Regression)总结
逻辑回归logistic regression,虽然名字是回归,但是实际上它是处理分类问题的算法。简单的说回归问题和分类问题如下:回归问题:预测一个连续的输出。 分类问题:离散输出,比如二分类问题输出0或1.逻辑回归常用于垃圾邮件分类,天气预测、疾病判断和广告投放。一、Logistic回归假设函数对于一个分类问题,希望找到一个预测函数hθ(x),使得:只有发生“y=1”(正例)与不发生“y=0”(原创 2017-04-09 11:34:35 · 17258 阅读 · 0 评论 -
机器学习二分类问题模型效果度量方法
ref http://blog.csdn.net/ice110956/article/details/20288239 http://www.cnblogs.com/Allen-rg/p/5821949.html http://blog.csdn.net/taoyanqi8932/article/details/54409314 https://www.zhihu.com/question/原创 2017-08-29 17:19:02 · 5791 阅读 · 1 评论 -
极大似然估计法推出朴素贝叶斯法中的先验概率估计公式
令参数,其中。那么随机变量Y的概率可以用参数来表示为一个紧凑的形式,I是指示函数成立时,I=1;否则I=0。极大似然函数,其中N为样本总数,为样本中的样本数目,取对数得到,要求该函数的最大值,注意到约束条件可以用拉格朗日乘子法,即,求导就可以得到:联立所有的k以及约束条件得到,完毕作者:Fisher链接:https://www.zhihu原创 2017-09-08 18:56:27 · 4131 阅读 · 1 评论 -
机器学习中偏差和方差有什么区别?
偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。方差:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。 参考:Understanding the Bias-Variance Tradeoff作者:Jason Gu 链接:https://www.zhihu.com/question/20原创 2017-09-08 19:03:43 · 895 阅读 · 0 评论 -
Machine Learning知识点一览
参考资料: 李航《统计学习方法》 周志华《机器学习》 Andrew Ng《机器学习》 《PRML》 一些博客、知乎……一直更新中…… 目录 1.基本概念和数学工具 2.常见算法 3.python工具包 4.Application1.基本概念和数学工具几种范数的区别(L1的稀疏性、L2的平滑性) 几种常见的损失函数 经验风险、结构风险与正则化、奥卡姆剃刀原理、泛化能力 交叉验原创 2017-04-25 09:09:03 · 874 阅读 · 0 评论 -
Tensorflow经典案例
第一步:给TF新手的教程指南原文1:tf初学者需要明白的入门准备机器学习入门笔记:https://github.com/aymericdamien/TensorFlow-Examples/blob/master/notebooks/0_Prerequisite/ml_introduction.ipynbMNIST转载 2017-12-05 16:47:32 · 419 阅读 · 0 评论 -
Word2Vec小结
发现了一篇总结的比较好的文章如下,向博主致敬http://blog.csdn.net/l18930738887/article/details/54177938声明:1)本参考了博客、文献及寒小阳深度学习的视频。本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应。如果某部分不小心侵犯了大家的利益,还望海涵,并联系博主删除。转载 2017-12-06 09:10:02 · 726 阅读 · 0 评论 -
卡方检验特征选择
参考:https://segmentfault.com/a/1190000003719712http://blog.csdn.net/shuzfan/article/details/52993427卡方检验,或称x2检验,是一种常用的特征选择方法,尤其是在生物和金融领域。χ2 用来描述两个事件的独立性或者说描述实际观察值与期望值的偏离程度。χ2值越大,则表明实际观察值与转载 2017-12-07 11:36:07 · 2797 阅读 · 0 评论 -
【台大李宏毅ML课程】Lecture 4 Classification笔记
Lecture 4 Classification本讲主要讲述了基于概率模型的分类器分类的应用场景就很多了,如信用卡评分、疾病诊断、模式识别等等等等。1.为什么不用回归而用分类 因为那些离回归函数比较远但却是正确的点会带了很大的error2.初步的想法 对于一个二分类问题,采用如下方式: 哪个类别的P(C|x)大就判为哪一类; 其中P(C1)和P(C2)可以根据训练集中类...原创 2018-02-09 21:06:57 · 551 阅读 · 0 评论 -
【台大李宏毅ML课程】Lecture 3 Gradient Descent笔记
(感谢李宏毅老师,所有图片来自于老师的课件)Lecture 3 Gradient Descent本讲主要讲了解决最优化问题用到的梯度下降的方法,以及对梯度下降法的一个改进,最后从泰勒级数的角度解释了梯度下降的数学原理。本讲从比较深的角度介绍梯度下降,讲的十分的好。1.Review:Gradient Descent 梯度下降法主要是为了求解凸优化问题(具体步骤可见Lecture 1...原创 2018-02-09 10:58:47 · 1123 阅读 · 0 评论 -
【台大李宏毅ML课程】Lecture 1-2 Linear Regression、Error笔记
(感谢李宏毅老师,所有图片来自于老师的课件)Lecture 1 Regression本讲主要是讲了一个线性回归模型,以及梯度下降法求解参数。以宝可梦为例。回归(Regression)有很多应用场景,比如时序预测、自动驾驶、推荐系统等。1.线性回归以线性回归y=wx+b为例,可以基于损失函数最小(此处选取平方损失函数)来求解参数w和b,从而得到best model。 为...原创 2018-02-08 21:16:09 · 1131 阅读 · 0 评论 -
指数分布族(The Exponential Family)与广义线性模型(GLM,Generalized Linear Models)
参考:http://www.cnblogs.com/BYRans/p/4735409.html在逻辑回归模型中我们假设: 在分类问题中我们假设: 他们都是广义线性模型中的一个例子,在理解广义线性模型之前需要先理解指数分布族。指数分布族(The Exponential Family) 定义:如果一个分布可以用如下公式表达,那么这个分布就属于指数分布族: 公式中y是随机变量;h(x)称为基转载 2017-04-26 08:43:38 · 2468 阅读 · 0 评论 -
K-L散度(相对熵)总结
之前总结过KL散度,但不是很具体,现在单独总结一下它 参考:http://blog.csdn.net/acdreamers/article/details/44657745K-L散度(Kullback-Leible) ↓ ↓ ↓百度上是这么解释的↓ ↓ ↓ 感觉很有道理的样子!在概率论或信息论中,KL散度( Kullback–Leibler divergence),又称相对熵(relative原创 2017-05-03 20:09:21 · 9161 阅读 · 0 评论 -
多分类问题Softmax Regression
ref:http://www.cnblogs.com/BYRans/p/4905420.html多分类问题 在一个多分类问题中,因变量y有k个取值。例如在邮件分类问题中,我们要把邮件分为垃圾邮件、个人邮件、工作邮件3类,目标值y是一个有3个取值的离散值。这是一个多分类问题,二分类模型在这里不太适用。多分类问题符合多项分布。有许多算法可用于解决多分类问题,像决策树、朴素贝叶斯等。这篇文章主要讲转载 2017-05-03 20:54:09 · 1406 阅读 · 0 评论 -
Adaboost 算法的原理与推导(简单易懂)
原文出自:http://blog.csdn.net/v_july_v/article/details/40718799↑↑写的很好↑↑ Adaboost 算法的原理与推导0 引言 一直想写Adaboost来着,但迟迟未能动笔。其算法思想虽然简单:听取多人意见,最后综合决策,但一般书上对其算法的流程描述实在是过转载 2017-03-27 19:43:01 · 1648 阅读 · 0 评论 -
机器学习中距离度量的方法
机器学习中,有很多地方用到了距离,来评价相关性什么的……比如KNN,K-means等……看到一篇总结各种距离的很好的文章……参考:http://www.cnblogs.com/daniel-D/p/3244718.html我们常见的就是欧氏距离,但其实距离其实有很多种度量方式,定义一个距离D(x,y)需要满足以下准则:(1)D(x,y)=0 到自身距离为0(2)D(转载 2017-04-03 10:38:11 · 1314 阅读 · 0 评论 -
随机梯度下降法(Stochastic Gradient Descent)和批量梯度下降法(Batch Gradient Descent )总结
公式来源于:http://blog.csdn.net/lilyth_lilyth/article/details/8973972梯度下降法常用于最小化风险函数或者损失函数,分为随机梯度下降(Stochastic Gradient Descent)和 批量梯度下降(Batch Gradient Descent )。除此之外,还有梯度上升法(Gradient Ascent),应用于极大似然估计,与下降法原创 2017-04-13 19:17:52 · 7115 阅读 · 1 评论 -
集成学习(ensemble learning):bagging、boosting、random forest总结
集成学习(ensemble learning)boosting和bagging都属于集成学习的基本算法。 集成学习是指将若干弱分类器组合之后产生一个强分类器。弱分类器(weak learner)指那些分类准确率只稍好于随机猜测的分类器(error rate < 50%)(O(∩_∩)O哈哈哈……)。 集成算法成功的关键在于能保证弱分类器的多样性(diversity)。集成不稳定的学习算法能得转载 2017-04-09 21:49:28 · 1261 阅读 · 1 评论 -
Fisher线性判别分析(Linear Discriminant Analysis,LDA)
LDA基本思想: 将高维的样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果。对于两类问题,可以看做把样本都投影到一个方向上,然后在这个一维空间确定一个分类的阈值。过这个阈值点且与投影方向垂直的超平面就是两类的分类面。投影方向的确定:投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。比如如下右图就是更好的投影方向~ LDA基本步原创 2017-04-16 11:39:58 · 9589 阅读 · 3 评论 -
线性回归模型中的最小二乘法线性求解(Least Square Method)
最小二乘法:使平方误差最小。相比于梯度下降法,最小二乘法有解析形式的解,比较直观。本文主要讨论线性回归模型中最小二乘法求解。参考:斯坦福大学Andrew Ng《机器学习》第二集附:求解过程中用到的一些代数知识(tr表示矩阵的迹,即一个方阵对角线元素之和)原创 2017-03-28 16:18:01 · 3556 阅读 · 0 评论 -
拉格朗日对偶和KKT条件(Karush-Kuhn-Tucker)
原文来源于:http://www.cnblogs.com/90zeng/ 作者:博客园-太白路上的小混混总结的非常好!!!!! 1.原始问题假设是定义在上的连续可微函数(为什么要求连续可微呢,后面再说,这里不用多想),考虑约束最优化问题:称为约束最优化问题的原始问题。现在如果不考虑约束条件,原始问题就是:转载 2017-03-25 20:03:51 · 3401 阅读 · 0 评论 -
感知学习模型机中空间任一点到超平面的距离公式的推导
出自:http://blog.csdn.net/amyaguang/article/details/46043885感觉写的很好!相信看感知机的时候大家都会遇到这个问题,为什么距离是这个。在感知机模型中,输入空间中任意一点 到超平面S的距离: 其推导过程如下:转载 2017-03-27 18:42:23 · 959 阅读 · 0 评论 -
K-means聚类算法及其MATLAB实现
参考:http://www.csdn.net/article/2012-07-03/2807073-k-meanshttp://www.cnblogs.com/zhzhang/p/5437778.htmlhttp://blog.csdn.net/qll125596718/article/details/8243404/K-means属于无监督学习方法K表示类别数,Means表示均值,K一般由人工来...原创 2017-03-30 14:33:46 · 124103 阅读 · 21 评论 -
主成分分析(PCA)原理及推导
出处http://blog.csdn.net/zhongkejingwang/article/details/42264479什么是PCA? 在数据挖掘或者图像处理等领域经常会用到主成分分析,这样做的好处是使要分析的数据的维度降低了,但是数据的主要信息还能保留下来,并且,这些变换后的维两两不相关!至于为什么?那就接着往下看。在本文中,将会很详细的解答这些问题:PCA、SVD、特征转载 2017-05-05 11:33:18 · 713 阅读 · 0 评论 -
machine learning资料总结与心得
待更新……博客、网址: UFIDL: http://ufldl.stanford.edu/wiki/index.php/UFLDL教程 七月在线创始人的博客: http://blog.csdn.net/v_july_v ……书: 《PRML》 周志华西瓜书 李航《统计学习方法》机器学习课程视频资料: 斯坦福大学Andrew Ng《机器学习课程》 http://ope...原创 2018-03-13 21:19:48 · 472 阅读 · 0 评论