
机器学习
文章平均质量分 89
coder_Gray
这个作者很懒,什么都没留下…
展开
-
浅谈机器学习框架和算法
概述机器学习,顾名思义,就是学习得像机器一样,形成一种解决某类问题的模型,以便我们遇到问题解决问题。下面我将介绍机器学习的框架和一些常用的比较主流的算法。框架确定目标业务需求:首先我们必须要明确机器学习是要用来解决问题的,一般是通过大量的数据,来预测未来的行为。所以首先要明确的就是业务需求,明确了业务需求,才能采集对应的数据,进行深入研究。数据:这个数据就是我们要分析的基础,但不是机器学习的直接原创 2017-08-03 13:40:42 · 4872 阅读 · 0 评论 -
深度强化学习(DRL)
DRL形成背景深度强化学习(Deep Reinforcement Learning)顾名思义,是深度学习与强化学习的结合,因此深度强化学习弥补了DL和RL的不足之处。深度学习最近火热,大家也都有所了解,就是通过多层网络和非线性变换,去学习数据的分布式特征表示,因此深度学习侧重于对事物的感知和表达。 而强化学习,了解的同学都知道,通过奖惩机制去挖掘最优策略,因此它侧重于学习解决问题的策略。...原创 2018-11-29 17:58:50 · 13763 阅读 · 0 评论 -
机器学习————k近邻学习
介绍k近邻(k-Nearest Neighbor 简称KNN)学习是一种常用的监督学习算法,给定一个测试样本,基于某种距离度量来找出训练集的所有样本中与该样本最为靠近的k个样本,然后根据这k个邻居的信息进行预测。什么时候用到KNN?knn算法既能够处理分类任务也能进行回归分析,两种任务所采用的方法略有不同。分类任务:通常使用“投票法”,将选择出的k个邻居样本出现最多的类别标记作为最...原创 2018-09-20 16:22:51 · 974 阅读 · 0 评论 -
机器学习————决策树(三)
前两篇决策树的blog介绍了有关决策树的理论知识,这篇文章我们编码实践一下,采用了网上较为简单的一个有关天气影响运动的数据集,决策树建模部分是利用sklearn.tree.DecisionTreeClassifier()训练构建决策树模型,利用pydotplus+graphviz进行模型可视化展示。数据集由于数据量较少,就不再划分训练集测试集,将以上数据全部用于训练。编码im...原创 2018-08-16 11:39:24 · 1266 阅读 · 0 评论 -
机器学习————决策树(一)
决策树是一种回归和分类的重要手段,在机器学习中具有重要的比重。本文结合了周志华老师的《机器学习》和李航老师的《统计学习方法》两书中的决策树部分进行了总结。决策树的基本步骤包括:选择适当的算法根据训练样本构建生成决策树、根据验证集样本适当地修剪决策树(剪枝)和从决策树中提取出相关的规则知识。基本流程显然决策树的生成是一个递归过程,根据上述的生成决策树的基本算法,有三种情况会导致递归返...原创 2018-08-08 21:05:26 · 823 阅读 · 0 评论 -
Mac OS:GraphViz's executables not found (python 3 and pydotplus)
对于决策树结果可视化的问题,比较流行的方法是调用pydot/pydotplus搭配graphviz进行作图。今天在Mac os上运行代码时出现了如下错误:GraphViz's executables not found ,显而易见意思是graphviz的执行文件没有找到,经过了一番百度谷歌后,很多解决办法是在pydot中的python执行文件中手动添加path等,这并不适用于mac os和py...原创 2018-08-13 16:29:17 · 5376 阅读 · 4 评论 -
机器学习————决策树(二)
这篇文章介绍CART算法。分类与回归树(classification and regression tree,CART)模型是应用广泛的决策树的学习方法,CART作为决策树的一种放啊放同样由特征选择、树的生成和剪枝构成,既可以用于分类问题也可以用于回归问题。CART算法特征选择阶段的选择标准是计算基尼指数,基尼指数作为上一篇介绍的信息增益和增益率之后的第三个评判标准,同样被广泛地使用,这里单独...原创 2018-08-09 15:04:48 · 726 阅读 · 0 评论 -
机器学习----SVM算法
svm算法的通常理解在二维问题上,对于二元分类来说,svm的目的就是找一条线把两类分开。不过下面这个例子,有三条不同的直线都能把这两类分开,那么我们该选哪一条线呢?这将是我们考虑的问题:首先我们先假设一条直线W*X+b=0是最优的分割线。我们把这种最优SVM分割平面叫做超平面,我们现在的目标就是确定最优的W和b的值。SVM定义超平面为:能使支持向量和超平面之间的最小距离的最大值。那么这句话该如何理...转载 2018-04-15 16:25:00 · 957 阅读 · 0 评论 -
聚类算法——k-medoids算法
引言上一篇文章我们了解了k-means算法,在文章末尾指出k-means算法对于异常值十分敏感,因为具有极大值的对象可能会产生严重扭曲的数据分布。因此我们可以使用k-medoids算法,它是集群中位于最中心的对象,而不是将集群中的平均值作为参考点。因此,分区的方法仍然可以基于最小化每个对象与其参考点之间的不相似程度之和的原理来进行。这构成了k-medoids方法的基础。k-means对比k-med...原创 2018-03-26 23:51:46 · 46927 阅读 · 0 评论 -
聚类算法——k-means算法
数据挖掘数据挖掘(Data Mining,DM)是从大量数据中提取信息以查看隐藏的知识并便于将其用于实时应用程序。 DM有多种用于数据分析的算法。用于分析的一些主要DM技术是聚类,关联,分类等。聚集是用于探索性数据分析的有效技术,并已在各种领域中找到应用。大多数现有的聚类方法可以分为三类:分区,分层,基于网格和基于模型的方法。基于分区的聚类生成数据分区,使得集群中的对象与其他集群中的对象相比更加相...原创 2018-03-26 19:35:35 · 2871 阅读 · 2 评论 -
主成分分析(PCA)和独立成分分析(ICA)
最近在学习DL花书时,看到了线性因子模型部分,对其中的PCA和ICA的理解有些模糊,于是到网上求助并翻了些文献资料,总结如下(这里不讨论其推导过程和理论证明):首先分析一下PCA和ICA之间的共性:无论是PCA还是ICA,都不需要对源信号的分布进行具体的假设Both PCA and ICA try to find a set of vectors, a basis, for the data.转载 2017-12-10 22:10:48 · 5935 阅读 · 0 评论 -
三种常用数据标准化方法
什么是数据标准化(Normalization)?数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上,常见的数据归一化的方法有:min-max标准化(Min-ma...转载 2019-02-25 17:02:07 · 6694 阅读 · 0 评论