
机器学习与数据挖掘
文章平均质量分 79
crazy_programmer_p
这个作者很懒,什么都没留下…
展开
-
高斯混合模型
本文就高斯混合模型(GMM,Gaussian Mixture Model)参数如何确立这个问题,详细讲解期望最大化(EM,Expectation Maximization)算法的实施过程。单高斯分布模型GSM多维变量X服从高斯分布时,它的概率密度函数PDF为:x是维度为d的列向量,u是模型期望,Σ是模型方差。在实际应用中u通常用样本均值来代替,Σ通常用样本方差来代替。很容易判断一个转载 2014-09-09 15:04:19 · 749 阅读 · 0 评论 -
序列最小最优化算法 SMO
SMO优化算法(Sequential minimal optimization)SMO算法由Microsoft Research的John C. Platt在1998年提出,并成为最快的二次规划优化算法,特别针对线性SVM和数据稀疏时性能更优。关于SMO最好的资料就是他本人写的《Sequential Minimal Optimization A Fast Algorithm for Train转载 2014-08-14 09:29:03 · 4069 阅读 · 0 评论 -
支持向量机解决多类分类问题
从 SVM的那几张图可以看出来,SVM是一种典型的两类分类器,即它只回答属于正类还是负类的问题。而现实中要解决的问题,往往是多类的问题(少部分例外,例如垃圾邮件过滤,就只需要确定“是”还是“不是”垃圾邮件),比如文本分类,比如数字识别。如何由两类分类器得到多类分类器,就是一个值得研究的问题。还以文本分类为例,现成的方法有很多,其中一种一劳永逸的方法,就是真的一次性考虑所有样本,并求解一个多目标转载 2014-08-14 09:24:27 · 15845 阅读 · 0 评论 -
支持向量机学习3
之前一直在讨论的线性分类器,器如其名,只能对线性可分的样本做处理。如果提供的样本线性不可分,结果很简单,线性分类器的求解程序会无限循环,永远也解不出来。这必然使得它的适用范围大大缩小,而它的很多优点我们实在不原意放弃,怎么办呢?是否有某种方法,让线性不可分的数据变得线性可分呢?有!其思想说来也简单,来用一个二维平面中的分类问题作例子,你一看就会明白。事先声明,下面这个例子是网络早就有的,我一时转载 2014-08-14 09:23:05 · 412 阅读 · 0 评论 -
支持向量机学习2
上节说到我们有了一个线性分类函数,也有了判断解优劣的标准——即有了优化的目标,这个目标就是最大化几何间隔,但是看过一些关于SVM的论文的人一定记得什么优化的目标是要最小化||w||这样的说法,这是怎么回事呢?回头再看看我们对间隔和几何间隔的定义:间隔:δ=y(wx+b)=|g(x)| 几何间隔: 可以看出δ=||w||δ几何。注意到几何间隔与||w||是成反比的,因此最大化几何间转载 2014-08-14 09:20:19 · 462 阅读 · 0 评论 -
支持向量机 学习1
(一)SVM的背景简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accu转载 2014-08-14 09:18:45 · 725 阅读 · 0 评论 -
支持向量机 SVM 理解 转自JULY
下面的这边博文转自 JULY 这个转载 2014-08-12 11:32:39 · 1675 阅读 · 0 评论 -
支持向量机 核函数
以下是几种常用的核函数表示:线性核(Linear Kernel)多项式核(Polynomial Kernel)径向基核函数(Radial Basis Function)也叫高斯核(Gaussian Kernel),因为可以看成如下核函数的领一个种形式:径向基函数是指取值仅仅依赖于特定点距离的实值函数,也就是。任意一个满足特性的函数 Φ都叫做径向量函数转载 2014-08-11 12:30:31 · 1254 阅读 · 0 评论 -
朴素贝叶斯分类器 C++ STL 实现
学习C++STL已经有一段时间了,除了将树上的原创 2014-08-06 14:48:13 · 1699 阅读 · 0 评论 -
决策树 ID3 实现 真正的大牛
#include #include #include #include #include #include using namespace std; #define MAXLEN 6//输入每行的数据个数 //多叉树的实现 //1 广义表 //2 父指转载 2014-08-04 14:52:23 · 646 阅读 · 0 评论 -
信息增益 熵 信息增益率
1、熵(Entropy)理论上来说用于决策树的属性选择函数,为方便计算,往往是定义为其属性的不纯性度量,那么必须满足如下三个条件:当结点很纯时,其度量值应为0 当不纯性最大时(比如所有类都有同样的可能),其度量值应最大 度量应该服从多级特性,这样决策树才能分阶段建立起来 measure([2,3,4])=measure([2,7])+79×measure([3,4])转载 2014-08-04 09:38:28 · 898 阅读 · 0 评论