数据挖掘基础知识整理

数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。

利用了如下领域的思想:

1)来自统计学的抽样,估计和假设检验

2)人工智能,模式识别和机器学习的搜索算法,建模技术和学习理论

3)最优化,进化计算,信息论,信号处理,可视化和信息检索

4)数据库技术,并行计算,分布式计算

涉及到的数学原理:概率论与数理统计,线性代数,图论,最优化方法

 

 

主要为了解决两大问题:

1)预测任务:根据其他属性的值,预测特定属性的值

2)描述任务 导出概括数据中潜在联系的模式(相关,趋势,聚类,轨迹和异常),通常,描述性数据挖掘任务是探查性的,需要后处理技术验证和解释结果。

 

主要分为四大任务:

1,预测建模    a,分类:用于预测离散的目标变量

                        B,回归:用于预测连续的目标变量

2,关联分析:用来发现描述数据中强关联特征的模式,,目标是以有效的方式提取最有趣的模式。如购物篮分析

3,聚类分析:分析紧密相关的观测值组群,使得与属于不同簇的观测值相比,同一簇的观测值之间尽可能类似。顾客分组

4,异常检测:识别特征明显不同于其他数据的观测值,统称为异常点(anomaly),离群点(outlier)

 

十大经典算法:

分类算法:c4.5(决策树),朴素贝叶斯(naive bayes),svm,knn,adaboost,cart

聚类算法:k-means(k-均值聚类),EM

关联分析:apriori

连接分析:pagerank

 

C4.5:决策树算法,在决策树构造过程中进行了剪枝,并可以处理连续的算法,也能对不完整的数据进行处理。

 

朴素贝叶斯:基于概率论的原理,基本思路:对于给出的位置物体想要进行分类,就要求解在这个位物体出现的条件下各个类别的概率,概率最大的类就是未知物体所在的分类

 

Svm:(support vector machin)支持向量机,在训练中建立了一个超平面的分类模型,

 

knn:k最近邻算法,k-nearest neighbor,每个样本都可以用最接近它的k个邻居来代表,如果一个样本,它的k个最接近的邻居都属于分类a,则样本属于a

 

adaboost: boost-提升。主要思想是在训练中建立一个联合的分类模型,属于一个分类起的提升算法。

 

cart:(classification and regression tree),分类数和回归树,和c4.5一样,属于决策树的一种

 

k-means:把记录分成k类,每个类中都有一个中心点,计算目标点与各个中心点的距离,最近的即为所属的类

 

EM:最大期望算法,是求参数的最大似然估计的一种方法,原理,假设要评估参数a和b,在开始状态下二者都是未知的,并且知道了a的信息就可以得到b的信息,反过来知道b则能得到a,可以考虑赋a初值,计算b,通过b更新a,反复迭代直到收敛

 

apriori:一种挖掘关联规则(association rules)的算法,通过挖掘频繁项集(frequent item sets)来揭示物品之间的关联关系,广泛应用于商业挖掘和网络安全等领域。频繁项集是指经常出现在一起的物品的集合,关联规则暗示着两种物品之间可能存在很强的关系。

 

pagerank:网页权重计算,谷歌搜索引擎核心技术。

 

十大经典算法是整个机器学习领域的核心,后面的一些算法都是在这些基础上改进的。

 

衍生的一些分类技术:

基于规则的分类器

人工神经网络

随机森林

 

聚类算法:

基于原型的聚类

基于密度的聚类

基于图的聚类

 

 

很多数据挖掘任务都假定数据集是记录的汇集,每个记录包含固定的数据字段集。

 

数据有时也叫变量,特性,字段,特征,维

数据集就是数据对象的集合,三个特性:维度,稀疏性(例如一个对象的大部分属性上的值为0,非零项很少,其实这也算一个优点,只有非零值才需要存储和处理),分辨率。

一般包括:

记录数据:事物数据,分档-词矩阵,数据矩阵)

基于图的数据

有序数据(时序,序列数据,时间序列数据,空间数据,空间数据的一个重要特征是空间自相关性,即物理上靠近的对象趋向于在其他方面也相似)

 

任何一种算法对数据质量都有一定的要求,需要进行数据预处理:

包括

聚集:两个或者多个对象合并成一个对象

 

抽样:简单随机抽样:有放回抽样,无放回抽样,分层抽样:总体样本由不同类型的对象组成,每组差别较大,可以从每组抽取相同个数的对象。渐进抽样:从一个小样本开始,增加样本容量直至得到足够的样本

 

维规约:通过创建新属性,将一些旧属性和并在一起来降低数据集的维度。常见的维归约技术:pca(principal compons analysis)主成分分析,用于连续属性的线性代数技术

 

特征子集选择:通过选择旧属性的子集得到新属性,这种维规约方式成为特征选择,

属性——》搜索策略—〉属性子集—》评估—〉停止判断—》满足—〉选择的属性—》验证过程

不满足—搜索策略,开始循环

 

特征创建:

特征提取:高度针对具体领域

映射到新的空间:傅立叶变换,小波变换等

特征构造

 

离散化和二元化

二元化:0-1两个属性

离散化:主要应用于在分类或关联分析中使用到的属性上

 

变量变换:简单的数学公式,指数,对数函数

 

监督和非监督(supervied and unsupervised):使用类信息还是不使用类信息

 

数据之间相似度和相异度:

欧式距离,

余弦夹角:cos(x,y) = (x.y )/||x||||y||

二元数据的相似度:(00,01,10,11)简单匹配系数=值匹配的属性个数/属性个数=(11+00)/(11+00+10+01),jaccard系数(非0-0匹配的属性个数)= 匹配的个数/非00匹配的属性个数=11/(11+10+01)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值