数据挖掘基础知识整理

Luna's卜卜星

于 2019-12-19 16:14:17 发布

阅读量1.4k

点赞数 4

文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013363120/article/details/103616430

版权

数据挖掘是在大型数据存储库中，自动地发现有用信息的过程。

利用了如下领域的思想：

1）来自统计学的抽样，估计和假设检验

2）人工智能，模式识别和机器学习的搜索算法，建模技术和学习理论

3）最优化，进化计算，信息论，信号处理，可视化和信息检索

4）数据库技术，并行计算，分布式计算

涉及到的数学原理：概率论与数理统计，线性代数，图论，最优化方法

主要为了解决两大问题：

1）预测任务：根据其他属性的值，预测特定属性的值

2）描述任务导出概括数据中潜在联系的模式（相关，趋势，聚类，轨迹和异常），通常，描述性数据挖掘任务是探查性的，需要后处理技术验证和解释结果。

主要分为四大任务：

1，预测建模 a，分类：用于预测离散的目标变量

B，回归：用于预测连续的目标变量

2，关联分析：用来发现描述数据中强关联特征的模式，，目标是以有效的方式提取最有趣的模式。如购物篮分析

3，聚类分析：分析紧密相关的观测值组群，使得与属于不同簇的观测值相比，同一簇的观测值之间尽可能类似。顾客分组

4，异常检测：识别特征明显不同于其他数据的观测值，统称为异常点（anomaly），离群点（outlier）

十大经典算法：

分类算法：c4.5（决策树），朴素贝叶斯（naive bayes），svm，knn，adaboost，cart

聚类算法：k-means（k-均值聚类），EM

关联分析：apriori

连接分析：pagerank

C4.5：决策树算法，在决策树构造过程中进行了剪枝，并可以处理连续的算法，也能对不完整的数据进行处理。

朴素贝叶斯：基于概率论的原理，基本思路：对于给出的位置物体想要进行分类，就要求解在这个位物体出现的条件下各个类别的概率，概率最大的类就是未知物体所在的分类

Svm：（support vector machin）支持向量机，在训练中建立了一个超平面的分类模型，

knn：k最近邻算法，k-nearest neighbor，每个样本都可以用最接近它的k个邻居来代表，如果一个样本，它的k个最接近的邻居都属于分类a，则样本属于a

adaboost： boost-提升。主要思想是在训练中建立一个联合的分类模型，属于一个分类起的提升算法。

cart：（classification and regression tree），分类数和回归树，和c4.5一样，属于决策树的一种

k-means：把记录分成k类，每个类中都有一个中心点，计算目标点与各个中心点的距离，最近的即为所属的类

EM：最大期望算法，是求参数的最大似然估计的一种方法，原理，假设要评估参数a和b，在开始状态下二者都是未知的，并且知道了a的信息就可以得到b的信息，反过来知道b则能得到a，可以考虑赋a初值，计算b，通过b更新a，反复迭代直到收敛

apriori：一种挖掘关联规则（association rules）的算法，通过挖掘频繁项集（frequent item sets）来揭示物品之间的关联关系，广泛应用于商业挖掘和网络安全等领域。频繁项集是指经常出现在一起的物品的集合，关联规则暗示着两种物品之间可能存在很强的关系。

pagerank：网页权重计算，谷歌搜索引擎核心技术。

十大经典算法是整个机器学习领域的核心，后面的一些算法都是在这些基础上改进的。

衍生的一些分类技术：

基于规则的分类器

人工神经网络

随机森林

聚类算法：

基于原型的聚类

基于密度的聚类

基于图的聚类

很多数据挖掘任务都假定数据集是记录的汇集，每个记录包含固定的数据字段集。

数据有时也叫变量，特性，字段，特征，维

数据集就是数据对象的集合，三个特性：维度，稀疏性（例如一个对象的大部分属性上的值为0，非零项很少，其实这也算一个优点，只有非零值才需要存储和处理），分辨率。

一般包括：

记录数据：事物数据，分档-词矩阵，数据矩阵）

基于图的数据

有序数据（时序，序列数据，时间序列数据，空间数据，空间数据的一个重要特征是空间自相关性，即物理上靠近的对象趋向于在其他方面也相似）

任何一种算法对数据质量都有一定的要求，需要进行数据预处理：

包括

聚集：两个或者多个对象合并成一个对象

抽样：简单随机抽样：有放回抽样，无放回抽样，分层抽样：总体样本由不同类型的对象组成，每组差别较大，可以从每组抽取相同个数的对象。渐进抽样：从一个小样本开始，增加样本容量直至得到足够的样本

维规约：通过创建新属性，将一些旧属性和并在一起来降低数据集的维度。常见的维归约技术：pca（principal compons analysis）主成分分析，用于连续属性的线性代数技术

特征子集选择：通过选择旧属性的子集得到新属性，这种维规约方式成为特征选择，

属性——》搜索策略—〉属性子集—》评估—〉停止判断—》满足—〉选择的属性—》验证过程

不满足—搜索策略，开始循环

特征创建：

特征提取：高度针对具体领域

映射到新的空间：傅立叶变换，小波变换等

特征构造

离散化和二元化

二元化：0-1两个属性

离散化：主要应用于在分类或关联分析中使用到的属性上

变量变换：简单的数学公式，指数，对数函数

监督和非监督（supervied and unsupervised）：使用类信息还是不使用类信息

数据之间相似度和相异度：

欧式距离，

余弦夹角：cos(x,y) = (x.y )/||x||||y||

二元数据的相似度：（00，01，10，11）简单匹配系数=值匹配的属性个数/属性个数=（11+00）/（11+00+10+01），jaccard系数（非0-0匹配的属性个数）= 匹配的个数/非00匹配的属性个数=11/（11+10+01）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。