数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。
利用了如下领域的思想:
1)来自统计学的抽样,估计和假设检验
2)人工智能,模式识别和机器学习的搜索算法,建模技术和学习理论
3)最优化,进化计算,信息论,信号处理,可视化和信息检索
4)数据库技术,并行计算,分布式计算
涉及到的数学原理:概率论与数理统计,线性代数,图论,最优化方法
主要为了解决两大问题:
1)预测任务:根据其他属性的值,预测特定属性的值
2)描述任务 导出概括数据中潜在联系的模式(相关,趋势,聚类,轨迹和异常),通常,描述性数据挖掘任务是探查性的,需要后处理技术验证和解释结果。
主要分为四大任务:
1,预测建模 a,分类:用于预测离散的目标变量
B,回归:用于预测连续的目标变量
2,关联分析:用来发现描述数据中强关联特征的模式,,目标是以有效的方式提取最有趣的模式。如购物篮分析
3,聚类分析:分析紧密相关的观测值组群,使得与属于不同簇的观测值相比,同一簇的观测值之间尽可能类似。顾客分组
4,异常检测:识别特征明显不同于其他数据的观测值,统称为异常点(anomaly),离群点(outlier)
十大经典算法:
分类算法:c4.5(决策树),朴素贝叶斯(naive bayes),svm,knn,adaboost,cart
聚类算法:k-means(k-均值聚类),EM
关联分析:apriori
连接分析:pagerank
C4.5:决策树算法,在决策树构造过程中进行了剪枝,并可以处理连续的算法,也能对不完整的数据进行处理。
朴素贝叶斯:基于概率论的原理,基本思路:对于给出的位置物体想要进行分类,就要求解在这个位物体出现的条件下各个类别的概率,概率最大的类就是未知物体所在的分类
Svm:(support vector machin)支持向量机,在训练中建立了一个超平面的分类模型,
knn:k最近邻算法,k-nearest neighbor,每个样本都可以用最接近它的k个邻居来代表,如果一个样本,它的k个最接近的邻居都属于分类a,则样本属于a
adaboost: boost-提升。主要思想是在训练中建立一个联合的分类模型,属于一个分类起的提升算法。
cart:(classification and regression tree),分类数和回归树,和c4.5一样,属于决策树的一种
k-means:把记录分成k类,每个类中都有一个中心点,计算目标点与各个中心点的距离,最近的即为所属的类
EM:最大期望算法,是求参数的最大似然估计的一种方法,原理,假设要评估参数a和b,在开始状态下二者都是未知的,并且知道了a的信息就可以得到b的信息,反过来知道b则能得到a,可以考虑赋a初值,计算b,通过b更新a,反复迭代直到收敛
apriori:一种挖掘关联规则(association rules)的算法,通过挖掘频繁项集(frequent item sets)来揭示物品之间的关联关系,广泛应用于商业挖掘和网络安全等领域。频繁项集是指经常出现在一起的物品的集合,关联规则暗示着两种物品之间可能存在很强的关系。
pagerank:网页权重计算,谷歌搜索引擎核心技术。
十大经典算法是整个机器学习领域的核心,后面的一些算法都是在这些基础上改进的。
衍生的一些分类技术:
基于规则的分类器
人工神经网络
随机森林
聚类算法:
基于原型的聚类
基于密度的聚类
基于图的聚类
很多数据挖掘任务都假定数据集是记录的汇集,每个记录包含固定的数据字段集。
数据有时也叫变量,特性,字段,特征,维
数据集就是数据对象的集合,三个特性:维度,稀疏性(例如一个对象的大部分属性上的值为0,非零项很少,其实这也算一个优点,只有非零值才需要存储和处理),分辨率。
一般包括:
记录数据:事物数据,分档-词矩阵,数据矩阵)
基于图的数据
有序数据(时序,序列数据,时间序列数据,空间数据,空间数据的一个重要特征是空间自相关性,即物理上靠近的对象趋向于在其他方面也相似)
任何一种算法对数据质量都有一定的要求,需要进行数据预处理:
包括
聚集:两个或者多个对象合并成一个对象
抽样:简单随机抽样:有放回抽样,无放回抽样,分层抽样:总体样本由不同类型的对象组成,每组差别较大,可以从每组抽取相同个数的对象。渐进抽样:从一个小样本开始,增加样本容量直至得到足够的样本
维规约:通过创建新属性,将一些旧属性和并在一起来降低数据集的维度。常见的维归约技术:pca(principal compons analysis)主成分分析,用于连续属性的线性代数技术
特征子集选择:通过选择旧属性的子集得到新属性,这种维规约方式成为特征选择,
属性——》搜索策略—〉属性子集—》评估—〉停止判断—》满足—〉选择的属性—》验证过程
不满足—搜索策略,开始循环
特征创建:
特征提取:高度针对具体领域
映射到新的空间:傅立叶变换,小波变换等
特征构造
离散化和二元化
二元化:0-1两个属性
离散化:主要应用于在分类或关联分析中使用到的属性上
变量变换:简单的数学公式,指数,对数函数
监督和非监督(supervied and unsupervised):使用类信息还是不使用类信息
数据之间相似度和相异度:
欧式距离,
余弦夹角:cos(x,y) = (x.y )/||x||||y||
二元数据的相似度:(00,01,10,11)简单匹配系数=值匹配的属性个数/属性个数=(11+00)/(11+00+10+01),jaccard系数(非0-0匹配的属性个数)= 匹配的个数/非00匹配的属性个数=11/(11+10+01)