
ML
文章平均质量分 85
浮汐
这个作者很懒,什么都没留下…
展开
-
常见的聚类算法
常见聚类算法K-meansMean-ShiftDBSCAN基于高斯混合模型(GMM)的期望最大化(EM)聚类凝聚层次聚类K-meansK-means的假设是:将某一些数据分为不同的类别,在相同的类别中数据之间的距离应该都很近,也就是说离得越近的数据应该越相似,再进一步说明,数据之间的相似度与它们之间的欧式距离成反比。K-mean中有两个关键的参数:一个是每个数据所属的类别;一个是每个聚类的中心{。这两个未知的参数是相互依存的:如果知道每个数据的所属类别,那么类别的所有数据的平均值就是这个类别的中心;如原创 2021-03-30 11:18:33 · 759 阅读 · 0 评论 -
LR和SVM的比较
LR和SVM的比较联系区别两者的适用性联系1、LR和SVM都可以处理分类问题,且一般都用于处理线性二分类问题(在改进的情况下可以处理多分类问题)2、两个方法都可以增加不同的正则化项,如l1、l2等等。所以在很多实验中,两种算法的结果是很接近的。区别1、LR是参数模型,SVM是非参数模型。2、从目标函数来看,区别在于逻辑回归采用的是logistical loss,SVM采用的是hinge loss.这两个损失函数的目的都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重。3、S原创 2021-03-30 00:59:48 · 461 阅读 · 0 评论 -
概率分布
概率分布是随机变量所有可能结果及其相应概率的列表。概率分布的目的:反向推演出某一个事态(随机变量)发生的概率,为决策提供依据,掌控事态变化的关键。下图是多种概率分布的联系其中共轭(conjugate)表示的是互为共轭的概率分布;Multi-Class 表示随机变量多于 2 个;N Times 表示我们还会考虑先验分布 P(X)。共轭的意思共轭分布(conjugate distribution)的概率中一共涉及到三个分布:先验、似然和后验,如果由先验分布和似然分布所确定的后验分布与该先验分布属原创 2021-03-30 00:31:45 · 1350 阅读 · 0 评论 -
因子分解机 FM
目录背景FM因子分解机FM模型的核心作用可以概括为三个与其他模型对比FFM(场感知分解机,Field-aware Factorization Machine)背景DeepFMFM/FFM与其它模型对比背景在人工方式的特征工程,通常有两个问题:1、特征爆炸2、大量重要的特征组合都隐藏在数据中,无法被专家识别和设计针对上述两个问题,广度模型和深度模型提供了不同的解决思路。1、广度模型包括FM/FFM等大规模低秩(Low-Rank)模型,FM/FFM通过对特征的低秩展开,为每个特征构建隐式向量,并通过原创 2021-03-30 00:14:25 · 429 阅读 · 0 评论 -
统计学习方法 - 朴素贝叶斯
引入问题:一机器在良好状态生产合格产品几率是 90%,在故障状态生产合格产品几率是 30%,机器良好的概率是 75%。若一日第一件产品是合格品,那么此日机器良好的概率是多少。贝叶斯模型生成模型与判别模型判别模型,即要判断这个东西到底是哪一类,也就是要求y,那就用给定的x去预测。生成模型,是要生成一个模型,那就是谁根据什么生成了模型,谁就是类别y,根据的内容就是x以上述例子,判断一个生产出来的零件是模块手还是模块脚,那么就是拿生产出零件去对照过去生产出的零件模块。生成模型是给了一个零件手,研究手的原创 2020-09-22 12:19:56 · 274 阅读 · 0 评论 -
joblib 对 Pandas 的并行处理
目标:如果需要对一个很大的数据集进行操作,而基于一列数据生成新的一列数据可能都需要耗费很长时间。于是可以使用 joblib 进行并行处理。实现方法:1、无并行:import pandas as pddef double_fun(data): return pow(data,2)data['double'] = data['x'].apply(double_fun)2、并行:...原创 2020-01-11 12:32:21 · 1593 阅读 · 0 评论 -
LGB、XGB、CBT参数
LGB:1、lgb.Dataset()train_data = lgb.Dataset(data, label=label, feature_name=['c1', 'c2', 'c3'], categorical_feature=['c3'], weight=w )LightGBM 可以直接使用 categorical features(分类特征)作为 input(输入). 它不需要被转...原创 2019-10-11 22:15:36 · 6249 阅读 · 0 评论 -
数据归一化处理和常用标签编码,独热编码
使用机器学习时,会存在不同的特征类型:连续型特征和离散型特征拿到获取的原始特征,必须对每一特征分别进行归一化,比如,特征A的取值范围是[-1000,1000],特征B的取值范围是[-1,1].如果使用logistic回归,w1x1+w2x2,因为x1的取值太大了,所以x2基本起不了作用。所以,必须进行特征的归一化,每个特征都单独进行归一化。对于连续性特征:Rescale bounded co...原创 2019-09-07 23:18:46 · 2010 阅读 · 0 评论 -
常用ML方法及参数
1.SVMSklearn.svm.SVC参数设置Sklearn.svm.SVC(C=1.0, kernel=’rbf’, degree=3, gamma=’auto’, coef0=0.0, shrinking=True, probability=False,tol=0.001, cache_size=200, class_weight=None, verbose=False, max_ite...原创 2019-08-31 21:37:40 · 1848 阅读 · 0 评论 -
预处理数据的方法总结(使用sklearn-preprocessing)
https://blog.csdn.net/weixin_40807247/article/details/82793220转载 2019-08-31 19:59:01 · 270 阅读 · 0 评论 -
Titanic数据分析流程
1.提出问题:符合哪些特征的人在Titanic遇难时获救的可能性更高2.理解数据2.1 导入数据import numpy as npimport pandas as pdtrain = pd.read_csv('data/Train.csv')test = pd.read_csv('data/Test.csv')print('训练数据集:',train.shape)print('...原创 2019-08-24 19:44:11 · 1009 阅读 · 0 评论