- 博客(16)
- 收藏
- 关注
原创 金融风控项目基础知识
金融风控项目意义判断是否可以贷款给该用户流程数据采集用户填写第三方收集反欺诈判断该用户是否存在违包装行为规则引擎制定评判用户信用积分的特征风控模型根据客户群建立不同模型,制作评分卡特征及常见处理方式手机号前缀归属地是否为虚拟账号流量卡or通话卡通讯录命名是否存在规律亲密称呼生日年龄星座生肖性别同一批次注册的账号是否存在性别失衡密码同一批次注册的账号密码是否相同身份证年龄性别
2023-06-25 17:08:55
179
原创 模型保存和调用的两种方式
模型的保存和调用Pickle导包import pickle创建和训练模型[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-M3C9nWgF-1684802856365)(data/user-data/509837/images/283d4155c0b58cc84dc3a8163479ea25.png)]保存模型pickle.dump(bst, open(“xgboostonboston.dat”,“wb”))查看保存路径import sy
2023-05-23 08:49:16
197
原创 利用xgboost库建立模型
xgboost库参数param以字典的形式设定参数‘silent’t/f,是否打印训练流程‘objective’损失函数,选项同sklearn‘eta’学习率max_depth默认6, 树模型的最大深度,用于防止过拟合,一般与gamma选一个来调整gammaalphalambdacolsample_bytree生成树,抽取的特征比例,默认1colsample_bylevel每次生成树的一层时随机抽样特征的比例,默认1c
2023-05-23 08:47:13
235
原创 XGboost
XGboost原理集成算法,每次迭代都在前面所建树木的基础上,新建一棵树(赋予前一次迭代预估错误的样本更多的权重,使其能够有更大的概率被取到学习)。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-weeZTE4S-1684802564754)(data/user-data/509837/images/916371d18ed7f2bd3f538a42a20614a3.png)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TW39K
2023-05-23 08:44:34
128
原创 概率类模型评估指标
模型评估(概率类)布里尔分数brier_score_loss原理[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UKIj5LhG-1684801449607)(data/user-data/509837/images/555bad2bc35e6fa2fadb0497423433d6.png)]计算预测值(0,1)之间】和真实值(0或1)之间的平方差,差值越小,表示模型评估效果越好实现导入模块from sklearn.metrics import br
2023-05-23 08:25:53
172
原创 利用sklearn自带模块绘制学习曲线
利用sklearn自带模块learning_curve绘制学习曲线,查看随着训练数据量的增加模型分数的变换
2023-05-12 11:29:12
245
原创 利用线性模型解决非线性问题的两种方法
解决非线性问题线性模型 + 分箱原理:将数据分为n段,对每一段进行分段线性拟合,拟合的结果是线性分段函数KBinsDiscretizer参数n_bins分几箱encode‘onehot’独热编码,将数据的分箱转化为1——n列,特征为(0,1),属于哪一列在相应的列上编码为1接口bin_edges_返回分箱的上下边界实现导入模块from sklearn.preprocessing import KBinsDiscretizer
2023-05-10 14:31:14
400
原创 Linear Regression、岭回归、Losso
线性回归Linear Regression原理通过迭代更新权重w来获得最能够拟合y值的w[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-08sQ8x2Q-1683530912759)(data/user-data/509837/images/b1e4546a323516cc208dc47da5e452a5.png)]w的求解主要下式进行[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-M7CSRJ9N-16835309127
2023-05-08 15:29:53
129
原创 svm评估参数
评估方法混淆矩阵confusion_matrixconfusion_matrix(真实值,预测值,标签)[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FfrZTDmQ-1683357379997)(data/user-data/509837/images/58fa5adce29d6a22d0324a73bf3b0c39.png)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fNQPuuET-1683357379999)(data/
2023-05-06 15:16:36
502
原创 案例(作业)
模型参数调整kernel选择遍历所有的kernel以recall为目标调整class_weight‘balanced’{1:10},表述类别1占10%以accuracy为目标查看混淆矩阵特异度和recall,判断在多数类还是少数类上具有进步空间从而对其进行调整class_weiht = {1:1+i}i为0.01到0.05之间的数以auc面积为目标即追求recall和accuracy的平衡对c值进行调整[外链图片转存失败,源站可能有防盗
2023-05-06 15:14:41
58
原创 SVC参数调整
参数kernel可选参数linear擅长处理线性数据(利用直线进行分类rbf擅长处理偏非线性数据,但其在线性数据也有不错的表现poly擅长处理偏线性数据(利用曲线进行分类)sigmoid擅长处理非线性数据,用于多分类选择的原则由于许多高维度的数据它并不能可视化,所以无法通过数据的形状对分类器进行选取首先查看标签,利用遍历分类器的办法选择最佳的分类器degreepoly的特有参数,当处理线性问题的时,degree = 1,默认为3
2023-04-28 09:57:04
1101
原创 SVM上(交作业)
SVMSVC原理利用过支持向量的直线创造超平面,平行于超平面的直线(或平面)且与超平面的相对距离为1的直线即为决策边界,利用决策平面将不同类别区分开当处理多非线性二分类问题时,可以将数据进行升维,多添加一个维度,使得无法被直线切分开的数据能够被平面分开数学原理—基于二维平面上的二分类问题分类原理[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-osZrv8bA-1682490936207)(data/user-data/509837/images/aa
2023-04-26 14:36:38
66
原创 kmeans聚类算法
Kmeans原理在一堆离散型数据中随机初始化n_clusters个质心将样本点分配到距离其最近的质心生成n_clusters个簇计算新的质心(所有坐标轴的平均值)重复第二第三步,直到质心的坐标点不再改变优势需要的计算时间较长,但在聚类算法中,kmeans是最快的算法应用目标分类对不同的样本进行分类,最后依据分类对不同的簇采取不同的策略以实现目标降维对数据进行降维,原理:寻找样本的质心,以质心的位置代替其原来位置从而是实现降维,本质上减少了样本量参数
2023-04-25 14:19:00
173
1
原创 logistic评分卡制作score计算详解
假设对数几率为1/60时设定的特定分数为600,PDO=20,那么对数几率为1/30时的分数就是620。logistic是利用woe进行建模的,即woe值为x,w就是x对应的参数值,log(odds) = wx。score_age = -B*log(odds), 以此得出age不同箱体对应的分值。观察上式可以得出w0不受x(特征)影响,因此可以得出基本分数。2.)指定的违约概率翻倍的分数(PDO)其中x为特征,w为逻辑回归返回的特征参数。1) 某个特定的违约概率下的预期分值。返回的是age各个箱体的分数。
2023-04-23 22:06:51
1409
1
原创 logistic回归
logistic回归原理虽然其名称为回归,但实际上用于分类的模型寻找最佳的参数ceita能够,使得z能够拟合x和y之间的关系[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pFrkh9Ax-1682062510810)(data/user-data/509837/images/053027404c86dd981f48cc66739470b4.png)]将得到的z放入到sigmoid函数中,将最后的结果放入到0,1内,接近于0则被分类为0,接近于1则被
2023-04-21 15:36:42
114
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人