- 博客(46)
- 收藏
- 关注
原创 【特征选择】特征选择指标和方法小汇总
1、对特征选择的指标提供计算方法和代码,包括有:相关系数、互信息、KS、IV、L1正则化、单特征模型评分、特征重要度或系数大小、boruta特征评价、递归特征消除排序。2、提供特征选择的方法和代码:前向搜索法、遗传算法启发式搜索法,最佳特征检测法,# 本次项目使用的数据为以下数据, from sklearn . datasets import load_breast_cancer。
2022-10-04 09:48:30
2531
原创 【matplotlib】对matplotlib加工封装的折线图和柱状图
最近使用matplotlib中折线图和柱状图比较多,但是每次都要添加数据标签和坐标轴等等很麻烦,所以加工封装了一下matplotlib,方便调用。
2022-10-02 16:06:43
517
原创 【可视化】matplotlib_颜色_渐变_色块
本文主要介绍matplotlib中单一颜色的使用、渐变色和色块的定义和使用,渐变色块和线条等。
2022-09-22 12:44:19
5579
原创 爬虫小汇总
Table of Contents1 request 使用get爬取2 request 使用post爬取2.1 Data形势传递2.2 payloadData 形势传递3 selenium4 Xpath 网页解析request 使用get爬取get函数适合静态网页get一般传入三个参数url:网页的URLheaders:表头,包含cookies等信息timeout
2021-05-09 10:55:13
293
原创 【pandas】多个sheet的读取和导出
第一次碰到多个sheet的批量处理,记录一下读取和导出import numpy as np import pandas as pd# 读取同一个文件中多个sheetdf = pd.read_excel('2020年往来明细.xlsx',sheet_name=None)df['供应商清单']['code'] = df['供应商清单']['code'].astype('float')df_m = df['供应商清单'][['code','vendor']]df_m.rename(columns
2021-04-25 22:28:13
991
原创 【特征选择】使用遗传算法进行特征选择
遗传算法寻优cross_val_score(lgb,train_X,train_y,scoring='f1',cv=sKfold).mean() # 使用全部特征进行训练0.8508040614085857train_1 = train.drop('label',1)cols = train_1.columnstrain_1.head() 经营期限起 是否广告经营 是否城镇 从业人数 注册资本
2020-11-02 23:49:44
4874
4
原创 【category_encoders】分类特征编码方式
Table of Contents1 OrdinalEncoder 序列编码2 OneHotEncoder 独热编码3 TargetEncoder 目标编码4 Binary Encoder二进制编码5 BaseNEncoder 贝叶斯编码6 LeaveOneOutEncoder 留一法7 HashingEncoder 哈希编码8
2020-10-29 19:30:38
2307
原创 【requests:动态网页爬取】慕课评价
import requestsimport numpy as npimport pandas as pdimport warningswarnings.filterwarnings("ignore")pd.set_option("display.max_columns", None)# 定义表头、url和post的data参数header = {'cookie': 'EDUWEBDEVICE=bb5489f443964ee181e9a14c09814664; __yadk_uid=LqHB.
2020-10-27 20:29:44
875
1
原创 【缺失值填补】面板数据的缺失值补全方法
对于两端缺失数据使用前后填充,对于中间数据使用线性插值(可替换)import numpy as np import pandas as pd from scipy.interpolate import interp1ddf = pd.read_excel('data.xlsx')df['城市'].fillna(method = 'ffill',inplace = True)df.drop('city',1,inplace=True)df[df['城市'] == '晋中市']
2020-10-21 21:52:00
16839
2
原创 【OS,zipfile,shutil】批量解压和文件处理
import zipfileimport os import shutilzipfile 解压文件zfile=zipfile.ZipFile("taxiGps20190531.zip","r") # 创建zipfile文档 file = zfile.extractall() # 提取zfile 中所有文件os和shutil获取当前目录获取当面目录下的所有文件和文件夹名称新建、删除文件夹移动、复制、删除文件 path = os.getcwd() # 用于返回当前工作目录。
2020-10-20 22:10:35
254
2
原创 【多线程和多进程】使用 threading 和 multiprocessing 实现
Table of Contents1 多线程1.1 新添加一个线程1.2 join1.3 Queue1.4 GIL (全局解释锁)2 多进程2.1 多进程的创建和queue2.2 多进程,多线程比较2.3 pool 使用对于任务量较大的程序,可以考虑多线程和多进程来节省时间简单的看,多进程更适于纯计算程序,
2020-10-14 16:09:33
224
原创 【pandas】计算最大连续间隔时间
import pandas as pd 问题说明数据中样本年份不连续,所以想办法知道每个样本的最大连续年份,比如说下面的df中A是3年,B是5年df = pd.DataFrame({'id': 'A', 'year': [2000, 2001, 2003, 2005, 2006, 2007]}).append( pd.DataFrame({'id': 'B', 'year': [2001, 2003, 2004, 2005, 2006, 2007, 2009]}))df
2020-10-05 13:26:39
1279
1
原创 《模型融合》投票法、stacking和blending
import numpy as np import pandas as pdimport matplotlib.pyplot as plt import seaborn as sns%matplotlib inlineplt.rcParams["font.sans-serif"] = ["FangSong"] plt.rcParams["axes.unicode_minus"] = False import warningswarnings.filterwarnings("ignore")
2020-09-27 22:53:38
730
原创 【违约预测】TASK 04
import numpy as np import pandas as pdimport matplotlib.pyplot as plt import seaborn as sns%matplotlib inlineplt.rcParams["font.sans-serif"] = ["FangSong"] plt.rcParams["axes.unicode_minus"] = False import warningswarnings.filterwarnings("ignore")
2020-09-24 22:48:50
156
原创 【五分钟精通R语言】R数据类型、判断、循环
R的基本运算a = c(1,2,3,4)b = c(3,4,5,6)print(a + b)print(a ^ b) # a ** b print(a %% b) # 整除取余print(a %/% b) # 整除v <- a # 向左赋值b -> w # 向右赋值 ls() # 列出所有变量print( 1 %in% v) # 相当于 inprint(a %*% b) # 相当于 a*a.Ts = 1:10[1] 4 6 8 10[1]
2020-09-22 16:48:02
2089
1
原创 【分箱操作】决策树、卡方、分位数、等距和映射分箱操作代码实现
from sklearn.tree import DecisionTreeClassifierimport pandas as pdimport numpy as npdata = pd.read_csv('train.csv',index_col = 'id')data.head()决策树分箱def optimal_binning_boundary(x: pd.Series, y: pd.Series) -> list: ''' 利用决策树获得最优分箱的边界
2020-09-21 23:38:24
2555
1
原创 【可视化】matplotlib.animation_动图
import numpy as npimport pandas as pd from matplotlib.animation import FuncAnimationfig, ax = plt.subplots() # 创建图表和axesdef update(i):‘’’函数为更新axes信息i 可以理解为迭代词数返回一个axes'''return tableani = FuncAnimation(fig=fig, # 更新的画布func=update, # 更新函数fr
2020-09-15 16:33:44
1154
原创 【贷款违约预测】task1and2 理解和数据探索
import numpy as np # 导入numpy库import pandas as pd # 导入pandas库import matplotlib as mpl # 导入matplotlib库import matplotlib.pyplot as plt import seaborn as sns # 导入seaborn库%matplotlib inlineplt.rcParams['font.sans-
2020-09-15 08:40:16
929
原创 【地图可视化 】 folium
Table of Contents1 MAP create2 Heatmap3 CircleMarker4 folium.CircleMarker 标记5 folium.PolyLine(6 map save# generated dataimport numpy as npdata = ( np.random.normal(size=(100, 3)) *
2020-09-13 09:31:52
1891
2
原创 【DCIC】task1
import pandas as pd import numpy as npimport seaborn as snsimport matplotlib.pyplot as pltdf = pd.read_csv('taxiGps20200618.csv')df RUNNING_STATUS GPS_SPEED DRIVING_DIRECTION GPS_DATE LONGITUDE
2020-09-11 17:44:23
252
原创 SMOTE抽样 数据不平衡的问题
from imblearn.over_sampling import SMOTEimport pandas as pd C:\ProgramData\Anaconda3\lib\importlib\_bootstrap.py:219: RuntimeWarning: numpy.ufunc size changed, may indicate binary incompatibility. Expected 192 from C header, got 216 from PyObject ret
2020-08-29 10:05:20
678
原创 BP神经网络和Stacking
from keras.models import Sequential # 按顺序建立的神经网络模型from keras.layers import Dense # dense 全连接层 import numpy as np import matplotlib.pyplot as plt %matplotlib inlineimport tensorflow as tfUsing TensorFlow backend.import pandas as pd from sklearn.
2020-08-29 08:18:22
813
1
原创 【资金流入流出预测】baseline 周期因子和LSTM
分别尝试了周期因子和LSTM两种方法周期因子效果较好分数为135,但是LSTM分数仅为93(可能也是没有进行参数调价的后果,还有就是初次应用。。。)import pandas as pdimport numpy as np周期因子1、取14年3月至9月的数据2、按翌日进行加总然后除总平均值等到翌日因子 3、统计每月中各天为各翌日的频率,用频率乘上翌日因子,除上各天出现的频率得到月份中每天的周期因子4、对总数据按天取平均值,然后除以每天的周期因子得到base5、求出9月份每天所在的翌日,匹
2020-08-22 11:17:15
784
原创 【资金流入流出预测】baseline LSTM
import pandas as pd from sklearn.preprocessing import MinMaxScalerimport numpy as npdata = pd.read_csv('user_balance_table.csv')data_1 = data.loc[:,['user_id','report_date','total_purchase_amt','total_redeem_amt']]data_1 = data_1.groupby(by='report_d
2020-08-19 19:58:08
841
原创 【资金流入流出预测】 数据探索
import pandas as pdimport numpy as npimport warnings import datetimeimport seaborn as snsimport matplotlib.pyplot as pltwarnings.filterwarnings('ignore')%matplotlib inlineplt.rcParams['font.sans-serif'] = ['KaiTi'] # 指定默认字体plt.rcParams['axes.unic
2020-08-19 19:53:05
1091
原创 tensorflow—— 基础中的基础
import tensorflow as tf 会话打开m_1 = tf.constant([[3,2]])m_2 = tf.constant([[3], [2]])pr = tf.matmul(m_1,m_2)with tf.Session() as s_1: result = s_1.run(pr) print(result)[[13]]第二种打开方式s_2 = tf.Session()result_2 = s_2.run(pr
2020-08-19 09:14:58
115
原创 【模型调参】lgb的参数调节
Table of Contents1 数据导入2 模型挑选3 模型调参3.1 设立初始参数3.2 调解n_estimators3.3 max_depth/num_leaves3.4 min_child_samples/min_child_weight3.5 subsample/colsample_bytree(0.6,1)3.6&n
2020-08-13 21:50:16
3363
原创 【特征选择】特征选择指标和方法小汇总
1、对部分特征选择的指标提供计算方法和代码,包括有:相关系数、互信息、KS、IV、L1正则化、单特征模型评分、特征重要度或系数大小、boruta特征评价、递归特征消除排序。2、提供特征选择的方法和代码:前向搜索法、遗传算法启发式搜索法,最佳特征检测法,# 本次项目使用的数据为以下数据, from sklearn . datasets import load_breast_cancer。
2020-08-12 19:04:11
5244
1
原创 文件与文件系统
打开文件open(file, mode='r', buffering=None, encoding=None, errors=None, newline=None, closefd=True) Open file and return a stream. Raise OSError upon failure.file: 必需,文件路径(相对或者绝对路径)。mode: 可选,文件打开模式buffering: 设置缓冲encoding: 一般使用utf8errors: 报错级别newline: 区
2020-08-08 21:50:43
238
原创 时间模块
import datetimedt = datetime.datetime(year=2020, month=6, day=25, hour=11, minute=23, second=59)print(dt) # 2020-06-25 11:23:59print(dt.timestamp()) # 1593055439.0dt = datetime.datetime.fromtimestamp(1593055439.0)print(dt) # 2020-06-25 11:23:59p
2020-08-05 22:50:26
181
原创 类,对象和魔法方法
Table of Contents1 类和对象1.1 class的属性和方法1.2 init1.3 iter 和 next1.4 继承1.5 多态1.6 练习2 魔法方法2.1 __init__2.2 __del__2.3 doc ,module,calss2.4&n
2020-08-01 21:56:10
970
原创 函数和lambda
Table of Contents1 函数形参,实参和描述2 函数参数2.1 位置参数 (positional argument) 默认参数 (default argument)2.2 可变参数 (variable argument) 关键字参数 (keyword argument) 命名关键字参数 (name keyword)2.3 参数组合3 变量作用域4 &n
2020-08-01 16:45:42
112
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人