- 博客(29)
- 资源 (1)
- 收藏
- 关注
原创 dataframe中分行
dataframe中对某一个cell进行分行在工作中遇到类似下面的数据:index names0 延\t诞\t蜒1 奄\t掩\t淹\t俺2 彦\t颜\t谚3 央\t秧\t映\t殃4 扬\t杨\t汤\t场\t肠任务:需要对每个cell进行分行,即每个字是1行。处理思路:通过pandas读取为dataframe,通过data...
2019-07-23 10:11:39
1622
原创 创建conda虚拟环境报错
RemoveError: 'requests' is a dependency of conda and cannot be removed from conda's operating environment已经安装有conda环境,在希望创建新的虚拟环境、克隆环境、安装包等操作时候,出现如标题的报错。原因:'requests’包是用pip 安装的或者采用python setup.py in...
2019-06-12 16:46:57
6971
原创 ubuntu服务器下载百度云盘内容
一、方法1(推荐)-aria2多线程1. 本地电脑(windows)chrome上面安装插件BaiduExporter2. 服务器上面安装aria23. 在本地电脑chrome上面打开百度云盘文件,看到出现有[导出下载]-选择【文本导出】,复制得到的链接4. 在服务器上面运行复制的内容- 关于插件BaiduExporter安装(直接拉入crx不成功)https://github.c...
2019-02-14 11:10:33
4774
原创 词云python
词云在开始接触NLP阶段,初试了文字生成的模型,从而在字符级、词级的条件下建立示例的模型。回到最基本的词的内容,通过可视化方式观察词频的情况,对前期的分析也许有些帮助。这类型的词云图,有时候作为PPT汇报的点缀也提升解释性。在此,简单记录绘制的过程,也方便后续回想。import osimport numpy as npnp.random.seed(123)os.environ['CUD...
2019-01-30 10:20:07
2501
原创 AutoEncoder自编码学习
Table of Contents一、autoencoder demo练习11. autoencoder函数2. 数据处理-2828变为32323. 图关系网络创建4. 数据读入与训练二、autoencoder 练习2网络搭建-encoder和decoder单独拆分数据准备训练模型应用结果关于由拆分的decoder对新数据预测的结果是否与全网络训练得到的autoencoder预测结果是否相同??...
2019-01-10 18:14:57
1438
原创 stacking的实现-mxtend库
Table of Contents关于Stacked的实现库-mlxtend的学习StackingClassifier例子1 简单实现stacking例子2 sub-model的输出是probabilities例子3 结合GridSearch列子4-针对不同整体选用不同模型StackingCVClassifier例子1 简单stackingCV 分类例子2 sub-model的输出是prob...
2019-01-10 17:55:17
2603
原创 集成方法-Stack理解
集成方法-Stack理解什么是STACK?原理?什么是STACK?它是机器学习常用集成方法三大类别之一,在各大kaggle表现优异,广受欢迎。基本思想是:不同模型发挥本身的优势,在他们学习的基础之上,进行融合。原理?数据集划分为train(train_a+train_b)=[train_a+train_b, label_a+label_b]和test=[test, test_label]...
2019-01-08 17:33:31
886
2
翻译 Keras中实现神经网络的Stacking方法
Table of Contents1. stack模型的一般集成方式2. 分类任务的定义3. 神经网络-多层感知器4. 训练并保存模型创建MLP模型并训练创建存放模型的文件夹创建MLP子模型并保存5. 独立Stacking Model载入子模型(sub-model)训练元模型(meta-learner)举例: 元模型=llogistic为例6. 集成的stacking Model-神经网络嵌入神...
2019-01-08 17:30:42
5459
3
原创 集成方法stack模型在样例数据集的试验
Table of Contents1. 数据准备2. stack类方法3. 基模型4. stack模型DNN+LRDNN+Decision TreeDNN+SVMDNN+XgboostDNN+RandomForestDNN+LightGBMDNN+GBDT_sklearn小结# 数据处理、分析import pandas as pdimport numpy as npfrom scipy ...
2019-01-08 15:56:32
1678
1
原创 集成学习模型stack方法实现
基模型为神经网络,元模型为其它的stack方法class StackingAverageModels_build2(): ''' 第一层的submodel是神经网络 第二层的模型是其他模型。 ''' def __init__(self, X_train, y_train, X_test, y_test): self.X_train = X_...
2019-01-08 14:53:30
1593
原创 keras中训练好的模型保存与载入
keras中的采用Sequential模式建立DNN并持久化保持、重新载入def DNN_base_v1(X_train, y_train): model = models.Sequential() model.add(layers.Dense(96, activation='elu',kernel_regularizer=regularizers.l2(0.005)...
2019-01-08 14:50:16
1868
原创 关于sklearn中的clone
关于sklearn中的clone功能:复制模型及其参数。属于深层复制。关于复制的深、浅理解。参考:python的复制,深拷贝和浅拷贝的区别在python中,对象赋值实际上是对象的引用,即一般的“=”。属于直接赋值的方式原始列表改变,被赋值的b也会做相同的改变copy浅拷贝,没有拷贝子对象,所以原始数据改变,子对象会改变深拷贝,包含对象里面的自对象的拷贝,所以原始对...
2018-12-24 16:11:48
3296
1
原创 关于sklearn.model_selected中的KFold.split的理解
关于sklearn.model_selected中的KFold.split的理解作用:返回样本切分之后数据集的indices,即索引返回:train: ndarray。如果KFold设置shuffle参数是True,是混乱的。test: ndarray。如果KFold设置shuffle参数是True/False,是按照顺序连续!!示例ab_range = np.ar...
2018-12-24 16:10:53
11839
2
原创 SVM的核函数之线性和高斯的选择
Table of Contents关于SVM中线性核函数和高斯核函数的选择1.基本数据准备2.各情况对比1. SVM(kernel='linear'):直接采用数据集[966,1850]2. SVM(kernel='rbf'):直接采用数据集[966,1850]3. LR:直接采用数据集[966,1850]4. 降维之后3.小结关于SVM中线性核函数和高斯核函数的选择SVM中常用核函数一般是...
2018-12-20 16:31:36
16778
3
原创 python函数中将变量名转换成字符串
考虑到在日常中,常常需要对模型指标输出,但涉及多个模型的时候,需要对其有标示输出,故需要将模型变量名转换成字符串。看到的基本方法有两种:一、方法层面:方法1(函数内推荐):def namestr(obj, namespace): return [name for name in namespace if namespace[name] is obj]print(namestr(lr...
2018-12-20 16:08:04
11551
1
翻译 特征学习-RBM与PCA应用在LR
Table of Contents1. 基本信息查询导入package2. 提取PCA 成分3. 提取RBM主成分取出前20个最有代表性的特征提取后20个特征4. RBM在machine learning中效果直接用LR模型采用PCA主成分的LR采用RBM主成分的LR1. 基本信息查询导入packageimport numpy as npimport matplotlib.pyplot ...
2018-12-19 17:38:17
1095
原创 Tensorflow的变量和模型保存以及模型应用
Table of Contents一、模型部分(成功)1.保存的模型2.载入模型并用于预测1.载入图结构和参数2.获取图3.获取tensor4.新的input准备5.应用与预测6.其他内容6.1 查看tensor、node等6.2关于不同版本的checkpoint文件理解二、学习其他简单的1. 保存变量2. 恢复变量3. 选择想要保存的和恢复的变量(还不太明白)三、保存和恢复模型1. 构建和加载...
2018-12-14 16:59:16
1945
原创 关于np.max及tf.reduce_mean的计算轴axis的理解
np.max(axis=), tf.reduce_mean(axis=)的理解。下面以np.max作理解import numpy as npa = [[[1,2,3],[11,22,33]],[[10,20,30],[110,220,330]],[[101,201,301],[11001,22001,33001]],[[55,66,77],[550,660,770]]]b = np.a...
2018-12-12 15:07:33
1381
翻译 Feature Engineering-(1)PCA的理解实现
Table of ContentsPCA对比理解与实现一、numpy方式1.数据基本导入2. 绘图函数定义4.计算pca协方差矩阵协方差矩阵的特征值求解查看几个特征值的重要性5.应用求得到的特征值对原数据集进行转换二、采用sklearn1.拟合与训练2.top2的特征值结果3.特征值的重要性(对原数据的可解释性)三、PCA对特征非相关的处理结论:PCA助于减缓特征变量之间的相关性,即使是不减少变...
2018-12-11 15:55:04
963
原创 基于客户提取为所属客户经理的信息
本地处理#!/usr/bin/python# -*- coding: utf-8 -*-# UnicodeDecodeError: 'utf8' codec can't decode byte 0x9a in position 12的暂时解决方法——修改默认encodingimport sysreload(sys)sys.setdefaultencoding('utf-8')fr...
2018-10-10 15:44:08
115132
转载 list多层列表展开方法对比
方法一:https://blog.csdn.net/ytfy12/article/details/51162079def printm(listin): abc = [] for ie in listin: if isinstance(ie,list): printm(ie) else: print(...
2018-10-10 15:40:13
2239
转载 身份证真实性验证
def is_valid_idcard(idcard): """Validate id card is valid.""" IDCARD_REGEX = '[1-9][0-9]{14}([0-9]{2}[0-9X])?' if isinstance(idcard, int): idcard = str(idcard) if not re.matc...
2018-10-09 21:17:31
2365
原创 根据身份证年龄计算
年龄计算def calculate_age(input_born): ''' : input_born: string, len=8 ''' import datetime y_born = input_born[0:4] m_born = input_born[4:6] d_born = input_born[6:8] ...
2018-10-09 21:14:21
747
原创 反欺诈子研究-特征衍生过程
内容目录1 衍生特征分析过程1.1 数据读取1.2 定义处理单列的数据1.2.1 单列数据的观察1.2.1.1 家庭结构有关1.2.1.2 社交账号有关1.2.1.3 购物数据(京东账号jd_account、淘宝账号alipay_account
2018-10-04 20:54:06
1787
原创 关于链家全网房价数据分析挖掘项目
** 关于链家全网房价数据分析挖掘项目数据说明数据信息:数据量:40多万条观测,20多个列变量时间:2018年5月前来源作者:田昕峣获取方式:https://github.com/XinyaoTian/lianjia_Spider项目目标建立单位面积房价的预测模型内容目录1  数据导入2  数据探索:3 
2018-09-23 11:54:15
5947
4
原创 np.column_stack()数组与列表list的区别
关于np.column_stack()里面1维数组使用[1维数据]之后的区别import numpy as np# np.array((1,2,3),(11,22,33))a=[1,2,3];b=[11,22,33];np.column_stack((a,b))a=[[1,2,3],[10,20,30]];b=[[11,22,33],[110,220,330]];np.column_sta...
2018-09-22 20:46:16
16157
1
原创 pyspark学习与工作历程
pyspark学习与工作历程 pyspark中的dataframe操作spark sql理解:属于架设在spark core之上的高级层。即在使用中,需要在SparkContext基础上架一层SQLContext。Spark SQL的RDD称为SchemaRDD。from pyspark import SQLContext, RowsqlCtx = SQLContext(sc)...
2018-06-21 13:40:50
2478
原创 空间多级图绘制
前段时间,没考虑太多,帮忙师妹做了一张空间图。实际发觉还是很耗时间,哎,接的招跪着也得走完,亲师妹呀....发觉这类表达还有所欠缺,但说不上来,下一步打算通过交互式的实现,也便于永久的调整数据,达到重复利用。因此,在此记录一下个人的简单成果,再接再厉。...
2018-03-15 13:51:57
453
转载 python_爬虫(初入门)
基本实现的功能:抓取、分析、存储。一、URL是什么?由哪些部分构成? 1、简单来说,URL即,浏览器端输入的 http://www.google.cn 字符串 \2、URI是什么?Web上每种可用的资源,如 HTML文档、图像、视频片段、程序等都由一个通用资源标志符(Universal Resource Identifier, URI)进行定位URI的组成:
2016-11-17 10:05:46
329
PortGo_Pro_11072018.exe
2020-05-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人