
python数据挖掘
文章平均质量分 83
伙伴几时见
致力于成为一名数据科学家
展开
-
python版本对应的Visual C++编译器版本
第一步,知道你的python版本:如上所示,MSC v.1915,也就是对应下表的_MSC_VER是1915Visual Studio version _MSC_VER Visual Studio 6.0 1200 Visual Studio .NET 2002 (7.0) 1300 Visual Studio .NET 2003 (7.1) ...原创 2019-06-06 16:44:22 · 3906 阅读 · 1 评论 -
python图片文本识别的简单实现
http://blog.sina.com.cn/s/blog_628cc2b70101cjvp.htmlPython图片文本识别使用的工具是PIL和pytesser。因为他们使用到很多的python库文件,为了避免一个个工具的安装,建议使用Anaconda.pytesser是谷歌OCR开源项目的一个模块,在Python中导入这个模块即可将图片中的文字转换成文本。pytesser调用了tes原创 2017-03-14 23:48:23 · 7494 阅读 · 0 评论 -
Python----股票ARIMA模型拟合
# coding=utf-8import pandas as pdimport numpy as npfrom pandas import Series,DataFrameimport matplotlib.pyplot as plt####股票时间序列分析#####参数初始化datafile=u'E:/python数据分析/第12周/stock_px.转载 2017-02-21 14:04:49 · 5021 阅读 · 4 评论 -
机器学习-CrossValidation交叉验证Python实现
1.原理1.1 概念交叉验证(Cross-validation)主要用于模型训练或建模应用中,如分类预测、PCR、PLS回归建模等。在给定的样本空间中,拿出大部分样本作为训练集来训练模型,剩余的小部分样本使用刚建立的模型进行预测,并求这小部分样本的预测误差或者预测精度,同时记录它们的加和平均值。这个过程迭代K次,即K折交叉。其中,把每个样本的预测误差平方加和,称为PRESS(pre转载 2016-12-19 11:58:53 · 8624 阅读 · 0 评论 -
linux中pip安装步骤与使用详解
pip类似RedHat里面的yum,安装软件非常方便。本节详细介绍pip的安装、以及使用方法,希望文章对各位了解pip的安装与使用带来帮助。1、pip下载安装1.1 pip下载 代码如下复制代码# wget "https://pypi.python.org/packages/source/p/pip/pip-1.5.4.tar.gz#md5=834b转载 2017-01-03 23:05:34 · 651 阅读 · 0 评论 -
ValueError: The indices for endog and exog are not aligned
I am getting above error when I am running an iteration using FOR loop to build multiple models. First two models having similar data sets build fine. While building third model I am getting t转载 2016-12-15 16:36:34 · 4853 阅读 · 0 评论 -
机器学习经典算法详解及Python实现--决策树(Decision Tree)
(一)认识决策树1,决策树分类原理决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。近来的调查表明决策树也是最经常使用的数据挖掘算法,它的概念非常简单。决策树算法之所以如此流行,一个很重要的原因就是使用者基本上不用了解机器学习算法,也不用深究它是如转载 2016-12-21 13:46:10 · 1256 阅读 · 0 评论 -
Python笔记-几种取整方式
背景在处理数据的时候,碰到了一个问题,就是取整方式!比如给定一个数值型列表,我需要分别获取它位置为长度的0%,25%,50%,75%,100%处的几个数字。但Python自带的int 是向下取整,如果数字长度是5,理论上这五个数字分别对应0%,25%,50%,75%,100%的位置,但使用 int ,结果却并不是入次。比如当5*0.75 时,如果加上 int(5*0.75) ,转载 2016-12-09 16:19:48 · 356 阅读 · 0 评论 -
Python 字符串操作(string替换、删除、截取、复制、连接、比较、查找、包含、大小写转换、分割等)
去空格及特殊符号s.strip().lstrip().rstrip(',')复制字符串#strcpy(sStr1,sStr2)sStr1 = 'strcpy'sStr2 = sStr1sStr1 = 'strcpy2'print sStr2连接字符串#strcat(sStr1,sStr2)sStr1 = 'strcat'sStr2 = '转载 2016-12-08 17:22:38 · 315 阅读 · 0 评论 -
文件操作,读,写,指定位置
[python]代码库view sourceprint?#文件操作 open()#open("路径 + 文件名",”读写模式")f=open('filepath','w') #读写模式:转载 2016-11-14 16:40:29 · 642 阅读 · 0 评论 -
如何找到使用中位数星火(How to find median using Spark)
问 题How can I find median of a rdd of integers using a distributed method, IPython, and Spark? The rdd is approximately 700,000 elements and therefore too large to collect and find the medi转载 2016-10-28 14:41:11 · 2055 阅读 · 0 评论 -
Python中的None与 NULL(即空字符)的区别
1.首先要了解Pythond的对象的概念:Python中,万物皆对象,所有的操作都是针对对象的,那什么是对象,5是一个int对象,‘oblong’是一个str对象,异常也是一个对象,抽象一点是,人,猫,够也是一个对象那对于一个对象,它就有包括两方面的特征: 属性:去描述它的特征 方法: 它所具有的行为 所以,对象=属性+方法 (其实方法也是一种属性,一种区别于数据属性的转载 2016-10-17 15:03:45 · 2372 阅读 · 0 评论 -
Python中的绝对路劲和相对路径
1、绝对路径 os.path.abspath("文件名"):显示的是一个文件的绝对路劲eg:?123456>>> importos>>> os.chdir("E:\\PycharmProjects\\odycmdb\\odycmdb")>>> os.listdir()['settings.p转载 2016-10-17 14:43:40 · 8735 阅读 · 0 评论 -
python 的日志logging模块学习
1.简单的将日志打印到屏幕 import logginglogging.debug('This is debug message')logging.info('This is info message')logging.warning('This is warning message') 屏幕上打印:WARNING:root:This i转载 2016-10-17 11:33:37 · 279 阅读 · 0 评论 -
Python之美[从菜鸟到高手]--装饰器之使用情景分析
有这个一个需求,统计一个函数执行时间 ? 方案很多,但无疑使用装饰器是一种好的方案。[python] view plain copy def timer(func): def _timer(*args,**kwargs): #参数是函数调用传递过来的参数 begin=time.time() func(*args,**kw转载 2016-09-29 22:32:55 · 310 阅读 · 0 评论 -
How do I set the driver's python version in spark?
You need to make sure the standalone project you're launching is launched with python 3. If your are submitting your standalone program through spark-submit then it should work fine, but if you ar翻译 2016-09-28 14:01:08 · 390 阅读 · 0 评论 -
Python __future__模块常见示例相关解读
Python编程语言中有很多比较有用的模块,这些模块在实际使用中可以帮助我们轻松的完成许多功能需求。我们今天将会在这里通过对Python future模块的了解,来对这方面的知识做一个详细的了解。今天在学习Python Cookbook的时候,发现一句语法from __future__ import division,很奇怪__future__这个名字,网上搜了一下,原来是很有用的一个转载 2016-10-13 17:14:44 · 622 阅读 · 0 评论 -
pyspark 如何删除hdfs文件
问题的背景:我想在每次跑集群的时候,先删除指定路径下之前hdfs跑的数据文件,但是spark又没有提供这样一个可以调用函数。 解决办法:你可以通过调用subprocess.call 执行任意的Linux Shell命令 或者 sh library下面这个方法已经解决我的需求。import subprocesssome_path = ...subprocess.cal翻译 2016-09-27 16:15:32 · 5284 阅读 · 0 评论 -
numpy.transpose()
numpy.transpose()是对矩阵按照所需的要求的转置,比较难理解,现以例子来说明:[python] view plain copy"font-family:KaiTi_GB2312;font-size:18px;">import numpy as np a = np.array(range(30)).reshape(2转载 2017-10-18 10:14:36 · 346 阅读 · 0 评论 -
深入浅出LSTM神经网络
摘要:根据深度学习三大牛的介绍,LSTM网络已被证明比传统的RNNs更加有效。本文由UCSD研究机器学习理论和应用的博士生Zachary Chase Lipton撰写,用浅显的语言解释了卷积网络的基本知识,并介绍长短期记忆(LSTM)模型。【编者按】使用前馈卷积神经网络(convnets)来解决计算机视觉问题,是深度学习最广为人知的成果,但少数公众的注意力已经投入到使用递归神经网络来对转载 2017-10-16 14:28:43 · 693 阅读 · 0 评论 -
反欺诈建模方案
在反欺诈场景中,知识图谱聚合各类数据源,逐步绘制出借款人的profile,从而针对性的识别欺诈风险。以一个借款人举例,借款人可以有身份证号,手机号,学历等个人信息,属于个人的属性信息;而借款人可以有担保人或是亲属好友,借款人与担保人之间的关系(也就是边Edge)是被担保与担保的关系,借款人与其亲属好友之间的关系是父亲、母亲、同事、同学等关系;借款人也具有住址,银行流水,工作单位等信息。这些信息可以...转载 2019-01-23 17:19:09 · 1785 阅读 · 0 评论 -
构建指标体系的原理
一、构建指标体系的基本原则1、目的性原则2、全面性原则3、可行性原则4、稳定性原则5、协调性原则6、结合性原则二、指标体系构建中的两难选择指标间的独立性与全面性的两难选择三、指标体系构建中的几种定量方法1、变异系数法一般来说,变量越分散,其所含的信息量也越大,反之亦然。2、熵值法信息熵表示一个系统的有序性,系统的有序性越大,信息熵越大,反之,一个...原创 2019-01-25 15:20:46 · 13284 阅读 · 1 评论 -
python 词云 实例
#/usr/bin/env python# -*- coding: utf-8 -*-"""Created on Wed Jan 23 16:03:41 2019@author: Administrator"""import osimport sysimport docximport jiebaimport jieba.posseg as psegimport rei...原创 2019-01-24 10:16:58 · 676 阅读 · 0 评论 -
python 逐步逻辑回归源码
import osimport pandas as pdimport statsmodels.api as smfrom sklearn.metrics import auc,roc_curveimport matplotlib.pyplot as plt def stepwise_selection(X, y, initial_lis...原创 2019-01-18 17:40:03 · 4359 阅读 · 1 评论 -
Python:SMOTE算法
17.11.28更新一下:最近把这个算法集成到了数据预处理的python工程代码中了,不想看原理想直接用的,有简易版的python开发:特征工程代码模版,进入页面后ctrl+F搜smote就行,请自取之前一直没有用过python,最近做了一些数量级比较大的项目,觉得有必要熟悉一下python,正好用到了smote,网上也没有搜到,所以就当做一个小练手来做一下。首先,看下Smote算法之前...转载 2018-12-25 11:18:38 · 3899 阅读 · 0 评论 -
Pandas 和 SQL对比
自认为比较熟悉SQL, 刚开始使用Pandas的时候,总觉得好多地方不如SQL处理来的便捷.但是在熟悉Pandas后,发现Pandas往往也有很简单的解决办法, 部分地方恰好是Pandas的优势地方.下面列出一些曾经遇到的场景:滑动窗口/平滑各种曲线应用场景:当每个月份数据抖动比较大的时候,想把n个月的数据累积到一个月然后平均计算趋势.1DB解决方案:没想到特别简单的方法.希望有...转载 2018-12-06 19:22:59 · 518 阅读 · 0 评论 -
多重共性和VIF检验
图片来源https://wenku.baidu.com/view/7008df8383d049649b66581a.html 和https://wenku.baidu.com/view/6acdf95e52ea551811a68721.html转载 2018-11-28 16:23:41 · 5367 阅读 · 0 评论 -
pandas与sql 对比,持续更新...
由于工作关系 , 经常会用到sql和python的pandas模块,两者有很多相似之处,我将整理出系列的对比文章,并保持更新. 若有不尽之处,敬请指出.文章目录基础说明select 操作where操作in操作regexp正则操作group by操作order by 操作limit 操作case when操作left join (rigth join, inner join,...转载 2018-11-27 14:44:06 · 394 阅读 · 0 评论 -
基于Python的信用评分卡模型分析(一)
信用风险计量体系包括主体评级模型和债项评级两部分。主体评级和债项评级均有一系列评级模型组成,其中主体评级模型可用“四张卡”来表示,分别是A卡、B卡、C卡和F卡;债项评级模型通常按照主体的融资用途,分为企业融资模型、现金流融资模型和项目融资模型等。 我们主要讨论主体评级模型的开发过程。一、项目流程典型的信用评分模型如图1-1所示。信用风险评级模型的主要开发流程如下:(1) 数据获取,包括获...转载 2018-11-27 09:57:31 · 1009 阅读 · 0 评论 -
基于Python的信用评分卡模型分析(一)
信用风险计量体系包括主体评级模型和债项评级两部分。主体评级和债项评级均有一系列评级模型组成,其中主体评级模型可用“四张卡”来表示,分别是A卡、B卡、C卡和F卡;债项评级模型通常按照主体的融资用途,分为企业融资模型、现金流融资模型和项目融资模型等。 我们主要讨论主体评级模型的开发过程。一、项目流程典型的信用评分模型如图1-1所示。信用风险评级模型的主要开发流程如下:(1) 数据获取,包括获...转载 2018-11-23 15:14:43 · 807 阅读 · 0 评论 -
数据挖掘模型中的IV和WOE详解
1.IV的用途IV的全称是Information Value,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入模变量呢?挑选入模变量过...转载 2018-11-23 14:11:56 · 199 阅读 · 0 评论 -
数据挖掘模型中的IV和WOE详解
1.IV的用途IV的全称是Information Value,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入模变量呢?挑选入模变量过...转载 2018-11-22 16:08:30 · 227 阅读 · 0 评论 -
推荐一个利用 python 生成 pptx 分析报告的工具包:reportgen
reportgen v0.1.8 更新介绍这段时间,我对 reportgen 进行了大工程量的修改和更新。将之前在各个文章中出现的函数进行了封装,同时也对现有工具包的一些逻辑进行了调整。1、reportgen 简介reportgen 的底层是 pptx 文件生成接口,它能非常方便的将DataFrame等数据导出为pptx上的图表。你可以自定义图表的类型(条形图、饼图、折线图等),也可以...转载 2018-11-22 14:05:12 · 449 阅读 · 0 评论 -
数据取对数的意义
平时在一些数据处理中,经常会把原始数据取对数后进一步处理。之所以这样做是基于对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有:1. 缩小数据的绝对数值,方便计算。例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。 ...转载 2018-11-22 13:49:44 · 1472 阅读 · 0 评论 -
评分卡模型-卡方分箱
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/hxcaifly/article/details/802036631.前言评分卡建模在金融行业应用得比较广泛,比如对客户的信贷诚信度进行评分。在建模过程中,对连续变量的分箱是一个必不可少的过程。正好我最近的项目也是要做一个积分卡,因此想对分箱做一个较全面的总结。2.定义何谓分箱,简单地...转载 2018-11-20 18:39:02 · 2130 阅读 · 0 评论 -
Python 信用卡评分模型 自动分箱&逻辑回归&制作评分卡
import numpy as npimport pandas as pdfrom sklearn.cluster import KMeansfrom statsmodels.stats.outliers_influence import variance_inflation_factorimport statsmodels.api as smfrom sklearn.model_sel转载 2018-02-26 17:59:48 · 1732 阅读 · 0 评论 -
周志华揭开机器学习本质的57张PPT
什么是机器学习?文献筛选”的故事:循证医学我们都知道,现在优质医学资源非常稀缺,为了缓解这个问题,国外产生了一种叫做“循证医学”的做法。以后患病了不是先去找专家,而是先去看一看文选资料,因为很可能已经有人患过,甚至已经有医生诊治过这个病,发表过论文。那么如果我们暴露里面和这个病相关的最新技术,把它汇集起来,很可能就能得到很好的解决方案。如何实现这个想法呢?第一步,我转载 2017-12-27 16:01:39 · 5048 阅读 · 0 评论 -
Python如何读写文本文件
版权声明:本文为博主原创文章,未经博主允许不得转载。1. 读取文本文件代码:[python] view plain copy print?f = open('test.txt', 'r') print f.read() f.seek(0) print f.read(14) f.seek(0) print f.re转载 2016-11-03 17:55:02 · 409 阅读 · 0 评论 -
python字符串连接的N种方式
python中有很多字符串连接方式,今天在写代码,顺便总结一下:最原始的字符串连接方式:str1 + str2python 新字符串连接语法:str1, str2奇怪的字符串方式:str1 str2% 连接字符串:‘name:%s; sex: ’ % ('tom', 'male')字符串列表连接:str.join(some_list) 第一种,想必只要是有编转载 2016-10-11 15:37:48 · 249 阅读 · 0 评论 -
AUC与ROC - 衡量分类器的好坏
二元分类器 二元分类器是指要输出(预测)的结果只有两种类别的模型。例如预测阳性/阴性,有病/没病,在银行信用评分模型中,也用来预测用户是否会违约,等等。 既然是一种预测模型,则实际情况一定是有些结果猜对了,有些结果猜错了。因为二元分类器的预测结果有两种类别(以下以阴/阳为例),对应其真实值,则会有以下四种情形:1. 预测为阳性,真实值为阴性 (伪阳性)2. 预测为阴性,真实值转载 2016-07-04 13:47:51 · 2100 阅读 · 0 评论