- 博客(23)
- 收藏
- 关注
原创 pyspark.ml部分解释
pyspark.ml.feature.VectorAssemblervector:向量assemble:召集,收集,装配官方解释:ectorAssembler(inputCols=None, outputCol=None, handleInvalid=‘error’)特征转换器,将多个列合并为一个向量列。VectorAssembler接受以下输入列类型:所有数值类型、布尔类型和向量类型。...
2019-12-08 21:08:28
538
原创 精通scrapy网络爬虫——第三章 response.xpath()and css()基础语法
首先创建一个用于演示的HTML文档,并构造一个HtmlResponse对象from scrapy.selector import Selectorfrom scrapy.http import HtmlResponsebody = '''<html> <head> <base href='http://example.com/' /&...
2019-11-07 22:42:41
3453
1
原创 精通scrapy网络爬虫 第三章———利用selector提取数据
创建对象#创建Selector 对象from scrapy.selector import Selectortext = '''<html> <body> <h1>Hello World</h1> <h1>Hello Scrapy</h1> <h1>...
2019-11-07 22:30:29
745
原创 精通scrapy网络爬虫第一章example
import scrapyclass BooksSpider(scrapy.Spider): # 每一个爬虫的唯一标识 name = 'books' # 定义爬虫爬取的起始点,起始点可以是多个,这里只有一个 start_urls = ['http://books.toscrape.com/'] def parse(self, response):...
2019-11-07 18:49:44
337
原创 从列表推导式到生成器、迭代器
#列表推导式names=['lilly','tom','jimmy','andy','da']result=[name for name in names if len(name)>3]print(result)result1=[name.capitalize() for name in names if len(name)>3] #s首字母大写print(resul...
2019-11-06 11:40:47
168
原创 'javac' 不是内部或外部命令,也不是可运行的程序 或批处理文件。
path命令下填写bin目录下有javac的文件,如果你的jre\bin下没有javac文件将%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;改为%JAVA_HOME%\bin即可,亲测有效~
2019-11-03 21:19:37
259
原创 python异常处理
Exception 几乎所有异常类都是他派生出来的 AttributeError 引用属性或给他赋值失败时引发 OSError 操作系统不能执行指定的任务(如打开文件时引发),有多个子类IndexError 使用序列中不存在的索引时引发,为LookupError的子类KeyError 使用映射中不存在的键时引发,为LookupError的子类NameError 找不到变量名称时...
2019-11-02 19:09:20
184
原创 python利用os模块编写文件复制功能———copy()函数
#文件复制import ossrc_path=r'E:\Pycharm\python100题\代码'target_path=r'E:\Pycharm\python100题\123'#封装成函数def copy_function(src,target): if os.path.isdir(src) and os.path.isdir(target): fileli...
2019-10-27 22:12:20
6087
原创 python文件及os,相对路径与绝对路径
#!/usr/bin/env python# -*- coding:utf-8 -*-#文件操作# stream=open('E:\\Pycharm\\123.txt')### container=stream.read()# print(container)### while 1:# result = stream.readline()# if resul...
2019-10-27 22:10:18
3351
原创 什么是闭包?解释器?
#外部函数包含内部函数#外部函数具有返回值#返回值是:内部函数名#内部函数引用了外部函数的局部变量def Func(): def InerFunc(): pass return InerFunc...
2019-10-19 20:38:27
173
原创 python练习100题(5)
题目054:取一个整数a从右端开始的4-7位。切片是左闭右开的。a=123456789a=str(a)print(a[-7:-3])# 写的时候注意一下python切片是[-7:-4)左闭右开的,不包含[-4]的,所以要写成-3才能取到题目061:打印出杨辉三角形(要求打印出10行如下图)。11 11 2 11 3 3 11 4 6 4 11 5 10 10 5 ...
2019-10-11 20:57:08
868
原创 python练习100题(4)
题目041:模仿静态变量的用法。如果是函数中的局部变量,每次调用函数都会初始化。而类中的变量,创建类的时候初始化,每次执行类中的函数的时候,不会初始化类变量。def varfunc(): var=0 print('var=%d'%var) var+=1if __name__=='__main___': for i in range(3): ...
2019-09-28 22:44:22
291
原创 python练习100题(3)
题目021:猴子吃桃问题猴子第一天摘下若干个桃子,当即吃了一半,还不瘾,又多吃了一个第二天早上又将剩下的桃子吃掉一半,又多吃了一个。以后每天早上都吃了前一天剩下的一半零一个。到第10天早上想再吃时,见只剩下一个桃子了。求第一天共摘了多少。num = 1for i in range(10-1): num = (num+1)*2print(num)题目022:两个乒...
2019-09-25 23:07:05
313
原创 python练习一百题(2)
题目011:古典问题:有一对兔子,从出生后第3个月起每个月都生一对兔子,小兔子长到第三个月后每个月又生一对兔子。假如兔子都不死。问每个月的兔子总数为多少?mm=1 #可以生兔子的兔子m1=0#满月的兔子m2=0#满两个月的兔子for i in range(1,10): mm=mm+m2 m2=m1 m1=mm print(i,mm+m1+m2)...
2019-09-19 20:03:30
425
原创 python练习一百题(1)
题目001:有四个数字:1、2、3、4,能组成多少个互不相同且无重复数字的三位数?各是多少?解法一:arr=[]for i in range(1,5): for j in range(1,5): for k in range(1,5): num=100*i+10*j+k if i!=j and j!=k and i!...
2019-09-15 20:52:38
470
原创 python数据分析与挖掘实战(7)电力窃漏电用户自动识别
数据预处理值缺失值处理#!/usr/bin/env python# -*- coding:utf-8 -*-import pandas as pdfrom scipy.interpolate import lagrangeinputfile='E:\\pycharm\\python数据分析与挖掘实战数据及源码\\chapter6\\demo\\data\\missing_data.xl...
2019-09-15 14:20:52
679
原创 python数据分析与挖掘实战(6)时序模式
时序模式#!/usr/bin/env python# -*- coding:utf-8 -*-import pandas as pddiscfile='E:\\pycharm\\python数据分析与挖掘实战数据及源码\\chapter5\\demo\\data\\arima_data.xls'forecastum=5data=pd.read_excel(discfile,index...
2019-09-10 20:20:59
460
原创 python数据分析与挖掘实战(5)挖掘建模之聚类分析、关联规则
K-means 聚类算法#!/usr/bin/env python# -*- coding:utf-8 -*-import pandas as pdinputfile='E:\\pycharm\\python数据分析与挖掘实战数据及源码\\chapter5\\demo\\data\\consumption_data.xls'outputfile='E:\\pycharm\\python数...
2019-07-29 19:00:29
1436
3
原创 python数据分析与挖掘实战(4)挖掘建模之分类与预测
分类与预测loc\iloc\ix三种索引的区别与用法loc 在index的标签上进行索引,范围包括start和end.iloc 在index的位置上进行索引,不包括end.ix 先在index的标签上索引,索引不到就在index的位置上索引(如果index非全整数),不包括end.Logistic回归#!/usr/bin/env python# -*- coding:utf-8 -*...
2019-07-28 18:54:31
1064
原创 python数据分析与挖掘实战(3)【数据预处理】
数据清洗之缺失值处理用拉格朗日插值法进行插补import pandas as pdfrom scipy.interpolate import lagrange#interpolate=插入inputfile='E:\pycharm\python数据分析与挖掘实战数据及源码\chapter4\demo\data\catering_sale.xls'outputfile='E:\pycha...
2019-07-21 15:05:40
879
原创 python作图——线型图,饼形图
相关性分析餐饮销量数据相关性分析import pandas as pdcatering_sale='E:\pycharm\python数据分析与挖掘实战数据及源码\chapter3\demo\data\catering_sale_all.xls'data=pd.read_excel(catering_sale,index_col=u'日期')p=data.corr()print(p)...
2019-07-19 19:17:49
641
原创 python数据分析与挖掘实战(2)
异常值分析describe()用法【注意:是describe不是describle!这个错误刚才找了好久,汗颜。。。】代码:import pandas as pdimport numpy as npcatering_sale='E:\pycharm\python数据分析与挖掘实战数据及源码\chapter3\demo\data\catering_sale.xls'data=pd.r...
2019-07-18 20:44:18
1022
原创 python数据分析与挖掘实战(1)
python数据分析与挖掘实战(1)清华大学开源镜像站:pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple1.numpy基本操作代码列表:import numpy as npa = np.array([2, 0, 1, 5])print(a)print(a[:3]) #切片,引用前三个数字print(min...
2019-07-16 20:20:46
380
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人