- 博客(26)
- 资源 (16)
- 收藏
- 关注
原创 根据词频生成词云
#-*- coding: utf-8 -*-#.py文件名不能和引用的库名重复"""Created on Sun Mar 8 11:01:44 2020@author: toto""" import os,jieba from wordcloud import WordCloudfrom PIL import Imageimport numpy as np cwd = os.getcwd()#当前工作路径 #os.path.join(cwd,文件名)== 文件名jieba.
2021-02-03 10:25:33
1756
转载 Yelp点评网站官方数据集json转csv格式方法
Yelp点评网站官方数据集json转csv格式方法import csvimport jsonimport sysimport osimport pandas as pdimport numpy as np#我这里.py文件和数据放在同一个路径下了,如果不在同一个路径下,自己可以修改,注意路径要用//json_file_path='yelp_academic_dataset_review.json'csv_file_path='yelp_academic_dataset_review.c
2021-01-20 23:50:08
458
转载 PyCharm使用技巧及常用快捷键
常用快捷键1、Ctrl + Enter:在下方新建行但不移动光标;2、Shift + Enter:在下方新建行并移到新行行首;3、Ctrl + /:注释(取消注释)选择的行;4、Ctrl + Alt + L:格式化代码(与QQ锁定热键冲突,关闭QQ的热键);5、Ctrl + Shift + +:展开所有的代码块;6、Ctrl + Shift + -:收缩所有的代码块;7、Ctrl + Alt + I:自动缩进行;8、Alt + Enter:优化代码,提示信息实现自动导包;9、Ctrl +
2020-08-11 15:15:07
283
原创 正则
匹配括号不包活小括号()contacts=re.findall(r'(?<=\()[^\(\)]*(?=\))',xinxi, re.I)匹配邮箱 mail_pattern = re.compile( r'(?<=[\s::\<\(\>])[0-9a-zA-Z_\.\*-]{1,50}@[0-9a-zA-Z-\.]{1,50}...
2020-03-05 17:48:08
213
原创 python爬虫之js逆向(三)
目标网站 http://webapi.cninfo.com.cn/overview.html#/home首先 ,请求是post请求,没有data参数,试了一下直接复制请求头去发送post请求不对。然后看到mcode这个参数,是是加密的,ctrl+shift+r 全局搜索mcode这个参数,找到红框里面的调用方法继续研究。肯定是这个方法生成的mecode这就是生成mcode的函数 直接拿下...
2020-01-06 10:03:07
814
1
原创 mysql 行转列
SELECT A.company_name, max( A.contacts ) AS contact, max( A.email ) AS email FROM (SELECT company_name,CASE WHEN items = "contacts" THEN item_values ELSE "" END AS contacts,CASE WHEN i...
2019-12-20 16:26:10
124
原创 matplotlib基础(二)
#会折线图plt.figure(figsize=(8,7)) #设置画布plt.plot(values[:,0],values[:,2],color='r',linestyle='--',marker="o") #marker 绘制点线图plt.xlabel("年份")plt.ylabel("生产总值")plt.ylim((0,225000))plt.xticks(range(0,7...
2019-12-04 20:15:56
459
原创 Matpltlib基础学习篇(一)
import matplotlib.pyplot as pltdata=np.arange(0,1,0.1)plt.title('line') #添加标题plt.xlabel('x') #添加x轴的名称plt.ylabel('y') #添加y轴的名称plt.xlim((0,1)) #确定x轴的范围plt.ylim((0,1))#确定y轴de范围plt.xticks([0,0.2,0...
2019-12-02 21:43:51
353
原创 numpy基础(二)
arr1=np.array([[0,0,0],[1,1,1],[2,2,2],[3,3,3]])print(arr1.shape)arr2=np.array([1,2,3])print(arr1+arr2)arr3=np.array([1,2,3,4]).reshape((4,1))print(arr3)print(arr1+arr3)arr=np.arange(100).resha...
2019-11-28 21:32:04
509
原创 Numpy的基本语法
import numpy as nparr1=np.arange(12).reshape(3,4)print(arr1)arr2=arr1*3print(arr2)print(np.hstack((arr1,arr2)))print(np.vstack((arr1,arr2)))print(arr1.reshape(3,4).ndim) #查看数组维度print("数...
2019-11-27 21:11:34
468
原创 初识KNN(k-近邻算法)
from numpy import *import operatorimport matplotlibimport operatorfrom os import listdirimport matplotlib.pyplot as pltdef classify0(inX, dataSet, labels, k): # 用于分类的输入向量是inX,输入的训练样本集为data...
2019-11-27 16:45:32
306
转载 xpath获取当前标签的兄弟节点,父节点
<div> <a id="1" href="www.baidu.com">我是第1个a标签</a> <p>我是p标签</p> <a id="2" href="www.baidu.com">我是第2个a标签</a> <a id="3" href="www.baidu.com"&g...
2019-11-25 10:01:58
747
原创 python 爬取淘宝第二弹(淘宝数据爬取)
python 爬取淘宝第二弹(淘宝数据爬取)经过上次淘宝登录以后,可以进行淘宝商品的采集了,首先我们需要知道的是我们需要的数据在哪里,我通过搜索第一个手机的名字可以看到在这个页面中有我们想要的数据,但是他是镶嵌在script标签里面的我们只能通过正则拿到他。首先经验可知get请求一般搜索关键字都会在链接里出现,页数也是会显示在链接里面 淘宝我们不能只采集一页,所以说我们需要分析链接进行翻页操...
2019-11-21 20:46:49
2655
9
原创 重复的子字符串
力扣上看到的一道题分享一下大佬的思想。给定一个非空的字符串,判断它是否可以由它的一个子串重复多次构成。给定的字符串只含有小写英文字母,并且长度不超过10000。示例 1:输入: “abab”输出: True解释: 可由子字符串 “ab” 重复两次构成。示例 2:输入: “aba”输出: False示例 3:输入: “abcabcabcabc”输出: True解释: 可由子字...
2019-11-13 21:48:21
203
原创 百度批量翻译
工作需要进行批量翻译。调用百度翻译api接口,获取appid和secretKeyimport httpimport hashlibimport urllib.requestimport randomimport jsonimport pymysqldef baidufanyi(eachLine,id,sql,cur): result=[] appid = '' ...
2019-11-12 10:08:17
1374
1
原创 python 爬取淘宝第一弹(淘宝登录)
前言2018年7月份,当时我正在学习爬虫,看过一个教程视频是用selenium爬取淘宝,当时因为种种原因(当然还是因为自己太lan)没有去写,但当11月份想找工作时,想找一个爬虫练手,能够写上简历充当项目,当我在去看视频的时候学习的时候,当时自信满满的写完代码,竟然没有登录不能进行搜索!!!好吧那我就做一个滑块功能吧,写完了代码,不知道为何划过去不好使,但是我自己手动滑动滑块完全ok,当时就蒙了...
2019-11-08 16:33:18
38637
3
转载 时间复杂度O(n)什么意思
时间复杂度算法分析同一问题可用不同算法解决,而一个算法的质量优劣将影响到算法乃至程序的效率。算法分析的目的在于选择合适算法和改进算法。一个算法的评价主要从时间复杂度和空间复杂度来考虑。一、时间复杂度(1)时间频度一个算法执行所耗费的时间,从理论上是不能算出来的,必须上机运行测试才能知道。但我们不可能也没有必要对每个算法都上机测试,只需知道哪个算法花费的时间多,哪个算法花费的时间少就可以了...
2019-11-08 11:42:27
20837
原创 python 操作excel表
excel写入操作#导入xlwt库import xlwtimport os# 步骤1:获取excel文件的绝对路径dirPath = os.path.join(os.getcwd(),"data")if not os.path.exists(dirPath): os.mkdir(dirPath)excelPath = os.path.join(dirPath,"data.x...
2019-11-07 08:53:27
198
转载 MYSQL 命令行大全 (简洁、明了、全面)
MYSQL常用命令 1.导出整个数据库 mysqldump -u 用户名 -p –default-character-set=latin1 数据库名 > 导出的文件名(数据库默认编码是latin1) mysqldump -u wcnc -p smgp_apps_wcnc > wcnc.sql 2.导出一个表 mysqldump -u 用户名 -p 数据库名 表名&g...
2019-11-07 08:47:42
451
原创 socket 套接字服务器端和客户端发送信息
socket 套接字服务器端和客户端发送信息这是以前刚开始接触python的时候写的。记录一下服务器端import socketimport threadinghost=''port=6889def cilenThred(conn,addr): print("成功接受客户端{}的连接:{}".format(addr[0],str(addr[1]))) #服务器向客户...
2019-11-05 23:29:36
329
原创 linux Centos7下安装python3及pip3
linux Centos7下安装python3及pip3先去python官网下载python3安装包执行命令:wget https://www.python.org/ftp/python/3.6.5/Python-3.6.5.tgz安装zlib-devel包(后面安装pip需要用到,这里先下载,后面就不用重复编译)yum install zlib-devel解压命令: tar -xvf ...
2019-11-05 23:25:39
366
原创 python爬虫之js逆向(二)
python爬虫之js逆向(二)写在前面每天一更,养成好习惯从我做起。真正想做成一件事,不取决于你有多少热情,而是看你能多久坚持。千万别奢望光有热情就能得偿所愿。网站分析今天的带大家了解一下md5加密,目标网站是有道翻译:http://fanyi.youdao.com/首先第一步打开网址(我用的是google)f12,查看是否是post请求,随便输入一个字,右击查看网页源代码,ctrl+...
2019-11-05 17:16:20
5837
原创 python爬虫之js逆向(一)
python爬虫之js逆向(一)写在前面 现在各种反爬手段很多,虽然我在工作的时候并没有遇到过(我的工作就是爬虫,但是基本上都是爬外网,google,都是企业级爬虫,很少像这样写垂直爬虫)。在平时的技术交流群中经常看到大神们说一些我没遇到过的的反爬手段,为了能够插上话题,为了升职加薪,今天终于下定决心开始学习各种反爬,并在此记录分享心得。本人刚刚上班没几个月,小白一个,有不对的地方希望大神能够...
2019-11-04 21:20:16
5630
2
推特关键词采集,关键词搜索
2022-06-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人