- 博客(335)
- 收藏
- 关注
转载 python 多进程数量 对爬虫程序的影响
1. 首先看一下 python 多进程的优点和缺点 多进程优点: 1.稳定性好: 多进程的优点是稳定性好,一个子进程崩溃了,不会影响主进程以及其余进程。基于这个特性,常常会用多进程来实现守护服务器的功能。 然而多线程不足之处在于,任何一个线程崩溃都可能造成整个进程的崩溃,因为它们共享了进程的内存资源池。 ...
2019-09-12 13:16:00
678
转载 python 使用sort 对列表排序的性能测试
首先对一百万数据进行排序: 对一千万数据进行排序: 对一亿数据进行排序: 转载于:https://www.cnblogs.com/xuchunlin/p/11441160.html...
2019-09-01 00:20:00
680
转载 使用 python set 去重 速度到底是多快呢???
这次去测试一下 python 的set去重,速度怎么样?我们要做的是把文件一次性读取到内存中,然后去重,输出去重的长度。第一步:对121w 条数据去重,看去重话费的时间 上证据: 第二步:对1210 w 条数据去重,看去重话费的时间 第三步:对1.21 亿 条数据去重,看去重话费的时间 ...
2019-08-29 17:09:00
587
转载 搜狐视频 登录 md5 加密破解
这是一个简单的md5加密,可以学习一下js加密的破解流程,当一个入门级的教程第一步:请求抓包 password是32位的字母和数字组合,猜测可能是md5加密,我们md5在线工具上试一下 发现我们的猜测是完全正确的第二步:搜索js加密字段 第三步: 静态分析js,打断点 1. 2....
2019-08-29 10:09:00
636
转载 大众点评评论数据抓取 反爬虫措施有css文字映射和字体库反爬虫
大众点评评论数据抓取 反爬虫措施有css文字映射和字体库反爬虫大众点评的反爬虫手段有那些: 封ip,封账号,字体库反爬虫,css文字映射,图形滑动验证码 这个图片是滑动验证码,访问频率高的话,会出现这个滑动验证码 ...
2019-08-29 09:51:00
742
转载 京东js加密 nloginpwd 破解
京东登录,有一个参数nloginpwd,是加密字段。第一步:浏览器抓包 第二部:搜索加密字段 js 代码 第三部: 下断点 2. js代码:var navigator = {};var window = {};var Base64 = {};var ...
2019-08-28 16:53:00
1685
转载 python 实现 DES CBC模式加解密
# -*- coding=utf-8-*-from Crypto.Cipher import DESimport base64"""des cbc加密算法padding : PKCS5"""class DESUtil: __BLOCK_SIZE_8 = BLOCK_SIZE_8 = DES.block_size __IV =...
2019-08-28 08:29:00
1494
转载 python 实现 AES CBC模式加解密
AES加密方式有五种:ECB, CBC, CTR, CFB, OFB从安全性角度推荐CBC加密方法,本文介绍了CBC,ECB两种加密方法的python实现python 在Windows下使用AES时要安装的是pycryptodome 模块 pip install pycryptodomepython 在Linux下使用AES时要安装的是pycrypto模块pi...
2019-08-28 08:25:00
1339
转载 python 实现 AES ECB模式加解密
AES ECB模式加解密使用cryptopp完成AES的ECB模式进行加解密。AES加密数据块分组长度必须为128比特,密钥长度可以是128比特、192比特、256比特中的任意一个。(8比特 == 1字节)在CBC、CFB、OFB、CTR模式下除了密钥外,还需要一个初始化向IV。(ECB模式不用IV)代码: # -*- coding=utf-8-*-f...
2019-08-28 08:18:00
878
转载 某个新闻网站抓去自媒体账号 queryId js破解
第一步: 发现加密第二部:搜索加密参数 queryId 第三部:找到js核心加密代码第四部:代码实现window = {}function utf8ToBase64(t) { console.log(t) aa = window.btoa(unescape(encodeURIComponen...
2019-08-27 15:30:00
150
转载 rsa 解密过程
直接扣js代码 $w = {};if (typeof $w.RSAUtils === 'undefined') var RSAUtils = $w.RSAUtils = {};var biRadixBase = 2;var biRadixBits = 16;var bitsPerDigit = biRadixBits;var biRadix = 1 &l...
2019-08-27 15:13:00
216
转载 计算机 KB,MB,GB,TB,PB,EB 计算
ASCII码:一个英文字母(不分大小写)占一个字节的空间。一个二进制数字序列,在计算机中作为一个数字单元,一般为8位二进制数。换算为十进制,最小值-128,最大值127。如一个ASCII码就是一个字节。UTF-8编码:一个英文字符等于一个字节,一个中文(含繁体)等于三个字节。中文标点占三个字节,英文标点占一个字节Unicode编码:一个英文等于两个字节,一个中文(含繁体)等于两个...
2019-08-26 13:32:00
1457
转载 python 验证码识别示例(五) 简单验证码识别
今天介绍一个简单验证的识别。主要是标准的格式,没有扭曲和变现。就用pytesseract 去识别一下。验证码地址:http://wscx.gjxfj.gov.cn/zfp/webroot/xfsxcx.html需要识别的验证码是:因为这个验证码有干扰点,所以直接识别的效果非常不好。首先对验证码进行二值化和降噪。效果如下:识别结...
2019-08-10 23:59:00
507
转载 python 验证码识别示例(四) 简单验证码识别
今天介绍一个简单验证的识别。主要是标准的格式,没有扭曲和变现。就用pytesseract 去识别一下。验证码地址:http://wsxf.mca.gov.cn/zfp/Random.cmd?d=1565452532947需要识别的验证码是:识别结果是:识别率百分之八十。10个有两个错误。识别代码:#coding:u...
2019-08-10 23:54:00
263
转载 python 验证码识别示例(三) 简单验证码识别
今天介绍一个简单验证的识别。主要是标准的格式,没有扭曲和变现。就用pytesseract 去识别一下。验证码地址:https://user.www.gov.cn/sso/verifyimg_edit?rd=0.22469390770687414需要识别的验证码是:识别结果是:识别代码是:#coding:utf-8from c...
2019-08-10 23:46:00
229
转载 信用中国(广西验证码二值化和降噪)
对于普通的字符型验证码,如果可以分割,那么降噪和二值化以后,就很容易识别了。这篇博客主演是对验证码进行降噪和二值化。下面的图片是处理前的验证码和处理后的验证码截图:下面是登录的验证码: 下面是验证码处理前后的对比 降噪代码不再附加转载于:https://www...
2019-08-07 13:19:00
191
转载 unicode转换为中文
unicode转换为中文\u5f53\u5730\u65f6\u95f42019\u5e747\u670813\u65e5\uff0c\u82f1\u56fd\u8d1d\u5fb7\u798f\u7279\u90e1\u74e6\u827e\u6ce2\u65af\u987f\uff0c\u82f1\u56fd\u9996\u76f8\u70ed\u95e8\u5019\u90...
2019-07-22 14:48:00
24518
转载 烦人的警告 Deprecated: convertStrings was not specified when starting the JVM
python 调用java代码: Deprecated: convertStrings was not specified when starting the JVM. The defaultbehavior in JPype will be False starting in JPype 0.8. The recommended settingfor new co...
2019-07-11 13:32:00
780
转载 Python 推送RabbitMQ
username = 'xxxxxxxx'pwd = 'xxxxxxxx'user_pwd = pika.PlainCredentials(username, pwd)s_conn = pika.BlockingConnection(pika.ConnectionParameters('110.318.111.211', credentials=user_pwd))c...
2019-06-20 08:37:00
197
转载 人不成熟的五大特征:立即要回报、不自律、经常被情绪所左右、不愿学习、做事情不靠信念靠人言(你中了几条?)...
人不成熟的五大特征:立即要回报、不自律、经常被情绪所左右、不愿学习、做事情不靠信念靠人言(你中了几条?)转载自:管理晨读原文链接:https://mp.weixin.qq.com/s/qYIiYZy3S73bqONy08dsSg作者|张瑞敏来源|人民日报这个社会有很多的成年人,还没有脱离幼稚的行为,一点小事情就跟别人争来争去。1 人不成熟的...
2019-05-31 09:10:00
196
转载 使用 xpath helper 提取网页链接
需求是这样的,公司某个部门不会爬虫,不懂任何技术性的东西,但是希望去提取网页的一个分享链接,老大要求去开发谷歌浏览器插件,但一时半会也搞不定这个啊,想到用xpath helper 作为一个临时的替补方案;第一步:下载 安装 谷歌xpath helper 这个插件 chrome插件XPath Helper的下载与安装 参考教程https://blo...
2019-05-28 10:33:00
559
转载 Python 爬虫js加密破解(四) 360云盘登录password加密
登录链接:https://yunpan.360.cn/mindex/login这是一个md5 加密算法,直接使用 md5加密即可实现本文讲解的是如何抠出js,运行代码第一部:抓包如图 第二步:调试,打断点; 第三步:找到js,扣出来; 第四部:运行js文件; ...
2019-05-23 15:33:00
290
转载 Python 爬虫js加密破解(三) 百度翻译 sign
第一步: 模拟抓包分析加密参数 第二步: 找到加密字段 调试出来的sign和抓取得到的数据一致,都是275626.55195第三部: 分析js加密方法 第四部:运行js代码;...
2019-05-16 11:33:00
187
转载 Python 获得最近一个月的每天的日期
直接上代码:#coding:utf-8# from common.contest import *import datetimeimport timebegin_date = (datetime.datetime.now() - datetime.timedelta(days =30)).strftime("%Y-%m-%d")date_list = ...
2019-04-17 11:52:00
439
转载 VNC Viewer 设置屏幕分辨率
1.第一种方法:使用geometry参数进行调整vncserver -geometry 1280x1024即可,之后通过window下vnc连接后的ubuntu分辨率即为1280x1024了,注意这里的X是小写的x而不是*2.第二种方法:修改配置文件vncservers[root@secdb ~]# vi /etc/sysconfig/vncservers# Th...
2019-04-11 22:06:00
5036
转载 单表40G,不要吃惊,还能往里面插入数据,哈哈
单表40G,不要吃惊,还能往里面插入数据,哈哈上图:转载于:https://www.cnblogs.com/xuchunlin/p/10676935.html
2019-04-09 15:03:00
99
转载 谁是谁的谁多
(function() { $("a").on("click contextmenu", function() { var b = Math.floor(100 * Math.random()) + 1, a = this.href.indexOf("url="), c = this.href.indexOf(...
2019-04-04 10:21:00
111
转载 300万数据去重问题
问题:有一个300w行的文件,需要给他去重,有什么好的方法,前提是速度要快。我的实现方式是:1 .文件读取到内存中2.在内存中去重3.插入到MySQL中去。300万行数据,实现去重只需要80秒想提高插入速度可以批量插入和 并发 插入数据。直接上代码:# coding:utf-8from common.contest import *impo...
2019-03-13 15:09:00
199
转载 ip代理优化
如何保证可用ip不低于2000个,代理ip池优化策略第一:获得大量ip;第二:验证可用ip;第三:监控可用ip;第三:保证可用ip不低于3000或者5000;截图是实时可用ip数量心得:不要用什么 VPS虚拟主机拨号 或者ADSL拨号代理,好好地优化ip池,会有足够的 ip 够我们使用的。转载于:https://www.cnbl...
2019-02-27 13:43:00
161
转载 爬虫破解js加密破解(二) 有道词典js加密参数 sign破解
在爬虫过程中,经常给服务器造成压力(比如耗尽CPU,内存,带宽等),为了减少不必要的访问(比如爬虫),网页开发者就发明了反爬虫技术。 常见的反爬虫技术有封ip,user_agent,字体库,js加密,验证码(字符验证码,滑动验证码,点触式验证码等)。所谓魔高一尺道高一丈。有反爬虫,就有反反爬虫技术。本文重要讲js加密的破解方法。js加密一般是在请求头或者请求参数加入加...
2019-02-21 14:51:00
261
转载 搜狗微信 为了保护你的网络安全,请输入验证码
我的网络安全需要搜狗微信的验证码保护吗?真他妈的扯淡。破解方法:不停更换snuid转载于:https://www.cnblogs.com/xuchunlin/p/10374236.html
2019-02-14 14:00:00
420
转载 MYSQL单表可以存储多少条数据???
MYSQL单表可以存储多少条数据???单表存储四千万条数据,说MySQL不行的自己打脸吧。多说一句话,对于爬虫来说,任何数据库,仅仅是存储数据的地方,最关心的是 能否存储数据和存储多少数据以及存储数据的速度而已。至于后期的处理需要查询,完全可以用ES或者其他的数据库。转载于:https://www.cnblogs.com/xuchunlin/p...
2019-02-14 09:49:00
1112
转载 进程,线程,协程的区别
进程不共享任何状态调度由操作系统完成有独立的内存空间(上下文切换的时候需要保存栈、cpu寄存器、虚拟内存、以及打开的相关句柄等信息,开销大)通讯主要通过信号传递的方式来实现(实现方式有多种,信号量、管道、事件等,通讯都需要过内核,效率低)线程共享变量(解决了通讯麻烦的问题,但是对于变量的访问需要加锁)调度...
2019-01-28 11:02:00
72
转载 ES 安装 head安装
https://www.elastic.co/downloads/elasticsearchhttp://www.cnblogs.com/xuxy03/p/6039999.htmlhttps://blog.csdn.net/camelcanoe/article/details/79528265转载于:https://www.cnblogs.com/xuchunli...
2019-01-08 15:42:00
57
转载 淘宝频繁访问会出现滑动验证码
频繁的访问淘宝一个链接,然后抛出来一个滑动验证码,测试后发现淘宝发现某个ip请求频繁,就跑出验证码。解决办法是ip池转载于:https://www.cnblogs.com/xuchunlin/p/10194919.html...
2018-12-29 11:39:00
8142
转载 百度 资讯 爬虫解决方案
前言:本文介绍的是基于关键词搜索实现百度资讯的爬虫解决办法第一步:关键词搜索 1. 我们要找到适合自己的关键词,注意关键词决定着我们能否搜索到优质的数据,所以找到足够多的关键词,优质的关键词,能让我们采集更多的数据。 2.搜索按照时间大小排序,在第一页解析出来 新闻标题,新闻来源,新闻发布时间,新闻简单描述,新闻url链接。 ...
2018-12-26 19:20:00
381
转载 人的一生会遇到什么样的痛苦????
最近发生了一些事情,感觉自己走到了人生的巅峰,但是又发生了一些事情,使人生坠入了低谷,我突然想起来一句话,人的一生经得起什么样的磨难,就能取得什么样的成就,我从小到大吃过了太多的苦,作过很多难,吃过无数次亏,他们都没有打倒我,每次从新站起来了。这次一定打不倒我,不出半年我还会站起来的,加油。 ----人的一生经得起什么样的磨难,就能取得什么样的成...
2018-12-20 09:39:00
122
转载 python gb2312 转换为 utf-8
url = "" headers = { "Host":"www.chinanews.com", "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Saf...
2018-12-04 15:16:00
836
转载 爬虫 需要什么样的 CPU,内存 和带宽
所有的需求都看这个图片吧,这个就是我爬取一个网站所用的服务器和服务器资源的消耗情况。转载于:https://www.cnblogs.com/xuchunlin/p/10058412.html...
2018-12-03 14:46:00
2223
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人