
爬虫
raylu666
这个作者很懒,什么都没留下…
展开
-
python scrapy 对爬虫爬到的url 进行md5加密
MD5是文件的“数字指纹”,加密作用很多:校验文件、校验密码等比如对爬虫爬到的url进行加密:# -*- coding: utf-8 -*-import scrapyfrom scrapy.selector import Selector,HtmlXPathSelectorimport sys,io,hashlibclass ChoutiSpider(scrapy.Spider...原创 2019-01-04 22:03:39 · 1549 阅读 · 0 评论 -
scrapy 爬取论坛帖子名称及链接(递归方式获取)
本文主要爬取西安论坛帖子,如果要爬取内容及评论热度等可以再深入爬取首先建立spider xi'an,命令 scrapy genspider xian ixian.comxian.py内容:import scrapyfrom scrapy.selector import Selector,HtmlXPathSelectorfrom scrapy.http import Reques...原创 2019-01-05 13:24:50 · 1714 阅读 · 0 评论 -
scrapy批量爬取校花网图片并保存到本地
1. 校花网对爬虫浏览器(User-Agent)有限制,如果强行多次爬取会报错,IP被封禁:Connection was refused by other side: 10061: 由于目标计算机积极拒绝,无法联机解决办法:加入Headers, 可以加入动态header和动态代理IP,防止频繁爬取数据IP被封:一般如果已经被封了,过1小时左右就可以自动解封.2.spider中建...原创 2019-01-05 18:05:12 · 795 阅读 · 0 评论 -
scrapy 爬虫有些网站爬不了: Forbidden by robots.txt
有些网站爬不了,爬虫会自动终止,观察错误代码:2019-01-05 21:57:21 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:60232019-01-05 21:57:21 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://...原创 2019-01-05 22:04:05 · 1728 阅读 · 0 评论 -
scrapy爬虫带cookie自动登录网站并对所有帖子点赞
这里登录抽屉并对所有帖子点赞,账号密码就不透漏了,哈# -*- coding: utf-8 -*-import scrapyfrom scrapy.http.cookies import CookieJarfrom scrapy.http import Requestfrom scrapy.selector import Selectorclass ChoutioSpider(s...原创 2019-01-05 23:00:15 · 977 阅读 · 0 评论 -
scrapy 自定义扩展extensions
#框架扩展,在某些位置加入自定制功能,类似于面向切面编程#参考原扩展类自定义类#from scrapy.extensions.telnet import TelnetConsole自定义extensions.pyfrom scrapy import signals#框架扩展,在某些位置加入自定制功能#from scrapy.extensions.telnet import ...原创 2019-01-05 23:50:16 · 1192 阅读 · 0 评论 -
scrapy 自定制全部爬取命令,另外详解settings.py中各配置参数含义
一. scrapy 自定义 同时启动全部爬虫命令1. 在spider同级目录建一个文件夹,如:customcommand2.在文件夹内建立 crawlall.py3. crawlall.py内容如下:from scrapy.commands import ScrapyCommandfrom scrapy.utils.project import get_project_sett...原创 2019-01-06 14:26:01 · 1040 阅读 · 0 评论