
scrapy
又菜又爱玩呜呜呜~
成为一名优秀的架构师
展开
-
scrapy框架爬取腾讯招聘
1.对腾讯直聘的页面进行分析最后发现首页面是AJAx请求,所以我们返回应该是一个JSON包的形式2.重写爬虫start_request方法3.接受JSON包并设定字典储存数据4.根据POSTID,拼接详情页url, 并将详情页添加进字典1.拼接url并传递连接到详情页2.对详情页的JSON包进行解析5.在管道内进行存储, 将数据存入数据库中6.源代码1.爬虫页面源代码import scrapyimport jsonimport timeclass A51jobSpider原创 2021-08-24 20:19:01 · 251 阅读 · 0 评论 -
scrapy中parse之间传递不通
今天在写scrapy爬取网站时,列表页的url请求详情页的url,不执行也不报错,最后发现是yield scrapy.Request中少了dont_filter=true没有时有的时候dont_filter到底是什么?dont_filter,是关闭去重的,scrapy会对request的URL去重(RFPDupeFilter),加上dont_filter则告诉它这个URL不参与去重,而且不会被allowed_domains域名过滤掉...原创 2021-08-23 20:38:58 · 190 阅读 · 0 评论 -
scrapy入门基础
1.scrapy的安装pip install scrapy2.scrapy项目的创建1.首先找到要建立项目的位置在路径前面加上cmd然后回车2.输入建立scrapy项目的命令scrapy startproject + 你要起的项目名称例如:scrapy startproject study出现这个就说明创建成功了,打开pycharm就可以查看项目的结构3.建立爬虫项目1.在cmd命令中输入cd 加刚才的项目名2.输入创建爬虫文件的命令scrapy genspider 爬原创 2021-08-22 21:28:27 · 1671 阅读 · 0 评论