爬虫——scrapy框架核心组件流程

最新推荐文章于 2024-08-24 16:34:34 发布

大神，起风了

最新推荐文章于 2024-08-24 16:34:34 发布

阅读量332

点赞数

分类专栏：爬虫文章标签： scrapy框架流程

爬虫专栏收录该内容

19 篇文章

订阅专栏

本文详细介绍了Scrapy框架的爬虫流程。引擎检测起始URL列表并发起请求，Spiders将请求经引擎交调度器，调度器处理后经引擎和中间件交下载器，下载器获取响应再经引擎和中间件交Spiders，Spiders处理响应提取数据保存，提取的URL再循环处理，无请求时程序结束。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述
流程：

引擎检测起始列表的url,调用start_request方法对列表里的url发起请求
start_urls = [‘https://www.qiushibaike.com/text/’]
Spiders（爬虫）将需要发送请求的url(requests)经ScrapyEngine（引擎）交给Scheduler（调度器）。
Scheduler（排序，入队）处理后，经ScrapyEngine，DownloaderMiddlewares(可选，主要有User_Agent,
Proxy代理)交给Downloader。
Downloader向互联网发送请求，并接收下载响应（response）。将响应（response）经ScrapyEngine，SpiderMiddlewares(可选)交给Spiders。
Spiders处理response，提取数据并将数据经ScrapyEngine交给ItemPipeline保存（可以是本地，可以是数据库）。
提取url重新经ScrapyEngine交给Scheduler进行下一个循环。直到无Url请求程序停止结束。

https://blog.csdn.net/miner_zhu/article/details/81094077

大神，起风了

博客等级

码龄7年

99
原创

48
点赞

310
收藏

33
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 爬虫——多个url数据爬取

下一篇：: 爬虫——post请求，代理，cookie

最新评论

爬虫——scrapy框架爬取多个页面电影的二级子页面的详细信息
漂亮男孩不说谎: def parse(self, response): for each in response.xpath("//li[@class='newsdata_item']/div/div"): item = NewsItem() name = each.xpath("a/text()").extract() href = each.xpath("a/@href").getall() if len(name)>0 and len(href)>0 and name[0].strip().replace('\n', '')!='' and href[0].strip().replace('\n', '')!='': item['name'] = name[0] item['href'] = href[0] print( name[0]+href[0] ) yield scrapy.Request(url=href[0], callback=self.parse_detail, meta={'item': item}) def parse_detail(self, response): print(len(response.xpath("//div[@class='post_body']/p/text()").extract())) detail="" for each in response.xpath("//div[@class='post_body']/p/text()").extract(): detail+=each item = response.meta['item'] item["body"]=detail 老师帮我看一下为啥每次只有最后一条被存到数据库？
数据库的创建表时，字段的数据类型和约束条件
Knight_12318: 感谢
http协议：请求协议，响应协议。请求方法的get和post。响应码
心系雨滴: 479715493
前端——css相对定位，绝对定位，固定定位
Sfatiao: 两张图中间一句话，那你是解释上面一张图呢还是下面一张。
前端——css相对定位，绝对定位，固定定位
SoftSheng..: 不是很明白

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。