scrapy 简单爬取58，百度，汽车之家

Drizzlejj

于 2022-05-26 16:19:17 发布

阅读量648

点赞数

文章标签：汽车 python 开发语言

本文链接：https://blog.csdn.net/Drizzlejj/article/details/124986286

版权

scrapy 简介：

1.创建项目（项目名字不能包含中文，开头不能是数字）

创建一个项目文件夹，cmd 进入该文件夹下输入：

scrapy startproject scrapy_58

创建好了的项目目录结构

2.创建爬虫文件

在 spiders 文件夹中创建爬虫文件
        进入 spiders 文件目录创建爬虫文件
        scrapy genspider 爬虫文件的名字 域名
        例如: scrapy genspider baidu www.baidu.com

3.运行爬虫

scrapy crawl 爬虫的名字
        例如：scrapy crawl baidu
        百度会有一个 robots 协议，不让爬，修改 settings.py 中 ：ROBOTSTXT_OBEY = False

4. scrapy 项目结构

项目名字
        spiders 文件夹（存储的是爬虫文件）
            init
        init
        items 定义数据结构的地方，爬取数据都包含哪些
        middleware 中间件 代理
        pipelines 管道 用来处理下载的数据