scrapy 简单爬取58,百度,汽车之家

scrapy 简介:

1.创建项目(项目名字不能包含中文,开头不能是数字)

创建一个项目文件夹,cmd 进入该文件夹下 输入:

scrapy startproject scrapy_58

 创建好了的项目目录结构

 2.创建爬虫文件

在 spiders 文件夹中创建爬虫文件
        进入 spiders 文件目录创建爬虫文件
        scrapy genspider 爬虫文件的名字 域名
        例如: scrapy genspider baidu www.baidu.com
3.运行爬虫
scrapy crawl 爬虫的名字
        例如:scrapy crawl baidu
        百度会有一个 robots 协议,不让爬,修改 settings.py 中 :ROBOTSTXT_OBEY = False
4. scrapy 项目结构
项目名字
        spiders 文件夹(存储的是爬虫文件)
            init
        init
        items 定义数据结构的地方,爬取数据都包含哪些
        middleware 中间件 代理
        pipelines 管道 用来处理下载的数据
      
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值