scrapy 简介:
1.创建项目(项目名字不能包含中文,开头不能是数字)
创建一个项目文件夹,cmd 进入该文件夹下 输入:
scrapy startproject scrapy_58
创建好了的项目目录结构
2.创建爬虫文件
在 spiders 文件夹中创建爬虫文件
进入 spiders 文件目录创建爬虫文件
scrapy genspider 爬虫文件的名字 域名
例如: scrapy genspider baidu www.baidu.com
3.运行爬虫
scrapy crawl 爬虫的名字
例如:scrapy crawl baidu
百度会有一个 robots 协议,不让爬,修改 settings.py 中 :ROBOTSTXT_OBEY = False
4. scrapy 项目结构
项目名字
spiders 文件夹(存储的是爬虫文件)
init
init
items 定义数据结构的地方,爬取数据都包含哪些
middleware 中间件 代理
pipelines 管道 用来处理下载的数据