前言
从0配置Scrapy爬虫程序,并记录如何调试脚本,保存数据到数据库。
这里我们以 Scrapy 推荐的官方练习项目为例进行实战演练
配置
1 初始环境
安装Anaconda,Anaconda是一个软件包管理和环境管理系统。
安装PyCharm,Python编辑器
2 创建Scrapy项目并运行
打开 Anaconda Prompt
运行以下命令
1 scrapy startproject quotes D:\PythonCode\CrawlerProject\ScrapyDemo
运行成功后得到如下项目文件
ScrapyDemo
|____ quotes
|________ spiders
|____________ __init__.py
|________ __init__.py
|________ items.py
|________ middlewares.py
|________ pipelines.py
|________ settings.py
|____ scrapy.cfg
2 切换到ScrapyDemo 目录,用下面的命令创建名为quotes的爬虫程序。
scrapy genspider quotesscrapy quotes.toscrape.com
运行完成会在spiders目录下得到quotesscrapy.py文件
3修改items.py文件,这里定义你抓取时数据的结构
# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html
import scrapy
class QuotesItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
text = scrapy.Field() # 每条名言的内容