前言
嗨喽~大家好呀,这里是魔王呐 ❤ ~!
模块使用:
爬虫部分:
-
requests
-
parsel
-
csv
数据分析部分:
-
pandas
-
pyecharts
如何安装模块:
-
win + R 输入 cmd 输入安装命令: pip install 模块名 回车
-
pycharm里面安装 terminal 输入安装命令: pip install 模块名 回车
模块安装失败的原因:
-
提示:pip 不是内部命令
你python环境变量可能没有设置好
-
有安装进度条显示,但是安装到一半出现报错了
因为python安装模块都是在国外的网址进行下载安装的, 国内请求国外 网速很慢,
下载速度大概只有 几KBread time out 网络连接超时 你可以切换为国内的镜像源
-
明明在cmd里面安装好了,但是在pycharm 提示我没有这个模块
你pycharm里面python解释器没有设置,你在pycharm设置里面重新设置一下
开发环境:
-
python 3.6
-
pycharm
流程思路:
-
确定目标需求
python采集旅游景点数据 / 去哪儿~
-
发送请求
-
获取数据
-
解析数据
-
保存数据
需要 源码 . 素材 . 解答 点击领取即可
代码展示
采集数据
导入模块
import requests # 发送请求模块 第三方模块 pip install requests
import parsel # 数据解析模块 第三方模块 pip install parsel
import csv # 内置模块
import time # 时间模块 可以用作延时
写入表格
f = open('张家界景点.csv', mode='a', encoding='utf-8-sig', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['景区', '星级', '地区', '热度', '销量', '地址',
'价格', '简介', '详情页'])
csv_writer.writeheader() # 写入表头
多页采集
for page in range(1, 12):
# '{}'.format(page) 字符串格式化的方法
print(f'===============================正在爬取第{
page}页数据内容=======================================')
time.sleep(2)
请求链接
url = f'https://*****.com/ticket/list_%E5%BC%A0%E5%AE%B6%E7%95%8C.html?from=mps_search_suggest_h&keyword=%E5%BC%A0%E5%AE%B6%E7%95%8C&page={page}'
请求头:把python代码伪装成浏览器 给服务器发送请求
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.43