python爬虫，爬取豆瓣电影信息

最新推荐文章于 2025-04-06 18:17:06 发布

a_hotpot

最新推荐文章于 2025-04-06 18:17:06 发布

阅读量3.4k

点赞数 1

分类专栏： python学习

本文链接：https://blog.csdn.net/lsy_07/article/details/80932002

版权

博主分享了初次尝试Python爬虫的经历，成功爬取了豆瓣电影Top250的电影名字、评分、评分人数及部分短评。在过程中遇到了电影短评缺失和编码错误的问题，通过try...except结构处理了IndexError，并在保存文件时解决了UnicodeEncodeError，计划进一步完善爬虫，添加多线程和图像抓取功能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

hhhhh开心，搞了一整天，查了不少python基础资料，终于完成了第一个最简单的爬虫：爬取了豆瓣top250电影的名字、评分、评分人数以及短评。

代码实现如下：

#第一个最简单的爬虫
#爬取了豆瓣top250电影的名字、评分、评分人数以及短评

#观察豆瓣电影top250的网页可以发现:
#电影信息在一个ol标签之内，该标签的class属性值为grid_view
#1.电影的信息都在一个li标签里
#2.电影的电影名称在：第一个class属性值为hd的div标签下的 第一个 class属性值为title 的span标签里
#3.电影的评分在对应li标签里一个class属性值为rating_num 的span标签里
#4.电影的评价人数在 对应li标签 里的一个 class属性值为star 的div标签中 的最后一个数字
#5.电影的短评在 对应li标签 里的一个class属性值为inq的span标签里
#6.除第一页外，其他页的url：https://movie.douban.com/top250?start=X&filter= X的值为25-225的等差数列，差为25

from lxml import etree
import requests
import re

def get_info(url):
	movie_info = ''
	#通过get访问页面
	html = requests.get(url)
	selector = etree.HTML(html.text)
	content = selector.xpath('//ol[@class="grid_view"]/li')
	#第一个for循环抓取一整页的数据
	for r in content:
		#抓取电影的名字
		movie_name = r.xpath('./div[@class="it

最低0.47元/天解锁文章