【Python爬虫必看】lxml库实战指南：5分钟教你玩转HTML/XML解析｜附豆瓣电影爬虫案例

唐叔在学习

已于 2025-04-06 11:18:29 修改

阅读量1.9k

点赞数 21

分类专栏：唐叔学Python 文章标签： python 爬虫 lxml xpath html解析

于 2025-04-06 11:10:20 首次发布

本文链接：https://blog.csdn.net/Tang_is_learning/article/details/147022846

版权

唐叔学Python 专栏收录该内容

26 篇文章

订阅专栏

大家好，我是唐叔。今天给大家带来Python中一个高效实用的库——lxml。作为爬虫老司机，我可以负责任地说，这是处理HTML/XML解析最趁手的工具之一。下面就从实战角度带大家掌握这个利器。

文章目录

一、lxml库是什么？

lxml是Python中一个功能强大且高性能的HTML/XML解析库，底层用C语言实现，结合了libxml2和libxslt的优点。相比标准库自带的xml.etree，它的速度更快、内存效率更高，而且提供了更友好的API。

pip install lxml  # 安装命令

二、为什么选择lxml？

性能卓越：比BeautifulSoup快很多（特别是处理大文件时）
XPath支持：完整的XPath 1.0实现
兼容性好：自动处理混乱的HTML标签
功能全面：支持XML解析、XSLT转换等

三、核心操作指南

1. 解析HTML/XML

from lxml import etree

# 从字符串解析
html = "<div><p>Hello</p><p>World</p></div>"
tree = etree.HTML(html)  # 自动补全缺失标签

# 从文件解析
with open("test.html", "rb") as f:
    tree = etree.parse(f)

2. XPath数据提取（重点！）

# 获取所有p标签文本
p_texts = tree.xpath("//p/text()")  # ['Hello', 'World']

# 获取带属性的元素
div_class = tree.xpath("//div[@class='content']")

# 获取第2个p标签
second_p = tree.xpath("//p[2]")

3. 元素操作

# 修改元素文本
p = tree.xpath("//p")[0]
p.text = "New Text"

# 添加子元素
new_p = etree.Element("p")
new_p.text = "Python"
tree.getroot().append(new_p)

# 删除元素
parent = p.getparent()
parent.remove(p)

4. 输出处理结果

# 序列化为字节串
print(etree.tostring(tree, encoding="utf-8").decode())

# 美化输出
print(etree.tostring(tree, pretty_print=True).decode())

四、典型使用场景

网页爬虫开发：快速提取结构化数据
XML数据处理：配置文件解析、API响应处理
网页清洗：修复不规范的HTML代码
数据转换：XSLT样式表转换

五、实战案例：爬取豆瓣电影Top250

下面我们用一个完整案例演示lxml的实际应用：

import requests
from lxml import etree

def scrape_douban_top250():
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
    }
    url = "https://movie.douban.com/top250"

    response = requests.get(url, headers=headers)
    tree = etree.HTML(response.text)

    movies = []
    for item in tree.xpath('//div[@class="item"]'):
        title = item.xpath('.//span[@class="title"]/text()')[0]
        rating = item.xpath('.//span[@class="rating_num"]/text()')[0]
        quote = item.xpath('.//span[@class="inq"]/text()')[0] if item.xpath('.//span[@class="inq"]') else ""

        movies.append({
            "title": title,
            "rating": rating,
            "quote": quote
        })

    return movies

if __name__ == "__main__":
    movies = scrape_douban_top250()
    for i, movie in enumerate(movies[:5], 1):
        print(f"{i}. {movie['title']} 评分：{movie['rating']} 短评：{movie['quote']}")

输出示例：

1. 肖申克的救赎 评分：9.7 短评：希望让人自由。
2. 霸王别姬 评分：9.6 短评：风华绝代。
3. 阿甘正传 评分：9.5 短评：一部美国近现代史。
4. 这个杀手不太冷 评分：9.4 短评：怪蜀黍和小萝莉不得不说的故事。
5. 泰坦尼克号 评分：9.4 短评：失去的才是永恒的。

六、避坑指南

编码问题：建议统一使用UTF-8编码处理
XPath性能：复杂的XPath表达式会影响性能
异常处理：网络请求和解析时添加try-catch
反爬应对：合理设置请求头和使用代理

七、总结

lxml凭借其出色的性能和丰富的功能，成为Python数据处理领域的瑞士军刀。特别是它的XPath支持，让数据提取变得异常简单。通过本文的讲解和实战案例，相信你已经掌握了基本用法。

老规矩，代码要自己动手敲才能真正掌握。遇到问题欢迎在评论区交流，我是唐叔，我们下期见！

延伸阅读：

【爬虫】往期文章推荐：

更多内容可以关注《唐叔学Python》专栏。