【Python爬虫必看】零基础手把手教你爬取豆瓣电影Top250，附完整代码实战！

原创已于 2025-04-06 20:47:50 修改 · 3.4k 阅读

36 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #requests #beanutifulsoup #lxml

于 2025-04-06 20:45:04 首次发布

唐叔学Python 专栏收录该内容

42 篇文章

订阅专栏

该文章已生成可运行项目，

各位小伙伴们好呀，我是唐叔。今天咱们来聊聊Python爬虫这个神奇的工具。

文章目录

一、爬虫到底是什么？

简单来说，爬虫就是自动抓取网页数据的程序，就像一只勤劳的小蜘蛛，在互联网上爬来爬去，把我们需要的信息收集起来。

1.1 爬虫的典型应用场景

搜索引擎（比如百度、Google）
价格监控（比价网站）
舆情分析（抓取社交媒体数据）
数据采集（学术研究、市场调研）

二、Python爬虫必备工具包

在Python中，这几个库是爬虫的"黄金搭档"：

库名	用途	安装命令
requests	发送HTTP请求	`pip install requests`
BeautifulSoup	解析HTML	`pip install beautifulsoup4`
lxml	快速解析库	`pip install lxml`
selenium	浏览器自动化	`pip install selenium`

三、基础爬虫四步走

3.1 第一步：发送请求

import requests

url = 'https://www.example.com'
response = requests.get(url)
print(response.status_code)  # 200表示成功

3.2 第二步：解析内容

from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'lxml')
title = soup.find('h1').text
print(f"网页标题: {title}")

3.3 第三步：提取数据

links = [a['href'] for a in soup.find_all('a', href=True)]
print("页面链接:", links)

3.4 第四步：存储数据

import csv

with open('data.csv', 'w', newline='') as f:
    writer = csv.writer(f)
    writer.writerow(['链接'])
    writer.writerows([[link] for link in links])

四、实战案例：爬取豆瓣电影Top250

下面唐叔带大家做一个完整的实战项目，记得跟着敲代码哦！

4.1 目标分析

我们要获取：

电影名称
评分
经典台词
详情页链接

4.2 完整代码实现

import requests
from bs4 import BeautifulSoup
import csv
import time

def scrape_douban_top250():
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
    }

    base_url = 'https://movie.douban.com/top250'
    movies = []

    for start in range(0, 250, 25):
        url = f"{base_url}?start={start}"
        response = requests.get(url, headers=headers)
        soup = BeautifulSoup(response.text, 'lxml')

        for item in soup.find_all('div', class_='item'):
            title = item.find('span', class_='title').text
            rating = item.find('span', class_='rating_num').text
            quote = item.find('span', class_='inq').text if item.find('span', class_='inq') else "无"
            link = item.find('a')['href']

            movies.append([title, rating, quote, link])

        time.sleep(2)  # 礼貌爬虫，防止被封

    # 保存数据
    with open('douban_top250.csv', 'w', newline='', encoding='utf-8-sig') as f:
        writer = csv.writer(f)
        writer.writerow(['电影名称', '评分', '经典台词', '详情链接'])
        writer.writerows(movies)

    print("数据爬取完成！共获取{}部电影信息".format(len(movies)))

if __name__ == '__main__':
    scrape_douban_top250()