【愚公系列】《Python网络爬虫从入门到精通》023-多线程爬虫

愚公搬代码

已于 2025-02-21 03:00:50 修改

阅读量1.8w

点赞数 2

分类专栏：愚公系列-书籍专栏文章标签：爬虫 python

于 2025-02-20 23:06:20 首次发布

本文链接：https://blog.csdn.net/aa2528877987/article/details/145765780

版权

标题	详情
作者简介	愚公搬代码
头衔	华为云特约编辑，华为云云享专家，华为开发者专家，华为产品云测专家，CSDN博客专家，CSDN商业化专家，阿里云专家博主，阿里云签约作者，腾讯云优秀博主，腾讯云内容共创官，掘金优秀博主，亚马逊技领云博主，51CTO博客专家等。
近期荣誉	2022年度博客之星TOP2，2023年度博客之星TOP2，2022年华为云十佳博主，2023年华为云十佳博主，2024年华为云十佳博主等。
博客内容	.NET、Java、Python、Go、Node、前端、IOS、Android、鸿蒙、Linux、物联网、网络安全、大数据、人工智能、U3D游戏、小程序等相关领域知识。
欢迎	👍点赞、✍评论、⭐收藏

🚀前言

在信息爆炸的时代，数据的获取和处理变得愈发重要。网络爬虫作为一种强大的数据采集工具，已经在各个领域中发挥着不可或缺的作用。而在爬取大规模数据时，单线程的爬虫往往显得力不从心，效率低下。为了提升数据获取的速度和效率，多线程爬虫应运而生。

本期文章将深入探讨多线程爬虫的原理与应用，带您了解如何利用多线程技术显著提高网络数据的采集效率。我们将从多线程的基本概念入手，逐步剖析其在爬虫开发中的具体实现和最佳实践。

🚀一、多线程爬虫

🔎1.什么是线程

线程(Thread)是操作系统能够进行运算调度的最小单位。它被包含在进程中，是进程中的实际运作单位。一条线程指的是进程中一个单一顺序的控制流，一个进程中可以并发多个线程，每条线程并行执行不同的任务。例如，对于视频播放器，显示视频用一个线程，播放音频用另一个线程。只有两个线程同时工作，我们才能正常观看画面和声音同步的视频。

举个生活中的例子来更好地理解进程和线程的关系。一个进程就像一座房子，它是一个容器，有着相应的属性，如占地面积、卧室、厨房和卫生间等。房子本身并没有主动地做任何事情。而线程就是这座房子的居住者，他可以使用房子内每一个房间、做饭、洗澡等。

🔎2.Python线程创建

🦋2.1 线程模块选择

thread模块：低级模块，功能有限（不推荐直接使用）。
threading模块：高级模块，封装了thread，提供更全面的线程管理接口（推荐使用）。

🦋2.2 创建线程的两种方式

方式1：直接使用threading.Thread类

语法：
```
Thread(group=None, target=None, name=None, args=(), kwargs={
     })
```
参数说明：
1. group:
  - 说明: 该参数保留给将来的版本，当前版本中应始终设置为 None。
  - 默认值: None
2. target:
  - 说明: 表示一个可调用对象（如函数），线程启动时，run() 方法将调用此对象。如果不提供该参数，线程将不会执行任何操作。
  - 默认值: None
3. name:
  - 说明: 表示当前线程的名称。如果未指定，将自动生成一个名称，格式为“Thread-N”，其中 N 是一个唯一的数字。
  - 默认值: None（自动生成名称）
4. args:
  - 说明: 表示传递给 target 函数的参数，以元组的形式提供。如果 target 函数不需要参数，可以设置为一个空元组。
  - 默认值: ()（空元组）
5. kwargs:
  - 说明: 表示传递给 target 函数的关键字参数，以字典的形式提供。如果 target 函数不需要关键字参数，可以设置为一个空字典。
  - 默认值: {}（空字典）

示例代码（创建4个线程）：

# -*- coding:utf-8 -*-
import threading,time

def process():
  for i in range(3):
      time.sleep(1)
      print("thread name is %s" % threading.current_thread().name)

if __name__ == '__main__':
  print("-----主线程开始-----")
  # 创建4个线程，存入列表
  threads = [threading.Thread(target=process