正则+协程--20行代码实现爬取整个网页的图片

实验分析

1.下载图片,所以需要文件相关的操作

2.想要多任务下载,所以用到协程中的gevent模块--gevent.joinall()

3.因为用到gevent模块,担心有延时操作的话,导入gevent中的monkey模块

4.想要进行网络请求,并读取内容,需要用到 urllib中的request模块

5.想要匹配网页源代码中所有的jpg。需要用到正则表达式--- import re

6.因为是匹配所有的jpg,所以可以用re模块中的findall(),它返回一个列表

7.通过设置变量递增和遍历列表,可以知道第n个图片对应第n个图片地址

所有的分析都已经完成就可以尝试去完成

 

实现代码:

import gevent
import urllib.request
from gevent import monkey
import re

monkey.patch_all()

def download_img(img_name,img_url):
    req=urllib.request.urlopen(img_url)
    img_content=req.read()

    with open(img_name,"wb")as f:
        f.write(img_content)


def main():
    with open("/home/python/Desktop/mxf.html", "rb") as f:
        url_content = f.read().decode("utf-8")

    img_url_list = re.findall("http://rpic[^\s]*?.jpg", url_content)

    x = 0
    for img_url in set(img_url_list):
        g1 = gevent.spawn(download_img, "/home/python/Desktop/斗鱼体育图片/%d.jpg" % x , img_url)
        x += 1
        gevent.joinall([g1])


if __name__ == '__main__':
    main()

实现结果

 

总结:本次实现过程中遇到很多问题,发现关于正则的基础知识不是很牢固,下去应该着重练习相关的习题和案例。

 

 

好的,下面是一个使用 `requests` 和 `re` 库编写的虫程序,用于爬取指定网页中的图片: ```python import requests import re # 指定要爬取网页 url = 'https://www.example.com' # 发送请求,获取网页内容 response = requests.get(url) html = response.text # 使用正则表达式匹配图片链接 pattern = r'<img.*?src="(.*?)".*?>' img_urls = re.findall(pattern, html) # 遍历图片链接,依次下载图片 for img_url in img_urls: # 发送请求,获取图片内容 img_response = requests.get(img_url) img_content = img_response.content # 获取图片文件名 img_name = img_url.split('/')[-1] # 保存图片到本地 with open(img_name, 'wb') as f: f.write(img_content) ``` 解释一下上面的程序: 1. 首先指定要爬取网页的 URL,存储到 `url` 变量中; 2. 然后使用 `requests` 库发送 HTTP 请求,获取网页内容,存储到 `html` 变量中; 3. 使用正则表达式匹配网页中所有的图片链接,存储到 `img_urls` 列表中; 4. 遍历 `img_urls` 列表,依次下载每个图片文件: - 发送 HTTP 请求,获取图片内容,存储到 `img_content` 变量中; - 获取图片文件名,存储到 `img_name` 变量中; - 使用 `with open()` 语句打开文件,将图片内容写入文件中,保存到本地。 请注意,上面的代码只是一个简单的示例,实际应用中还需要加入异常处理、多线程或协程优化等措施,以提高程序的健壮性和效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

梦途的测开笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值