Python|urllib库的一些应用

最新推荐文章于 2021-08-04 21:56:03 发布

程序员林子

最新推荐文章于 2021-08-04 21:56:03 发布

阅读量526

点赞数

分类专栏： python 文章标签： python 编程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/java276582434/article/details/92090290

版权

python 专栏收录该内容

67 篇文章

订阅专栏

本文探讨了Python标准库urllib在爬虫开发中的作用，对比requests库，urllib提供了如urllib.request、urllib.error、urllib.parse等模块，用于URL的打开、读取、错误处理及解析。通过示例展示了如何使用urllib.request.urlopen进行网页抓取。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python在用于爬虫时，在许多的关于爬虫的教程中，重点介绍并使用的是一个HTTP客户端库，requests库。然而，本篇文章介绍的是另外一个用来数据抓取的库：urllib库。

关于urllib库，的确是一个很尴尬的库。它在Python不同版本中有很明显的区别，还有在实际的开发应用中，最头痛的就是版本之间互不兼容的问题。由于Python 3更加的健全稳定，因此，本文中所谈的urllib针对的是Python 3。作为Python自带的一个标准库，它不需要安装，在使用时，直接导入即可。urllib是一个通过几个模块来使用URL的软件包。它主要有以下几个功能：

urllib.request:用于打开和读取URL。
urllib.error:包含提取例外的urllib.request。
urllib.parse:用于解析URL。
urllib.robotparse:用于解析robots.txt文件。

在爬虫时，urllib的语法为：

Urllib.requests.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None)

接下来，我们谈谈其中一个比较重要的参数含义：data的参数主要用来确定请求方式，当参数值为None时，请求方式为get，反之为post。在urlopen获取网站响应数据时，有几组函数来获取响应数据的内容。比较常用的是read()函数。

我们来看看简单的示例，更好的感受urllib模块在爬虫中的应用。

import urllib.request

response = urllib.request.urlopen('https://movie.douban.com/',None,2)

html = response.read().decode('utf8')

f = open('html.txt','w',encoding='utf8')

f.write(html)

f.close()

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。