Python抓取网页链接

最新推荐文章于 2023-01-06 18:10:39 发布

csc_csc_csc

最新推荐文章于 2023-01-06 18:10:39 发布

阅读量5.8k

点赞数 1

分类专栏：工程

本文链接：https://blog.csdn.net/cscmaker/article/details/8730153

版权

本文介绍了作者如何使用Python进行网页抓取，作为学习Python的第一步。通过urllib2和sgmllib库处理HTML，探讨了Python在网页抓取中的便利性，并指出虽然本文使用sgmllib，但BeautifulSoup是一个更好的选择，特别是对于处理不规范的HTML。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

（1）因项目需要，需要从web中抓取相关的网页。正好想学习一下Python，首先看了一下Python简明教程，内容讲的不多，但是能够使你快速入门，我一直认为实例驱动学习是最有效的办法。所以直接通过实际操作怎么去抓取网页来丰富对Python的学习效果会更好。

Python提供了各种各样的库，使得各种操作变得很方便。这里使用的是Python的urllib2和sgmllib库。为了处理HTML，Python总共提供了三个模块：sgmllib htmllib HTMLParser。本文中采用的是sgmllib，但是通过查找相关资料发现其实第三方工具BeautifulSoup是最好的，能够处理较差的HTML。所以后面还要接着学习BeautifulSoup。

（2）脚本代码

class LinksParser(sgmllib.SGMLParser):
 urls = []
 def do_a(self, attrs):
  for name, value in attrs:
   if name == 'href' and value not in self.urls:
    if value.startswith('http'):
      self.urls.append(value)
      print value