使用urllib模块获取网页源码及操作-CSDN博客

本文链接：https://blog.csdn.net/androidstarjack/article/details/50117651

要用的模块：urllib

用dir可以查看里面所带有的成员函数

1、urllib.urlopen()

[python]view plaincopyprint? 
   
 urlopen(url, data=None, proxies=None)  
     Create a file-like object for the specified URL to read from.  

文档中的类文件对象是urlopen的函数返回值，之后可以对它返回的一些东西进行操作。他可以打开一个网页，并爬取网页的源代码来用。在爬去网页源码的时候，首先要观察网页head标签内的这个网页用的编码方式是什么，如果不是标准的utf-8，那么要进行转换，其中gb2312,gbk,在python同一成为gbk。在用read方法读出爬下来的数据的时候，用decode转化编码.

[python]view plaincopyprint? 
   
 #coding=utf-8  
 import urllib  
 print dir(urllib)  
   
 url = 'www.163.com'  
 html=urllib.urlopen(url)  
 print html.read().decode('gb2312').encode('utf-8')  
 #decode表示要被转化的编码，而encode是将要转化的编码  

2、

[python]view plaincopyprint? 
   
 print html.info()  
 #显示该网页的头部信息，了解网站以及网页的一些参数  

[python]view plaincopyprint? 
   
 print html.getcode()  
 #获得网页当前的状态码，只有当状态码是200的时候，才可能正常访问和抓取网页中的数据  

网页状态码：

200：可以正常访问网页

301：永久重定向该网址到另外一个网址

404：网页不存在

403：网页禁止访问（如果浏览器能够成功访问该网址，但是获取403状态码，那么就说明了，该网站设置了反爬虫）

405：服务器无响应

4、print html.geturl() 可以获取urllib打开网页的网址

5.最重要的就是在操作完文件的时候必须要关闭文件。html.close()

6、下载所获取到的网页源码

urllib.urlretrieve(url,要保存到的文件路径)

phthon 总结《一》