要用的模块:urllib
用dir可以查看里面所带有的成员函数
1、urllib.urlopen()
- urlopen(url, data=None, proxies=None)
- Create a file-like object for the specified URL to read from.
- #coding=utf-8
- import urllib
- print dir(urllib)
- url = 'www.163.com'
- html=urllib.urlopen(url)
- print html.read().decode('gb2312').encode('utf-8')
- #decode表示要被转化的编码,而encode是将要转化的编码
2、
- print html.info()
- #显示该网页的头部信息,了解网站以及网页的一些参数

3.
- print html.getcode()
- #获得网页当前的状态码,只有当状态码是200的时候,才可能正常访问和抓取网页中的数据
200:可以正常访问网页
301:永久重定向该网址到另外一个网址
404:网页不存在
403:网页禁止访问(如果浏览器能够成功访问该网址,但是获取403状态码,那么就说明了,该网站设置了反爬虫)
405:服务器无响应
4、print html.geturl() 可以获取urllib打开网页的网址
5.最重要的就是在操作完文件的时候必须要关闭文件。html.close()
6、下载所获取到的网页源码
urllib.urlretrieve(url,要保存到的文件路径)