phthon 总结《一》

要用的模块:urllib

用dir可以查看里面所带有的成员函数

1、urllib.urlopen()

[python]  view plain copy print ? 在CODE上查看代码片 派生到我的代码片
  1. urlopen(url, data=None, proxies=None)  
  2.     Create a file-like object for the specified URL to read from.  
文档中的类文件对象是urlopen的函数返回值,之后可以对它返回的一些东西进行操作。他可以打开一个网页,并爬取网页的源代码来用。在爬去网页源码的时候,首先要观察网页head标签内的这个网页用的编码方式是什么,如果不是标准的utf-8,那么要进行转换,其中gb2312,gbk,在python同一成为gbk。在用read方法读出爬下来 的数据的时候,用decode转化编码.

[python]  view plain copy print ? 在CODE上查看代码片 派生到我的代码片
  1. #coding=utf-8  
  2. import urllib  
  3. print dir(urllib)  
  4.   
  5. url = 'www.163.com'  
  6. html=urllib.urlopen(url)  
  7. print html.read().decode('gb2312').encode('utf-8')  
  8. #decode表示要被转化的编码,而encode是将要转化的编码  

2、
[python]  view plain copy print ? 在CODE上查看代码片 派生到我的代码片
  1. print html.info()  
  2. #显示该网页的头部信息,了解网站以及网页的一些参数  


3.

[python]  view plain copy print ? 在CODE上查看代码片 派生到我的代码片
  1. print html.getcode()  
  2. #获得网页当前的状态码,只有当状态码是200的时候,才可能正常访问和抓取网页中的数据  
网页状态码:

200:可以正常访问网页

301:永久重定向该网址到另外一个网址

404:网页不存在

403:网页禁止访问(如果浏览器能够成功访问该网址,但是获取403状态码,那么就说明了,该网站设置了反爬虫)

405:服务器无响应

4、print html.geturl() 可以获取urllib打开网页的网址

5.最重要的就是在操作完文件的时候必须要关闭文件。html.close()

6、下载所获取到的网页源码

urllib.urlretrieve(url,要保存到的文件路径)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

androidstarjack

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值