- 博客(4)
- 收藏
- 关注
原创 Python爬虫框架Scrapy实战之抓取户外数据
一个户外论坛的特点:列出一些活动,有翻页功能,点向一个活动显示当前活动信息,在二楼一般显示报名名单!需要的数据:就是活动的信息,报名的名单,价钱,主题,url数据库:旅游表与报名表选择Spider:我选择了CrawlSpider,这个特点:提供一个跟随链接的一个规则! rules = ( Rule(LinkExt
2015-03-26 15:19:58
1055
原创 使用python lxml requests 挖掘一个户外的数据!
需求:想关注某人参加户外的情况,但该网站不提拱这个功能!解决方法:观察到这个户外信息是这样的,打开网站www.uuhw.cn,然后可以看到主页,看到一些活动,然这些活动怎样出来的,是通过http://www.uuhw.cn/api.php?mod=ad&adid=custom_3&jdfwkey=yewk52调用出来的,再打开活动,可以看到报名的名单就在第二楼下,是一个表格形式
2015-03-23 17:08:12
761
原创 python lxml xpath 使用实例!
python lxml xpath 使用实例目标:使用xpath定位节点,也可以说好像在sql 上提取数据!例子#-*- coding:utf-8 -*-import lxml.htmlhtml=''' Everyday Italian Giada De Laurentiis 2005 30.00
2015-03-19 09:46:20
4782
原创 python itertool.groupby使用误点!
使用误点一:误以为 groupby是按照key进行分组的:例子from random import choicelst = [ Student(choice(['M','F']),choice(range(10,100))) for i in range(20)]for k,items in itertools.groupby(lst,lambda x:x.sex): pr
2015-03-13 15:24:06
1730
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人