
Python的爬虫使用案例
学无止境-程序猿
We are in the development stage of the technology age. You don't need to care about who you work and work for anyone. As long as I have a network that can be connected, I can write a code in any corner of the world.
展开
-
小猪短租网requests库使用
请求库官方文档指出:让HTTP 。服务人类细心的读者就会发现,请求库的作用英文就是请求网站电子杂志|网页数据的从简单的实例开始,讲解。请求库的使用方法。import requestsres = requests.get('http://bj.xiaozhu.com/')print(res)#pycharm中返回结果为<Response [200]>,说明...原创 2018-10-19 11:00:30 · 652 阅读 · 0 评论 -
使用selenium,selenium滚动条,time,爬取京东商城数据,后期可以加入动态url访问
# -*- coding: utf-8 -*-# @date: 2018\11\16 001616:59 # @Author : huangtao!!# @FileName: 滚动条.py# @Software: PyCharm# @Blog :https://blog.csdn.net/Programmer_huangtao#如果要定位的元素在页面的下方不可见的位置,需要对...原创 2018-11-16 18:09:40 · 651 阅读 · 0 评论 -
selenium;time;requests;json,微信自己的公众号接口,爬取微信公众号文章,简单案例,后期可以自己添加公众号或者构造公众号名称列表来寻找文章
这样做法可以爬虫每个公众号大概能爬60篇,就会起限制,所以要爬取全部的文章的话,要启用下篇文章中的代理池爬取,就是在请求的时候加上代理,然后睡眠时间需要你自己的尝试了。 然后其中的查询关键字‘query’,可以换成是手输入的;或者加个找好的公众号列表,在循环遍历,但是呢,这样做的话,最好在函数中定义,然后循环函数,会比这个更加清晰。# -*- coding: utf...原创 2018-11-22 15:01:05 · 567 阅读 · 0 评论 -
requests;exceptions;UA;pq;re;time爬取搜狗微信文章(使用代理池,免费自造的代理池)
因为是免费的,所以成功率不是很高,所以需要更多的ip代理,看你们的情况而定,有效的ip数量越多,爬取的数量越多,然后就是搜狗微信上的数量除非是特别少的,要不然是假的,比如查找到222000条数据,但是你查到最后100页的时候最多了,所以数据数量很多的就是假的数据,按100页查询就行了,数据数量要是少的话,直接看最后,要是不加个判断,如果以后没有数据程序关闭,但是啊,这样你的代理得比较...原创 2018-11-22 15:35:29 · 316 阅读 · 0 评论 -
12306登录做个记录,类似方法,具体看情况而定
from PIL import Imagefrom PIL import ImageFilterimport urllibfrom urllib import requestimport requestsimport refrom fake_useragent import UserAgentimport json# hack CERTIFICATE_VERIFY_FAILED...原创 2018-11-22 22:17:37 · 560 阅读 · 0 评论 -
常见库爬取58二手全站信息
环境为:(穷买不起mac)win7 + python3 + pycharm + mongoDB ,数据链接为navicat 本地访问,发现一个问题,这个网站开线程爬取竟然不封ip,不用找各种ip的犯难,哎,也是少数几个吧,注意爬取首页的url,我用的是http的,注意,不要用HTTPS的。主程序main.py,连接两个爬虫,然后注释部分是断点爬取的方法,知道重复的不爬取。你可以试一下...原创 2018-12-04 21:56:46 · 973 阅读 · 0 评论 -
国内代理ip的爬取,构建ip代理池@1
单一爬取西刺代理ip,然后构造代理ip的txt,但是没有时间的检验性和定时性,属于一锤子买卖。 # -*- coding: utf-8 -*-# @Time : 2018\10\15 0015-----20:51# @Author : huangtao# @Software: PyCharm# workspace #--------------------- #!/usr...原创 2018-12-05 22:58:55 · 550 阅读 · 0 评论 -
scrapy 爬取链家网信息,可改进全站进阶分布式
start_urls = ['https://bj.lianjia.com/ershoufang/pg{}/'.format(i) for i in range(1, 3)],这个网站url可以放置列表,所以这里面可以放循环遍历的url,range(1,3),例子上只找2页数据,多个数据也行,看你们的情况,还有就是爬取的过多可能封ip,所以代理ip是不可避免的。代码链接:https://...原创 2018-12-06 00:02:35 · 1040 阅读 · 0 评论 -
爬虫框架scrapy的使用,模拟浏览器无界面形式selenium,获取随时更新的数据,保存数据库,爬取随时变化的网页,爬取金十网数据,MongoDB实现增量更新,简单的网络监控
获取金十数据网页,更新数据,增量获取其内容。环境:pycharm,mongoab,win7,python3.7链接:https://pan.baidu.com/s/1MpZM8XJoCxBlmsSzg2WY3w提取码:muqe增量获取,更新数据,有和数据中不一样的保存,一样的直接返回None,不使用数据库。import pymongofrom pymysql i...原创 2018-12-10 23:19:30 · 1674 阅读 · 4 评论 -
爬虫案例:requests库,fake_useragent库,lxml库爬取电影天堂,一个大型的分类,可以向上进阶为全站爬虫
遇到的问题:1. detail_urls = html.xpath("//table[@class='tbspan']//a/@href"),得到的url,为半成品,需要后期补充。2.try: 。。。。。 except IndexError: pass电影天堂有假的电影标题,就是只有标题,没有电影详细信息。3.("◎主 演")以下信息为...原创 2019-01-26 00:28:07 · 942 阅读 · 0 评论 -
15.python-爬虫的基础认知, 状态码认知(请求状态码)
写一个最简单的爬虫先介绍,我的环境:Ubuntu:18.04(64位)IDE(解释为开发环境,用什么写的)Python3.6注意Python2.X 和Python3.X有些语法问题,看情况而定爬虫网站为'http://www.xiaozhu.com/' 前面说过了request请求,response响应,OK第一个爬虫完成了,是不是很简单.不说这么...原创 2018-10-11 14:27:19 · 1632 阅读 · 0 评论 -
python语言,pycharm程序中 requests库的简单使用
请求作用是请求网站获取网页数据的,所以作为一个预备的爬虫程序,要明白请求的作用,请求作用的,可以理解为我上你家串门,先问你有人没一个意思。import requests #加入requests包headers = { 'User-Agent': 'Mozilla / 5.0(X11;Linux x86_64) Appl...原创 2018-05-16 11:20:38 · 2404 阅读 · 0 评论 -
爬虫的入门库urllib库,简单请求,简单应用
from urllib.request import urlopen#导入相应的库#urllib.request和requests两者之间的差别,大体功能是一样的,具体用法,后面你自己感觉哪个适合自己url ='http://www.baidu.com/'#今天咱们爬取百度首页,是不是很傻,就是因为百度首页,没啥东西啊,拿简单的东西入手,给自己信心啊response= urlope...原创 2018-10-16 22:39:43 · 209 阅读 · 0 评论 -
爬虫的入门库Beautifulsoup库,解析网页
BeautifulSoup 库是一个非常流行的的Python中的中,模块通过BeautifulSoup 库可以轻松的解析请求库请求的| |网页,并| | |网页把源代码解析为汤文档,以便过滤提取数据。 import requestsfrom bs4 import BeautifulSoupheaders ={ 'User-Agent': 'Mo...原创 2018-10-19 12:34:02 · 421 阅读 · 0 评论 -
requessts库,fake_useragent库,lxml库爬虫中国天气网最低气温,全国气温
1:html5lib,lxml , html.parser的比较使用2:pyecharts图形制作库,制作可视化图形数据3:map函数的使用4:lambda的使用上述小点要学习。。。。。。# -*- coding: utf-8 -*-# @Time : 2019/1/26 0026 17:08# @Author : huangtao# @Site : #...原创 2019-01-30 19:57:33 · 426 阅读 · 0 评论 -
24.python-爬虫的基础认知,python代码不认中文
import urllib.requestimport urllib.parseimport string#导入相应的包url = 'http://www.baidu.com/s?wd='#相应的网址链接name = "美女"#想要添加的元素base_url = url + name#拼接对应的urlprint(base_url)#打印拼接后的链接new_url = u...原创 2019-03-15 00:13:29 · 272 阅读 · 0 评论 -
使用selenium,time爬取虎牙直播数据
# -*- coding: utf-8 -*-# @date: 2018\11\16 15:19# @Author : huangtao!!# @FileName: 直播.py# @Software: PyCharm# @Blog :https://blog.csdn.net/Programmer_huangtaofrom selenium import webdriver...原创 2018-11-16 16:44:54 · 1340 阅读 · 0 评论 -
使用threading,queue,fake_useragent,requests ,lxml,多线程爬取嗅事百科13页文字数据
#author:huangtao# coding=utf-8#多线程库from threading import Thread#队列库from queue import Queue#请求库from fake_useragent import UserAgent#访问库import requests#etree库,lxml解析from lxml import etree...原创 2018-11-14 13:21:55 · 419 阅读 · 0 评论 -
小猪短租网一个网页上的单个价格
import requests#导入requests库,起到访问作用# import random#这个库是随机选择作用,这个爬虫先不用from fake_useragent import UserAgent#导入请求头库,构造随机请求头from bs4 import BeautifulSoup#导入bs4库搜索内容,解析requesets请求的网页headers={ '...原创 2018-10-19 11:35:29 · 710 阅读 · 0 评论 -
爬取酷狗酷狗飙升榜
链接:https://pan.baidu.com/s/1QxIMtVTip-o8_OoLfkrlfg 提取码:jxes #---------------------import requestsfrom fake_useragent import UserAgentfrom bs4 import BeautifulSoupimport time#导入相应的库文件headers...原创 2018-10-19 13:19:15 · 1063 阅读 · 0 评论 -
爬虫案例:requests,lxml,xpath 爬取豆瓣电影新片上映
第一步 确定你想要爬取的数据网站网址,,今天我想要爬取豆瓣电影的正在热映的电影,全部正在热映的电影,所以从豆瓣网站中观察全部热映的电影,从豆瓣主url,找到下面的全部热映电影的url 正在热映的电影信息,但是下面有一个问题,电影不全,有个更多电影,发现点一下url,没变但是加载全部了,所以咱们可以从这个url得到想找的网页了 看见没,...原创 2018-10-30 19:03:16 · 780 阅读 · 0 评论 -
使用Requests和Lxml库,爬取豆瓣读书TOP250
from lxml import etreeimport requestsimport csv#导入需要的库fp = open('C://Users/Administrator/Desktop/book.csv','wt',newline='',encoding='utf-8')#创建csv文件,编码为utf-8writer = csv.writer(fp)writer.wri...原创 2018-10-20 23:39:45 · 1295 阅读 · 0 评论 -
忽略证书限制,打印12306,不是登录啊,还没到呢,接着等着!!!o( ̄ヘ ̄o#)
from fake_useragent import UserAgentimport requests#导入需要用的库url ='https://www.12306.cn/mormhweb/'#需要登录的urlheaders ={ 'User-Agent':UserAgent().chrome}#要加入的请求头response =requests.get(url,v...原创 2018-10-20 23:13:34 · 265 阅读 · 0 评论 -
爬虫案例:ajax异步加载,爬取豆瓣电影排行榜
from urllib.request import Request,urlopenfrom fake_useragent import UserAgent#导入相应的库base_url ='https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start={}&...原创 2018-10-20 22:43:00 · 966 阅读 · 0 评论 -
爬取百度贴吧html网页HTML代码
from urllib.request import Request,urlopenfrom urllib.parse import urlencodefrom fake_useragent import UserAgent#导入相应的库文件def get_html(url): headers={ 'User-Agent': UserAgent().chrome...原创 2018-10-20 21:38:09 · 1513 阅读 · 0 评论 -
模拟登录,动态token,携带cookie,密文加密,登录拉勾网
import requestsimport re#导入相应的库文件headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3573.0 Safari/537.36' }#加入请求头url = 'htt...原创 2018-10-20 13:02:36 · 2305 阅读 · 1 评论 -
爬取网站小猪短租的少量信息及详细介绍 ,requests库,bs4库的使用
#!/usr/bin/env python# -*- coding:utf-8 -*- # @Time : 18-10-10 下午9:21import requests #导入requests包;发请求网页from bs4 import BeautifulSoup #导入bs4包;解析网页import time #导入time包 时间作用本文为:睡眠时间headers ={ ...原创 2018-10-11 12:49:04 · 1060 阅读 · 0 评论 -
自动登录Github官网,cookie验证简单模拟登录
#不同网页有不同的cookie验证方式,具体情况不定得看情况,这个要一个一个测试,然后多多验证cookie的信息变化import requestsfrom bs4 import BeautifulSoup#导入相应的包r1 = requests.get('https://github.com/login')#网页上找到相应的登录url网页s1 = BeautifulSoup(r1....原创 2018-10-20 01:30:59 · 2377 阅读 · 0 评论 -
小猪短租网多个价格的查找,requests库,o( ̄ヘ ̄o#)bs4库的简单使用
import requests#导入requests库,起到访问作用# import random#这个库是随机选择作用,这个爬虫先不用from fake_useragent import UserAgent#导入请求头库,构造随机请求头from bs4 import BeautifulSoup#导入bs4库搜索内容,解析requesets请求的网页headers={ '...原创 2018-10-19 11:52:35 · 521 阅读 · 0 评论 -
爬取酷狗歌单top500
import requestsfrom bs4 import BeautifulSoupimport timeheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'...原创 2018-10-19 13:16:21 · 1445 阅读 · 0 评论 -
xpath,requests爬取小猪短租网
import requestsfrom lxml import etreeimport timeheaders = { 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) ' 'AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/70.0.3538.77 Safari/537.3...原创 2018-11-05 12:29:07 · 629 阅读 · 0 评论 -
re,正则表达式,requests,爬取小猪短租网
求助为什么我正则爬取房主图片时,总是为空,要不然就是给微信二维码,让我扫呢?谁能帮下忙?谢谢了!!!!!!!!!#encoding=utf-8import requestsfrom lxml import etreeimport reimport timeheaders = { 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) ...原创 2018-11-05 12:32:05 · 764 阅读 · 0 评论 -
爬虫案例:使用re,requests,json,RequestException爬取猫眼电影Top100加保存文件
#python3.7#author:huangtao#pycharmimport requestsfrom requests.exceptions import RequestExceptionimport reimport json#导入相关库文件#定义get_url,通过主程序传递的url进行访问def get_url(url,headers):#判断访问是否成功,如果...原创 2018-11-11 23:46:45 · 861 阅读 · 0 评论 -
爬虫入门学习案例--适合新手入门
常见的爬虫新手入门,知道什么使网页源代码,网页响应码,真正的url地址信息,下载图片,视频,网页到本地原创 2019-03-20 20:31:54 · 1445 阅读 · 0 评论