
爪巴虫技术
文章平均质量分 51
爪巴爪巴爪巴
颹蕭蕭
这个作者很懒,什么都没留下…
展开
-
python 爬取杭州小区挂牌均价
【代码】python 爬取杭州小区挂牌均价。原创 2024-03-21 19:01:29 · 642 阅读 · 4 评论 -
爪巴虫下载 github 指定目录
python 爬虫下载 github 指定目录原创 2020-09-30 17:38:11 · 1059 阅读 · 0 评论 -
多线程爪巴虫下载进击的巨人 v.2
线程池import contextlibimport globimport osimport reimport threadingimport timefrom queue import Queuefrom urllib import requestfrom bs4 import BeautifulSoupimport requestsclass ThreadPool(object): def __init__(self, max_num): self.S.原创 2020-09-23 17:46:25 · 1155 阅读 · 0 评论 -
多线程爪巴虫下载进击的巨人 v.1
这个爪巴虫还是有很多bug,有些图片超时后就没下载下来,导致每一刊都少了几页 o(╥﹏╥)o暂时把第1版贴在这,准备升级爪巴虫2.0import requestsfrom bs4 import BeautifulSoupimport threadingfrom lxml import etreeimport urllibfrom urllib import request, errorimport osimport refrom queue import Queueimport t..原创 2020-09-23 14:02:11 · 1300 阅读 · 0 评论 -
百度百科爪巴虫
driver.get("https://baike.baidu.com/item/%E8%87%AA%E7%9B%B8%E5%85%B3%E5%87%BD%E6%95%B0/9851266")bs = BeautifulSoup(driver.page_source)tags = bs.find('div',{'class':'basic-info cmn-clearfix'})tags = list(zip( [dt.text.replace('\xa0','') for dt in it原创 2020-09-21 21:54:13 · 1235 阅读 · 0 评论 -
多线程爪巴虫抓取 ICML 2020 补充材料连链接
import requestsfrom bs4 import BeautifulSoupimport threadingimport requestsfrom lxml import etreefrom urllib import requestimport osimport refrom queue import Queue root = 'https://proceedings.icml.cc/paper/2020'root_page = requests.get(root)..原创 2020-09-14 22:48:52 · 1041 阅读 · 0 评论 -
爪巴虫根据text文本内容搜索标签
根据 text文本内容搜索标签,例如:找 text 部分含有 supplement 的 a 标签原创 2020-09-14 19:28:24 · 1097 阅读 · 0 评论 -
知网爪巴虫 2.0
增加中图分类号转类名手动在网页输入检索词#!/usr/bin/env python# coding: utf-8from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_conditions as ECfrom.原创 2020-09-20 19:07:33 · 1441 阅读 · 2 评论 -
python 多线程爬虫下载中图分类号
目标网站爬这个网站需要访问 45836 个网页,一个一个访问是很慢的,还好网站没有做反爬单线程爪巴虫import requestsfrom bs4 import BeautifulSoupimport tracebackimport timedic = {}url = 'http://www.ztflh.com/?c='def visit(i): try: print(i, end='') u = url+str(i) htm原创 2020-09-11 09:32:07 · 1576 阅读 · 0 评论 -
selenium 知网爪巴虫
知网爬虫的第一步,输入检索条件selenium 通过模拟鼠标点击,自动实现:选择检索词的类别、输入检索词、选择精确还是模糊查找、逻辑关系、点击检索按钮等一系列动作而你所需要做的,就是给出搜索条件:search_words = '摘要:地理探测器(精确) OR 摘要:geodetector(精确)'首先将搜索条件处理成四元组:(逻辑关系,搜索类型,搜索词,精确|模糊)search_words = 'BEG '+search_wordspieces = search_words.split(' .原创 2020-09-20 19:03:24 · 2152 阅读 · 3 评论 -
京东爪巴虫
url = 'https://jd.com'driver.get(url)input_tag = driver.find_element_by_id('key')input_tag.clear()input_tag.send_keys('口红')input_tag.send_keys(Keys.ENTER)items = driver.find_elements_by_class_name('gl-item')for i in items: link = i.find_eleme原创 2020-09-03 22:05:07 · 1160 阅读 · 0 评论 -
baidu文库爪巴虫——xls
用开发者工具从下载文件的 response 中找文档内容,很快就找到了分析请求地址及参数然后回到文档源代码页面,发现这个请求地址已经包含在里面了,只需要把它提取出来即可表格和word 文档还是不一样的,表格还要考虑文本的横向距离,区分不同的列然而并没有什么好办法确定文本到底在哪一列,是能确定个大概顺序import requestsimport reimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inline原创 2020-09-03 12:38:28 · 1236 阅读 · 0 评论 -
baidu文库爪巴虫——txt
首先你应该清楚,直接从文档页面源代码中是找不到文档内容的,但是我们通过查看浏览器下载的文件,可以很容易的发现文档内容的来源,为什么说容易呢,引文包含内容的文件通常都是比较大的!只要按文件大小排序,往下找就能发现!没错就是最大的那个文件,里面妥妥的是汉字接下来就要分析一下请求的格式了,查看 header 发现 get 参数一大堆怎么获取这些参数呢?最先想到的就是在文档页面的源代码中找啦非常不巧的是,这些参数都能找到!import requestsimport reurl = 'h原创 2020-09-02 23:46:41 · 1129 阅读 · 0 评论 -
baidu文库爪巴虫——doc
找到感兴趣的文档却发现需要 vip 才能下载?分析打开源代码一看,发现根本没有文档数据,只能从中依稀辨认出需要加载新的页面把其中的pageData这个js变量用在线json查看器打开:关键信息在 readerinfo2019 里的 htmlUrls 中pageLoadUrl 才是关心的页面{\"pageIndex\":1,\"pageLoadUrl\":\"https:\\/\\/wkbjcloudbos.bdimg.com\\/v1\\/docconvert4554\\/wk\\/c1原创 2020-09-02 22:24:14 · 1463 阅读 · 0 评论 -
ICML2020 文章目录及下载链接
2020 年会议线上召开,会议网站也和以往大不相同官网本身就提供了文章的主题分类检索与下载尽管如此,还是希望能够制作一份方便本地查找的目录,毕竟访问外网有点卡下载 json 文件通过网站页面源码分析,发现所有数据都在这份 icml_paper.json 文件中,把它下载下来:https://icml.cc/static/virtual/data/icml_papers.json你要是直接打开的话,就是这个样子,当然我们接下来就用 python 的 json 包来解析它!解析 json 文原创 2020-08-31 20:26:28 · 5310 阅读 · 4 评论 -
selenium 切换标签页解决 get 超时问题
从 gif 直观地感受一下效果我有大量 url 需要访问,但是有些 url 会超时为了避免超时,设置driver.set_page_load_timeout(3)限时3秒,一旦超时就会产生 TimeoutException而且超时后标签页就卡柱了,只能通过 driver.close()关闭如果你只有一个标签页,关闭就直接退出了,还得重启自然想到先保留一个备用的标签,原标签超时需要关闭的时候就切换过来,然后再关闭,并打开新标签,保证任何时候都有两个标签页可用!!def visit(urls, t.原创 2020-08-28 16:52:59 · 2031 阅读 · 0 评论 -
selenium 自动登入博客
先下载 chrome 驱动,参考selenium 加载动态网页.需要注意的是,下载的驱动版本要和浏览器当前版本匹配!!查看浏览器版本我的浏览器版本不是最新,下载时要选择对应的76版本def un_zip(file_name, to_dir='./'): """unzip zip file""" zip_file = zipfile.ZipFile(file_name) if os.path.isdir(to_dir): pass else:原创 2020-08-28 10:30:32 · 1481 阅读 · 2 评论 -
豆瓣爬虫
文章目录分析网页结构目标内容网页跳转爪巴代码爪巴结果分析网页结构目标内容豆瓣的网页源代码还是挺工整的:<li> <div class="item"> <div class="pic"> <em class="">4</em> <a href="https://movie.douban.com/subject/1295644/">原创 2020-06-23 17:15:32 · 1960 阅读 · 0 评论 -
selenium 加载动态网页
文章目录下载 chrome 驱动python 解压缩 ziprequests 下载网络文件使用 selenium 访问百度图片在使用selenium 之前先要下载浏览器驱动下载 chrome 驱动python 解压缩 zipdef un_zip(file_name, to_dir='./'): """unzip zip file""" zip_file = zipfile.ZipFile(file_name) if os.path.isdir(to_dir):原创 2020-06-23 11:44:15 · 1673 阅读 · 0 评论 -
微信自动回复天气预报
和风天气API, itchat原创 2019-12-07 13:29:26 · 2580 阅读 · 0 评论 -
python 爬虫惨遭 302 重定向导致无限循环
解决方法:加 headers原创 2019-12-31 17:28:51 · 7525 阅读 · 2 评论 -
百科词条爪巴虫
urllib,requests获取页面, beautiful soup 对 html 网页解析,根据网页引用连接随机游走,使用 pymysql 操作数据库原创 2020-06-23 10:10:28 · 1991 阅读 · 0 评论 -
爪巴虫简介
文章目录爬虫分类应用场景技术准备运行流程常用技术反爬机制案例讲解爬虫分类网络爬虫按照系统结构和实现技术,大致可分为一下几种类型:通用网络爬虫:就是尽可能大的网络覆盖率,如 搜索引擎(百度、雅虎和谷歌等…)聚焦网络爬虫:有目标性,选择性地访问万维网来爬取信息增量式网络爬虫:只爬取新产生的或者已经更新的页面信息。特点:耗费少,难度大深层网络爬虫:通过提交一些关键字才能获取的Web页面,如登录或注册后访问的页面实际工作中通常是几种爬虫技术结合实现。应用场景爬虫技术在科学研究、Web安全、产品转载 2020-06-22 20:20:17 · 1592 阅读 · 0 评论