
Web Crawler / 爬虫
Omni-Space
专注Android, Mobile Security and AI
展开
-
爬虫总结(一)-- 爬虫基础 & python实现
爬虫在平时也经常用,但一直没有系统的总结过,其实它涉及了许多的知识点。这一系列会理一遍这些知识点,不求详尽,只希望以点带面构建一个爬虫的知识框架。这一篇是概念性解释以及入门级爬虫介绍(以爬取网易新闻为例)。爬虫基础什么是爬虫爬虫说白了其实就是获取资源的程序。制作爬虫的总体分三步:爬-取-存。首先要获取整个网页的所有内容,然后再取出其中对你有用的部分,最后再保存有用的部分。转载 2017-02-18 05:20:44 · 1422 阅读 · 0 评论 -
如何构建一个分布式爬虫:实战篇
本篇文章将是『如何构建一个分布式爬虫』系列文章的最后一篇,拟**从实战角度**来介绍如何构建一个*稳健的分布式微博爬虫*。这里我*没敢谈高效*,抓过微博数据的同学应该都知道微博的反爬虫能力,也知道微博数据抓取的瓶颈在哪里。我在知乎上看过一些同学的说法,把微博的数据抓取难度简单化了,我只能说,那是你太naive,没深入了解和长期抓取而已。本文将会以PC端微博进行讲解,因为移动端微博数据不如PC短全面...转载 2018-04-05 14:07:32 · 1136 阅读 · 0 评论 -
如何构建一个分布式爬虫:基础篇
继上篇(如何构建一个分布式爬虫:理论篇)我们谈论了Celery的基本知识后,本篇继续讲解如何一步步使用Celery构建分布式爬虫。这次我们抓取的对象定为celery官方文档(Celery - Distributed Task Queue)。首先,我们新建目录distributedspider,然后再在其中新建文件workers.py,里面内容如下from celery import Celery...转载 2018-04-05 14:07:27 · 668 阅读 · 0 评论 -
如何构建一个分布式爬虫:理论篇
## 前言本系列文章计划分三个章节进行讲述,分别是理论篇、基础篇和实战篇。理论篇主要为构建分布式爬虫而储备的理论知识,基础篇会基于理论篇的知识写一个简易的分布式爬虫,实战篇则会以微博为例,教大家做一个比较完整且足够健壮的分布式微博爬虫。通过这三篇文章,希望大家**能掌握如何构建一个分布式爬虫的方法**;能举一反三,将`celery`用于除爬虫外的其它场景。目前基本上的博客都是教大家使用scrap...转载 2018-04-05 14:07:23 · 464 阅读 · 0 评论 -
python爬虫从入门到放弃(三)之 Urllib库的基本使用
官方文档地址:https://docs.python.org/3/library/urllib.html什么是UrllibUrllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块urlopen关于urllib.req转载 2018-01-18 16:52:35 · 1497 阅读 · 0 评论 -
python爬虫从入门到放弃(二)之爬虫的原理
在上文中我们说了:爬虫就是请求网站并提取数据的自动化程序。其中请求,提取,自动化是爬虫的关键!下面我们分析爬虫的基本流程爬虫的基本流程发起请求通过HTTP库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应获取响应内容如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能是HTML,Json字符串转载 2018-01-18 16:50:24 · 2128 阅读 · 0 评论 -
python爬虫从入门到放弃(一)之初识爬虫
什么是爬虫?网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据爬虫可以做什么?你可以爬去妹子的图片,爬取自己想看看的视频。。等等你想要爬取的数据,只要你能通过浏览器访问的转载 2018-01-18 16:48:21 · 6565 阅读 · 0 评论 -
python︱HTML网页解析BeautifulSoup学习笔记
一、载入html页面信息一种是网站在线的网页、一种是下载下来的静态网页。1、在线网页参考《python用BeautifulSoup库简单爬虫入门+案例(爬取妹子图)》中的载入内容:import requestsfrom bs4 import BeautifulSoupheaders={'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) App转载 2018-01-18 16:34:41 · 397 阅读 · 0 评论 -
爬取微博对话语料制作聊天机器人
微博终结者爬虫关于聊天对话系统我后面会开源一个项目,这个repo目的是基于微博构建一个高质量的对话语料,本项目将继续更进开发,大家快star!!永远开源!这个项目致力于对抗微博的反爬虫机制,集合众人的力量把微博成千上万的微博评论语料爬取下来并制作成一个开源的高质量中文对话语料,推动中文对话系统的研发。本系统现已实现:爬取指定id用户的微博数,关注数,粉丝数,所有微博内容以及所有转载 2017-10-01 14:49:19 · 3514 阅读 · 0 评论 -
Best Web Scraping Books
Best Web Scraping Books - For this post, we have scraped various signals (e.g. online ratings and reviews, topics covered, author influence in the field, year of publication, social media mentions,转载 2017-07-11 09:25:50 · 806 阅读 · 0 评论 -
爬虫总结(五)-- 其他技巧
补充前面没有提到的一些技巧。模拟登录研究源码以 github 登录(https://github.com/login) 为例,查看html源码会发现表单里面有个隐藏的authenticity_token值,这个是需要先获取然后跟用户名和密码一起提交的。1234567891011121314151617181920212223242526转载 2017-02-18 05:30:52 · 1970 阅读 · 0 评论 -
爬虫总结(四)-- 分布式爬虫
分布式爬虫的演习。分布式爬虫问题其实也就是多台机器多个 spider 对 多个 url 的同时处理问题,怎样 schedule 这些 url,怎样汇总 spider 抓取的数据。最简单粗暴的方法就是将 url 进行分片,交给不同机器,最后对不同机器抓取的数据进行汇总。然而这样每个 spider 只能对自己处理的 url 去重,没办法全局的去重,另外性能也很难控制,可能有某台机器很早就跑完了转载 2017-02-18 05:29:56 · 8764 阅读 · 1 评论 -
爬虫总结(三)-- cloud scrapy
发现了一个比较好玩的东西,scrapinghub,试着玩了一下 cloud scrapy,因为就它是免费的。。最大优点是可以将爬虫可视化。这里就简单记录一下它怎么用。注册账号 & 新建 scrapy cloud project在scrapyinghub 官网 注册账号登录后 create project,在新建的项目下,查看 Code & Deploys,找到 API ke转载 2017-02-18 05:28:20 · 2588 阅读 · 0 评论 -
爬虫总结(二)-- scrapy
用现成的框架的好处就是不用担心 cookie、retry、频率限制、多线程的事。这一篇把上一篇的实例用 scrapy 框架重新实现一遍。主要步骤就是新建项目 (Project) –> 定义目标(Items)–> 制作爬虫(Spider)–> 存储结果(Pipeline)Scrapy 概述Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘转载 2017-02-18 05:22:16 · 7426 阅读 · 1 评论 -
scrapy爬虫代理——利用crawlera神器,无需再寻找代理IP
一、crawlera平台注册 首先申明,注册是免费的,使用的话除了一些特殊定制外都是free的。 1、登录其网站https://dash.scrapinghub.com/account/signup/填写用户名、密码、邮箱,注册一个crawlera账号并激活2、创建Organizations,然后添加crawlear服务然后点击 +...转载 2019-05-05 16:31:15 · 2872 阅读 · 2 评论