
一只虫子的从无到有(爬虫的基础认知)
没有人是一开始全部都是精通的,谁都是从零开始,有天赋,有毅力,但是我觉得还是兴趣使然问题,你的兴趣决定你的学习情况。
学无止境-程序猿
We are in the development stage of the technology age. You don't need to care about who you work and work for anyone. As long as I have a network that can be connected, I can write a code in any corner of the world.
展开
-
1.python-爬虫的基础认知(爬虫的实际案例)
爬虫的实际例子: 1.百度,谷歌(搜索引擎), 2.新闻网(各种资讯网站), 3.各种购物助手(比价程序) 4.数据分析(数据冰山知乎) 5.抢票软件什么是网络爬虫? 来自:百度百科 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另...原创 2019-02-01 13:42:15 · 663 阅读 · 0 评论 -
2.python-爬虫的基础认知,如何学好爬虫?简单认识,简单学习
作为一个小白来说,看那多原理,等于天书,看不懂,但是为啥是叫了解爬虫,而不是懂里边内容,框架(Scrapy)怎么写的,我作为小白知道怎么用,不就行了吗,之后在了解深入. 作为小白呢?知道爬虫是爬取网络数据的就行了. 网络爬虫(或称为网络爬虫、网络蜘蛛、机器人)是搜索引擎最上游的一个模块,是负责搜索引擎内容索引的第一关。 很多人为了提高自己网站的索引量,都是...原创 2018-10-11 13:47:50 · 698 阅读 · 0 评论 -
3.python-爬虫的基础认知,什么是聚焦爬虫?(以后大部分接触的都是聚焦爬虫)
聚焦爬虫来自:百度百科 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的...原创 2019-02-01 14:09:48 · 1272 阅读 · 0 评论 -
4.python-爬虫的基础认知,爬虫的几大分类?
分类来自:百度百科 网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。 实际的网络爬虫系统通常是几种爬虫技术相结合实现的 ...原创 2019-02-01 14:21:56 · 2369 阅读 · 0 评论 -
5.python-爬虫的基础认知,爬虫的目标分析,搜索算法
抓取目标分类来自:百度百科 抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。 ...原创 2019-02-01 15:28:20 · 1034 阅读 · 0 评论 -
6.python-爬虫的基础认知,为什么使用python写爬虫?
用什么语言写爬虫?C,C++。高效率,快速,适合通用搜索引擎做全网爬取。缺点,开发慢,写起来又臭又长,例如:天网搜索源代码。脚本语言:Perl, Python, Java, Ruby。简单,易学,良好的文本处理能方便网页内容的细致提取,但效率往往不高,适合对少量网站的聚焦爬取C#?(貌似信息管理的人比较喜欢的语言) 为什么最终选择Python?傻白甜,易上手 跨...原创 2019-02-01 15:39:41 · 780 阅读 · 0 评论 -
7.python-爬虫的基础认知,python2和3版本的区别?
几乎所有的python2程序都需要一些修改才能正常的运行在python3的环境下。为了简化这个转换过程,Python3自带了一个2to3的实用脚本.这个脚本会将python2程序源文件作为输入,然后自动转换到python3.但并不是所有内容都可以自动转换。print语句python2中print是一个语句,不论想输出什么,直接放到print关键字后面即可。python3...翻译 2019-02-01 17:14:51 · 717 阅读 · 0 评论 -
7.1python-爬虫的基础认知,python版本之争
Python入门当然建议直接学Python3了,毕竟是趋势。 而且Python3中对于字符编码的改动会让新手省掉很多很多很多关于字符编解码问题的纠结。 另一方面看你项目大小吧。 如果自己写代码,Python2和Python3没啥区别。 但是如果你是奔着Scrapy这个爬对于爬虫项目,python 2和3哪个好些? 主流公司相对于比较保守,使用的事Python2.x版本...原创 2018-10-17 11:03:34 · 853 阅读 · 0 评论 -
8.python-爬虫的基础认知, 爬虫程序编辑所用的编译器
老话说的好:工欲善其事必先利其器!所以,我们在使用 Python 来编程的时候,我们也需要一个牛逼的武器,来编写我们的代码 —— 编辑器!编译器不重要,看个人喜好而定,记事本都是可以写的。1. Sublime Texthttp://www.sublimetext.com/Sublime Text 比较适合 Python 新手使用,Sublime Text支持跨平台,而且可以使用...原创 2018-10-17 00:41:56 · 1749 阅读 · 0 评论 -
9.python-爬虫的基础认知, 虚拟环境的设置与操作
python虚拟环境的操作:virtualenv和virtualenvwrapper本文使用virtualenvwrapper,还有就是现在的大多数编译器有选择不同python版本的功能,可以都安装,在按照程序自主设置版本。安装linux和mac下安装pip install virutalenv virtualenvwrapperwindows下安装pip inst...转载 2019-02-01 17:51:14 · 368 阅读 · 0 评论 -
10.python-爬虫的基础认知,网络http协议是什么?
http详解 当今web程序的开发技术真是百家争鸣,ASP.NET, PHP, JSP,Perl, AJAX 等等。 无论Web技术在未来如何发展,理解Web程序之间通信的基本协议相当重要, 因为它让我们理解了Web应用程序的内部工作. 本文将对HTTP协议进行详细的实例讲解,内容较多,希望大家耐心看。也希望对大家的开发工作或者测试工作有所帮助。什么是HTTP协议协议是指...转载 2019-02-01 19:16:09 · 415 阅读 · 0 评论 -
11.python-爬虫的基础认知,网络的http协议和https协议的区别
HTTPS和HTTP的区别主要如下:1、https协议需要到ca申请证书,一般免费证书较少,因而需要一定费用。2、http是超文本传输协议,信息是明文传输,https则是具有安全性的ssl加密传输协议。3、http和https使用的是完全不同的连接方式,用的端口也不一样,前者是80,后者是443。4、http的连接很简单,是无状态的;HTTPS协议是由SSL+HTTP协议构建的可进...原创 2019-02-01 19:20:36 · 296 阅读 · 0 评论 -
12.python-爬虫的基础认知,选择自己喜好的浏览器,推荐谷歌浏览器(个人推荐,选不选自己选择)
爬虫的浏览器一般讲究效率,使自己选择的。选取一个浏览器,小白,网上得出结论谷歌浏览器OK!不是不让用了吗?怎么还用谷歌?? 为什么爬虫要用Chrome? 为什么大家似乎都值得header应该怎么写? 为什么大家都知道怎么爬取网页的路线? 为什么.... 如果你也跟我一样,有过上面类似的疑问,那么我觉得,这篇文章你可能值得看一下。1. 设置谷歌...原创 2018-10-11 15:19:04 · 3439 阅读 · 0 评论 -
13.python-爬虫的基础认知,爬虫的编译器操作,编程前奏
python之所以强大并逐渐流行起来,一部分原因要归功于的Python的强大的第三方库。这样用户就不用了解底层的思想,用最少的代码写出最多的功能。 在PyCharm中安装(1 )打开PyCharm ,在菜单栏选择:文件> Defalut 设置。有的直接是设置(2 )单击左侧Project Interpreter 选项,在窗口右方选择Python 环境。(3...原创 2018-10-17 17:06:06 · 953 阅读 · 0 评论 -
14.python-爬虫的基础认知,爬虫的简单套路,分析
爬虫的基本套路基本流程 目标数据,来源地址,结构分析,实现构思, 代码实际基本手段 1.破解请求限制 请求头设置 控制请求频率 ip代理 签名、加密参数从html/cookie/js分析 2.破解登录授权 请求头带上cookie3.破解验证码 简单验证码可以使用识图验证码的第...原创 2018-10-21 18:16:40 · 285 阅读 · 0 评论 -
15.python-爬虫的基础认知, 状态码认知(请求状态码)
写一个最简单的爬虫先介绍,我的环境:Ubuntu:18.04(64位)IDE(解释为开发环境,用什么写的)Python3.6注意Python2.X 和Python3.X有些语法问题,看情况而定爬虫网站为'http://www.xiaozhu.com/' 前面说过了request请求,response响应,OK第一个爬虫完成了,是不是很简单.不说这么...原创 2018-10-11 14:27:19 · 1632 阅读 · 0 评论 -
16.python-爬虫的基础认知,python变量与字符串的应用
定义变量什么是变量?在程序运行过程中,其值可以改变的量标识符(命令规范)只能由数字、字母、下划线组成不能以数字开头不能是系统关键字# 导入包import keyword# 打印所有关键字print(keyword.kwlist)命名原则尽量做到见名知意尽量用英文,实在不行全拼推荐使用全小写加下划线的方式,如:user_name变量赋值...原创 2019-02-02 15:25:21 · 483 阅读 · 0 评论 -
17.python-爬虫的基础认知,数据结构
Python中的数据结构这里总结一下Python中的内置数据结构(Built-in Data Structure):列表list、元组tuple、字典dict、集合set,涵盖的仅有部分重点,详细地去介绍每个知识点并未涉及。列表list# -*- coding: utf-8 -*-# @Time : 2019/1/22 0022 18:40# @Aut...原创 2019-02-02 15:30:23 · 394 阅读 · 0 评论 -
18.python-爬虫的基础认知,面向对象
面向过程 VS 面向对象 面向过程的程序设计的核心是过程(流水线式思维),过程即解决问题的步骤,面向过程的设计就好比精心设计好一条流水线,考虑周全什么时候处理什么东西。优点是:极大的降低了写程序的复杂度,只需要顺着要执行的步骤,堆叠代码即可。缺点是:一套流水线或者流程就是用来解决一个问题,代码牵一发而动全身。应用场景:一旦完成基本很少改变的场景,著名的例子有Linux內核,gi...翻译 2019-02-02 15:59:47 · 740 阅读 · 3 评论