
python爬虫的基础认知
文章平均质量分 82
学无止境-程序猿
We are in the development stage of the technology age. You don't need to care about who you work and work for anyone. As long as I have a network that can be connected, I can write a code in any corner of the world.
展开
-
2.python-爬虫的基础认知,如何学好爬虫?简单认识,简单学习
作为一个小白来说,看那多原理,等于天书,看不懂,但是为啥是叫了解爬虫,而不是懂里边内容,框架(Scrapy)怎么写的,我作为小白知道怎么用,不就行了吗,之后在了解深入. 作为小白呢?知道爬虫是爬取网络数据的就行了. 网络爬虫(或称为网络爬虫、网络蜘蛛、机器人)是搜索引擎最上游的一个模块,是负责搜索引擎内容索引的第一关。 很多人为了提高自己网站的索引量,都是...原创 2018-10-11 13:47:50 · 698 阅读 · 0 评论 -
10.python-爬虫的基础认知,网络http协议是什么?
http详解 当今web程序的开发技术真是百家争鸣,ASP.NET, PHP, JSP,Perl, AJAX 等等。 无论Web技术在未来如何发展,理解Web程序之间通信的基本协议相当重要, 因为它让我们理解了Web应用程序的内部工作. 本文将对HTTP协议进行详细的实例讲解,内容较多,希望大家耐心看。也希望对大家的开发工作或者测试工作有所帮助。什么是HTTP协议协议是指...转载 2019-02-01 19:16:09 · 415 阅读 · 0 评论 -
11.python-爬虫的基础认知,网络的http协议和https协议的区别
HTTPS和HTTP的区别主要如下:1、https协议需要到ca申请证书,一般免费证书较少,因而需要一定费用。2、http是超文本传输协议,信息是明文传输,https则是具有安全性的ssl加密传输协议。3、http和https使用的是完全不同的连接方式,用的端口也不一样,前者是80,后者是443。4、http的连接很简单,是无状态的;HTTPS协议是由SSL+HTTP协议构建的可进...原创 2019-02-01 19:20:36 · 296 阅读 · 0 评论 -
16.python-爬虫的基础认知,python变量与字符串的应用
定义变量什么是变量?在程序运行过程中,其值可以改变的量标识符(命令规范)只能由数字、字母、下划线组成不能以数字开头不能是系统关键字# 导入包import keyword# 打印所有关键字print(keyword.kwlist)命名原则尽量做到见名知意尽量用英文,实在不行全拼推荐使用全小写加下划线的方式,如:user_name变量赋值...原创 2019-02-02 15:25:21 · 483 阅读 · 0 评论 -
17.python-爬虫的基础认知,数据结构
Python中的数据结构这里总结一下Python中的内置数据结构(Built-in Data Structure):列表list、元组tuple、字典dict、集合set,涵盖的仅有部分重点,详细地去介绍每个知识点并未涉及。列表list# -*- coding: utf-8 -*-# @Time : 2019/1/22 0022 18:40# @Aut...原创 2019-02-02 15:30:23 · 394 阅读 · 0 评论 -
18.python-爬虫的基础认知,面向对象
面向过程 VS 面向对象 面向过程的程序设计的核心是过程(流水线式思维),过程即解决问题的步骤,面向过程的设计就好比精心设计好一条流水线,考虑周全什么时候处理什么东西。优点是:极大的降低了写程序的复杂度,只需要顺着要执行的步骤,堆叠代码即可。缺点是:一套流水线或者流程就是用来解决一个问题,代码牵一发而动全身。应用场景:一旦完成基本很少改变的场景,著名的例子有Linux內核,gi...翻译 2019-02-02 15:59:47 · 740 阅读 · 3 评论 -
23.python-爬虫的基础认知,Condition锁机制,小例子
Condition锁机制#-------------------------------------------------------------------------import threadingimport timeimport randomgMoney = 1000gTimesT = 10gTimes = 0gCondition= threading.Conditio...原创 2019-03-13 21:54:10 · 248 阅读 · 0 评论 -
24.python-爬虫的基础认知,python代码不认中文
import urllib.requestimport urllib.parseimport string#导入相应的包url = 'http://www.baidu.com/s?wd='#相应的网址链接name = "美女"#想要添加的元素base_url = url + name#拼接对应的urlprint(base_url)#打印拼接后的链接new_url = u...原创 2019-03-15 00:13:29 · 272 阅读 · 0 评论 -
爬虫入门学习案例--适合新手入门
常见的爬虫新手入门,知道什么使网页源代码,网页响应码,真正的url地址信息,下载图片,视频,网页到本地原创 2019-03-20 20:31:54 · 1445 阅读 · 0 评论 -
19.python-爬虫的基础认知,爬虫中的urllib库简单的使用
from urllib import request#1.urlopen 访问网页#--------------------------------------------------------------resp = request.urlopen('http://www.baidu.com')# print(resp.read(100)) ...原创 2019-03-13 14:45:19 · 214 阅读 · 0 评论 -
20.python-爬虫的基础认知,urllib中的get和post请求
总之访问时,差不多是一样的,只是多了些参数,访问会更安全些from urllib import request,parse# url = 'http://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput='# res = request.urlopen(url)# print(res...原创 2019-03-13 16:46:18 · 230 阅读 · 0 评论 -
21.python-爬虫的基础认知,多线程小例子
多线程爬虫的方便了,但是只要问题是数据可以因为运行速度问题导致数据紊乱,所以要加上锁机制,改变了全局变量的多线程要加上锁。1.普通的执行方式,运行共计6秒import timedef coding(): for x in range(3): print('正在写代码%s'%x) time.sleep(1)def drawing():...原创 2019-03-13 17:51:51 · 244 阅读 · 0 评论 -
22.python-爬虫的基础认知,Lock锁机制
lock锁,但是有个问题是,每个线程运行时,每次都得重新上锁和解锁,会比较耗费cpu资源。import threadingimport timeimport randomgMoney = 1000gTimesT = 10gTimes = 0gLock = threading.Lock()class Producer(threading.Thread): def run...原创 2019-03-13 18:36:44 · 564 阅读 · 0 评论 -
webspider,网页爬虫程序全程一体化操作,自动写爬虫代码,自动部署分布式,不经历代码过程,让每个人都能玩爬虫
Web爬虫,也叫Webspiders-online 全程web界面操作的爬虫系统,预设定全程一体化操作,使简单的爬虫直接放置链接自动提取,然后复杂度评级高的,要用到专业知识,后期想做到全程web端创建爬虫,自动写入爬虫规则代码,然后界面点击直接部署分布式到服务器上,不经历代码过程,目前在写入规则!遇到问题各种验证码不同,目前的想法是直接跳过使用代理ip,后期看看能不能加个验...原创 2019-04-06 19:44:44 · 3213 阅读 · 5 评论 -
15.python-爬虫的基础认知, 状态码认知(请求状态码)
写一个最简单的爬虫先介绍,我的环境:Ubuntu:18.04(64位)IDE(解释为开发环境,用什么写的)Python3.6注意Python2.X 和Python3.X有些语法问题,看情况而定爬虫网站为'http://www.xiaozhu.com/' 前面说过了request请求,response响应,OK第一个爬虫完成了,是不是很简单.不说这么...原创 2018-10-11 14:27:19 · 1632 阅读 · 0 评论 -
9.python-爬虫的基础认知, 虚拟环境的设置与操作
python虚拟环境的操作:virtualenv和virtualenvwrapper本文使用virtualenvwrapper,还有就是现在的大多数编译器有选择不同python版本的功能,可以都安装,在按照程序自主设置版本。安装linux和mac下安装pip install virutalenv virtualenvwrapperwindows下安装pip inst...转载 2019-02-01 17:51:14 · 368 阅读 · 0 评论 -
12.python-爬虫的基础认知,选择自己喜好的浏览器,推荐谷歌浏览器(个人推荐,选不选自己选择)
爬虫的浏览器一般讲究效率,使自己选择的。选取一个浏览器,小白,网上得出结论谷歌浏览器OK!不是不让用了吗?怎么还用谷歌?? 为什么爬虫要用Chrome? 为什么大家似乎都值得header应该怎么写? 为什么大家都知道怎么爬取网页的路线? 为什么.... 如果你也跟我一样,有过上面类似的疑问,那么我觉得,这篇文章你可能值得看一下。1. 设置谷歌...原创 2018-10-11 15:19:04 · 3439 阅读 · 0 评论 -
小猪短租网requests库使用
请求库官方文档指出:让HTTP 。服务人类细心的读者就会发现,请求库的作用英文就是请求网站电子杂志|网页数据的从简单的实例开始,讲解。请求库的使用方法。import requestsres = requests.get('http://bj.xiaozhu.com/')print(res)#pycharm中返回结果为<Response [200]>,说明...原创 2018-10-19 11:00:30 · 652 阅读 · 0 评论 -
正则表达式具体用法
正则表达式的一般字符有3个 字符 含义 。 匹配任意单个字符(不包括换行符\ n)的 \ 转义字符(把有特殊含义的字符转换成字面意思) [...] 字符集。对应字符集中的任意字符 正则表达式预定...转载 2018-10-19 13:39:30 · 270 阅读 · 0 评论 -
8.python-爬虫的基础认知, 爬虫程序编辑所用的编译器
老话说的好:工欲善其事必先利其器!所以,我们在使用 Python 来编程的时候,我们也需要一个牛逼的武器,来编写我们的代码 —— 编辑器!编译器不重要,看个人喜好而定,记事本都是可以写的。1. Sublime Texthttp://www.sublimetext.com/Sublime Text 比较适合 Python 新手使用,Sublime Text支持跨平台,而且可以使用...原创 2018-10-17 00:41:56 · 1749 阅读 · 0 评论 -
7.1python-爬虫的基础认知,python版本之争
Python入门当然建议直接学Python3了,毕竟是趋势。 而且Python3中对于字符编码的改动会让新手省掉很多很多很多关于字符编解码问题的纠结。 另一方面看你项目大小吧。 如果自己写代码,Python2和Python3没啥区别。 但是如果你是奔着Scrapy这个爬对于爬虫项目,python 2和3哪个好些? 主流公司相对于比较保守,使用的事Python2.x版本...原创 2018-10-17 11:03:34 · 853 阅读 · 0 评论 -
request对象的使用,构造单一设备请求头,用法-案例篇
from urllib.request import urlopenfrom urllib.request import Requesturl ='http://www.baidu.com/'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like G...原创 2018-10-17 11:56:33 · 749 阅读 · 0 评论 -
13.python-爬虫的基础认知,爬虫的编译器操作,编程前奏
python之所以强大并逐渐流行起来,一部分原因要归功于的Python的强大的第三方库。这样用户就不用了解底层的思想,用最少的代码写出最多的功能。 在PyCharm中安装(1 )打开PyCharm ,在菜单栏选择:文件> Defalut 设置。有的直接是设置(2 )单击左侧Project Interpreter 选项,在窗口右方选择Python 环境。(3...原创 2018-10-17 17:06:06 · 953 阅读 · 0 评论 -
14.python-爬虫的基础认知,爬虫的简单套路,分析
爬虫的基本套路基本流程 目标数据,来源地址,结构分析,实现构思, 代码实际基本手段 1.破解请求限制 请求头设置 控制请求频率 ip代理 签名、加密参数从html/cookie/js分析 2.破解登录授权 请求头带上cookie3.破解验证码 简单验证码可以使用识图验证码的第...原创 2018-10-21 18:16:40 · 285 阅读 · 0 评论 -
1.python-爬虫的基础认知(爬虫的实际案例)
爬虫的实际例子: 1.百度,谷歌(搜索引擎), 2.新闻网(各种资讯网站), 3.各种购物助手(比价程序) 4.数据分析(数据冰山知乎) 5.抢票软件什么是网络爬虫? 来自:百度百科 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另...原创 2019-02-01 13:42:15 · 663 阅读 · 0 评论 -
3.python-爬虫的基础认知,什么是聚焦爬虫?(以后大部分接触的都是聚焦爬虫)
聚焦爬虫来自:百度百科 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的...原创 2019-02-01 14:09:48 · 1272 阅读 · 0 评论 -
4.python-爬虫的基础认知,爬虫的几大分类?
分类来自:百度百科 网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。 实际的网络爬虫系统通常是几种爬虫技术相结合实现的 ...原创 2019-02-01 14:21:56 · 2369 阅读 · 0 评论 -
5.python-爬虫的基础认知,爬虫的目标分析,搜索算法
抓取目标分类来自:百度百科 抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。 ...原创 2019-02-01 15:28:20 · 1034 阅读 · 0 评论 -
6.python-爬虫的基础认知,为什么使用python写爬虫?
用什么语言写爬虫?C,C++。高效率,快速,适合通用搜索引擎做全网爬取。缺点,开发慢,写起来又臭又长,例如:天网搜索源代码。脚本语言:Perl, Python, Java, Ruby。简单,易学,良好的文本处理能方便网页内容的细致提取,但效率往往不高,适合对少量网站的聚焦爬取C#?(貌似信息管理的人比较喜欢的语言) 为什么最终选择Python?傻白甜,易上手 跨...原创 2019-02-01 15:39:41 · 781 阅读 · 0 评论 -
7.python-爬虫的基础认知,python2和3版本的区别?
几乎所有的python2程序都需要一些修改才能正常的运行在python3的环境下。为了简化这个转换过程,Python3自带了一个2to3的实用脚本.这个脚本会将python2程序源文件作为输入,然后自动转换到python3.但并不是所有内容都可以自动转换。print语句python2中print是一个语句,不论想输出什么,直接放到print关键字后面即可。python3...翻译 2019-02-01 17:14:51 · 717 阅读 · 0 评论