uziwz_-CSDN博客

原创最大子列和问题

Maximum SubSequence SumGiven a sequence of K integers { N1, N2, …, N**K }. A continuous subsequence is defined to be { N**i, N**i+1, …, N**j } where 1≤i≤j≤K. The Maximum Subsequence is the continuous...

2020-03-30 16:12:34 232

原创爬虫自动抓取壁纸

爬虫自动抓取壁纸最近发现电脑桌面屏保需要大量壁纸来轮换,可是电脑里并没有这么多图片,于是决定写个小爬虫抓一点壁纸来用.在网上随便翻了个壁纸网站,就开干了. 爬虫用到了python的requests库和lxml库,需要额外安装.分析过程首先打开网站的主页面,可以看到有许多的图片,我比较喜欢风景图,于是切换到风景选项.点击进入某个图片,并查看该页面的源代码很容易看到,图片的url地址就...

2019-09-06 11:14:07 1030 1

原创 XPath库的用法

XPath解析库的基本用法XPath介绍XPath全称XML Path Language(XML路径语言),是一门在XML文档中查找信息的语言,同样可查找HTML文档.所以在写爬虫时可使用XPath来做相应的信息提取. (使用XPath需安装lxml库)XPath常用规则// 从当前节点选取子孙节点/ 从当前节点选取直接子节点. 选取当前节点… 选取当前节点的父节点@ 选取...

2019-09-05 15:56:10 687

原创爬取京东商品用户评论

爬取京东商品用户评论前言今天逛京东时眼盯着心心恋恋的macbookpro看了好久，烦躁于翻评论的枯燥时，便想随便爬一点评论一起看，于是编写了一个小爬虫，具体思路如下。分析首先打开京东并翻到了我想看的macbookpro的用户评论页面直接打开网页源代码发现什么也没有，然后一番分析后，发现页面是由js处理过的，F12检查网页，定位到js一栏，果然发现请求接口实现请求既然发现...

2019-09-03 23:07:35 600

原创 urllib库的基本使用

urllib库介绍urllib是python3内置的HTTP请求库，包含request，error，parse，robotparser四个基本模块，分别用于发送请求，异常处理，URL解析处理，识别robots协议。request模块urlopen() 方法urlopen(url, data=None, [timeout,]*, cafile=None, capath=None, cad...

2019-08-21 15:14:51 232

原创正则表达式基本用法

正则表达式介绍正则表达式是处理字符串的强大工具，常用来实现字符串的检索，替换，匹配验证等，正则表达式在各种编程语言中都能使用。1.常用的匹配规则\w 匹配字母，数字及下划线\W 匹配不是字母，数字及下划线\s 匹配任意空白字符\S 匹配任意非空白字符\d 匹配任意数字\D 匹配任意非数字的字符\A 匹配字符串的开头\Z 匹配字符...

2019-08-21 15:12:38 151

原创 requests库的用法

requests介绍requests库是python优秀的第三方http请求库，使用起来简洁强大，需要额外安装。可使用pip工具安装 : pip install requests基本用法请求网页import requestsresponse = requests.get("https://www.baidu.com")仅需简单一步便可实现各种方法的请求（还有post(), p...

2019-08-21 11:07:00 217

原创 urllib.error.URLError: urlopen error SSL: CERTIFICATE_VERIFY_FAILED certificate verify failed

使用urllib库请求网页出现urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1076)>异常。错误原因：这是一个SSL证书验证错误，当请求一...

2019-08-21 08:26:40 5407

uziwz_的博客