- 博客(8)
- 收藏
- 关注
原创 最大子列和问题
Maximum SubSequence SumGiven a sequence of K integers { N1, N2, …, N**K }. A continuous subsequence is defined to be { N**i, N**i+1, …, N**j } where 1≤i≤j≤K. The Maximum Subsequence is the continuous...
2020-03-30 16:12:34
232
原创 爬虫自动抓取壁纸
爬虫自动抓取壁纸最近发现电脑桌面屏保需要大量壁纸来轮换,可是电脑里并没有这么多图片,于是决定写个小爬虫抓一点壁纸来用.在网上随便翻了个壁纸网站,就开干了. 爬虫用到了python的requests库和lxml库,需要额外安装.分析过程首先打开网站的主页面,可以看到有许多的图片,我比较喜欢风景图,于是切换到风景选项.点击进入某个图片,并查看该页面的源代码很容易看到,图片的url地址就...
2019-09-06 11:14:07
1030
1
原创 XPath库的用法
XPath解析库的基本用法XPath介绍XPath全称XML Path Language(XML路径语言),是一门在XML文档中查找信息的语言,同样可查找HTML文档.所以在写爬虫时可使用XPath来做相应的信息提取. (使用XPath需安装lxml库)XPath常用规则// 从当前节点选取子孙节点/ 从当前节点选取直接子节点. 选取当前节点… 选取当前节点的父节点@ 选取...
2019-09-05 15:56:10
687
原创 爬取京东商品用户评论
爬取京东商品用户评论前言今天逛京东时眼盯着心心恋恋的macbookpro看了好久,烦躁于翻评论的枯燥时,便想随便爬一点评论一起看,于是编写了一个小爬虫,具体思路如下。分析首先打开京东并翻到了我想看的macbookpro的用户评论页面直接打开网页源代码发现什么也没有,然后一番分析后,发现页面是由js处理过的,F12检查网页,定位到js一栏,果然发现请求接口实现请求既然发现...
2019-09-03 23:07:35
600
原创 urllib库的基本使用
urllib库介绍urllib是python3内置的HTTP请求库,包含request,error,parse,robotparser四个基本模块,分别用于发送请求,异常处理,URL解析处理,识别robots协议。request模块urlopen() 方法urlopen(url, data=None, [timeout,]*, cafile=None, capath=None, cad...
2019-08-21 15:14:51
232
原创 正则表达式基本用法
正则表达式介绍正则表达式是处理字符串的强大工具,常用来实现字符串的检索,替换,匹配验证等,正则表达式在各种编程语言中都能使用。1.常用的匹配规则\w 匹配字母,数字及下划线\W 匹配不是字母,数字及下划线\s 匹配任意空白字符\S 匹配任意非空白字符\d 匹配任意数字\D 匹配任意非数字的字符\A 匹配字符串的开头\Z 匹配字符...
2019-08-21 15:12:38
151
原创 requests库的用法
requests介绍requests库是python优秀的第三方http请求库,使用起来简洁强大,需要额外安装。可使用pip工具安装 : pip install requests基本用法请求网页import requestsresponse = requests.get("https://www.baidu.com")仅需简单一步便可实现各种方法的请求(还有post(), p...
2019-08-21 11:07:00
217
原创 urllib.error.URLError: urlopen error SSL: CERTIFICATE_VERIFY_FAILED certificate verify failed
使用urllib库请求网页出现urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1076)>异常。错误原因:这是一个SSL证书验证错误,当请求一...
2019-08-21 08:26:40
5407
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人