
Python
文章平均质量分 94
GitLqr
A Little White Developer
展开
-
Python - 爬虫基础与requests模块
欢迎关注微信公众号:FSA全栈行动 ????一、爬虫基础概念模拟浏览器,发送请求,获取响应作用数据采集软件测试抢票网站上的投票网络安全虫师 博客:https://www.cnblogs.com/fnng/1、http 与 https 的概念和区别HTTP:超文本传输协议,默认端口号是 80。超文本:指超过文本,不仅限于文本;还包括图片、音频、视频等文件。传输协议:是指使用共同约定的固定格式来传递转换成字符串的超文本内容。HTTPS:HTTP + S原创 2021-07-05 08:02:59 · 301 阅读 · 0 评论 -
Python - 爬虫之Scrapy
欢迎关注微信公众号:FSA全栈行动 ????一、scrapy 概念和流程1、概念Scrapy 是一个 python 编写的,被设计用于爬取网络数据、提取结构性数据的开源网络爬虫框架。作用:少量的代码,就能够快速的抓取官方文档:https://scrapy-chs.readthedocs.io/zh_CN/0.24/补充:Scrapy 使用了 Twisted 异步网络框架,可以加快下载速度2、工作流程其流程描述如下:爬虫中起始的 url 构造成 request 对象 -->原创 2021-07-13 19:23:20 · 1500 阅读 · 7 评论 -
Python - 爬虫之Selenium
欢迎关注微信公众号:FSA全栈行动 ????一、Selenium 的介绍Selenium 是一个 Web 自动化测试工具,最初是为网站自动化测试而开发,Selenium 可以直接调用浏览器,它支持所有主流的浏览器(包括 PhantomJS 这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏等。1、Selenium 启动 Chrome在下载好 chromedriver 以及安装好 selenium 模块后,执行下列代码:from selenium import原创 2021-07-12 00:12:01 · 494 阅读 · 0 评论 -
Python - 爬虫之数据提取
欢迎关注微信公众号:FSA全栈行动 ????一、概述1、响应内容的分类结构化的响应内容json 字符串:可以使用 re、json、jsonpath 等模块来提取特定数据xml 字符串:可以使用 re、lxml 等模块来提取特定数据非结构化的响应内容html 字符串:可以使用 re、lxml、Beautiful Soup、pyquery 等模块来提取特定数据注意:re 模块需要掌握正则语法,lxml 模块需要掌握 xpath 语法。2、xml 与 html 的区别原创 2021-07-05 20:45:25 · 343 阅读 · 0 评论