- 博客(154)
- 收藏
- 关注
原创 python实战项目68:基于youtube视频的样本分析
本文选择YouTube平台上的来华旅游博主视频为研究对象,采用滚雪球抽样法,选取YouTube上来华旅游博主发布的英文Vlog 视频,从而实现样本的积累,本文分析的核心语料库为视频摘要,通过谷歌浏览器插件YouTube Summary with ChatGPT & laude 获取,该插件可以在谷歌chrome商店中下载。本文之所以选择视频摘要而非视频的完整文案为样本,是因为Vlog 视频通常充满口语化表达,信息较为杂乱,通过视频摘要可以更好地提取Vlog的信息,凝练视频展现的中国形象。
2025-05-05 10:44:52
2
原创 python实战项目67:空气质量在线检测平台js逆向
项目需求是获取某个城市(以北京市为例)历年(2013年12月至2025年4月)的空气质量数据,字段包括日期、AQI、质量等级、PM2.5、PM10、NO2、CO、SO2等。改网站的网址是“https://www.aqistudy.cn/historydata/daydata.php?网站如图所示:这个网站有参数加密、响应数据加密等,需要用到js逆向的知识,对于新手小白来说可能有些复杂,需要通过观看教学视频、查阅资料等方式才能掌握。
2025-05-01 00:01:17
821
原创 python实战项目66:抓取考研招生专业信息
首先,在zydws.do数据包中抓取dwdm数据,然后再想yjfxs.do数据包发请求,将dwdm的值放在data参数中,获取数据以及保存数据。打开浏览器开发者工具抓包,刷新页面,找到xhr数据包。在搜索框中输入所需查询的专业。考研招生专业信息所在网页。
2025-04-27 21:35:53
191
原创 python实战项目65:drissionpage采集boss直聘数据
boss直聘网站近期改版,改版之后代码需要做相应的升级维护。drissionpage采集网页数据是一种不错的方式,笔者认为比Selenium好用,使用方法大家可以自行查阅资料。
2025-04-27 19:51:37
191
原创 python实战项目64:selenium采集软科中国大学排名数据
抓取此网页数据一般有两种方式,一种是直接发requests请求,我们这里采用的是使用selenium控制浏览器获取数据。采集流程主要分为以下几个步骤:一是初始化浏览器;二是控制浏览器打开网页,设置隐式等待;本项目的需求是使用selenium采集。
2025-04-23 22:03:38
171
原创 python实战项目63:获取腾讯招聘信息内容并进行统计分析
中社会招聘的不同工作类别岗位数据,获取该类招聘工作岗位中所有数据的岗位名称(RecruitPostName)、岗位地址(LocationName)、岗位类别(CategoryName)、岗位经验年限(RequireWorkYearsName)、岗位ID(PostId)、岗位职责(Responsibility)、岗位要求(Requirement),并保存为csv文件。并把所有该类招聘岗位的岗位名称、岗位ID、岗位地址、岗位类型、岗位经验年限、岗位职责、岗位要求保存为csv文件。
2025-04-23 20:53:53
489
原创 python实战项目62:采集大码女装数据
需求是采集女装的名称,售价、原价、颜色、尺码以及详情描述等信息我们的思路是先在主页爬取到每个商品的详情页url,接下来再对详情页的url发起请求,逐个获取商品的详情页信息,进而提取数据、保存数据。编写爬虫代码,使用xpath提取数据,并保存数据。抓包,找到商品详情页所在的数据接口。接下来进入商品详情页,找到数据接口。
2025-04-18 14:46:22
123
原创 app逆向专题五:新快报app数据采集
在对话框中粘贴,下面会自动生成Python爬虫代码,根据需要自行编写数据提取以及翻页代码,这些是爬虫基础,这里不再赘述。这里介绍一种简便的代码编写方法,在数据接口处右键,点击“Copy cURL Request”,然后打开。
2025-04-13 20:03:39
1081
原创 app逆向专题四:charles抓包工具配置
为了能抓取浏览器https的数据包,需要安装证书,点击Help选项卡下的SSL Proxying,再点击Install Charles Root Certificate,点击安装证书,点击本地计算机,点击下一步,点击将所有的证书都放入下列存储,点击浏览,点击受信任的根证书颁发机构,点击确定,点击下一步,点击完成。也就是说需要电脑和手机(或者模拟器)连接同一个WiFi,或者使用手机连接电脑的热点。查看你的设备ip地址,打开cmd输入ipconfig。点击设置,点击网络和互联网,点击右侧设置,如下图所示。
2025-04-13 18:04:14
649
原创 app逆向专题三:adb工具的使用
adb它是一个通用命令行工具,它可以作为Android与PC端连接的一个桥梁,所以adb又成为Android调试桥,用户可以通过adb在电脑上对Android设备进行全面操作,比如安装和调试应用,操作文件的传输等,参考地址。下载完毕之后解压缩,然后将adb.exe文件所在的目录添加环境变量即可。如果该链接的下载地址过期或者无法下载,可以联系笔者获取。,找到如下图所示位置,之后点击下载即可。
2025-04-12 19:17:51
562
原创 app逆向专题二:app逆向流程
app抓包分析可以看到有签名有加固,毕竟需要APK去访问服务、获取数据,都需要APK有完整的信息,而这些信息、代码经过各种加密,还是放在APK里面。这里我们使用一款apk查壳软件apk查壳神器,使用方法非常简单,将下载好的apk文件拖动至apk查壳神器的窗口即可。
2025-04-05 18:59:13
1157
原创 python爬虫系列课程8:js浏览器window对象属性
在Web开发中,document 对象是DOM(文档对象模型)的一部分,它代表了整个HTML文档,并提供了多种属性和方法来访问和操作文档的内容、结构和样式。:即文档对象模型,Document Object Model,用于操作页面元素,DOM可以把HTML看作是文档树,通过DOM提供的API可以对树上的节点进行操作。:即JS的基本语法,JavaScript的核心,描述了语言的基本语法和数据类型,ECMAScript是一套标准,定义了一种语言的标准,与具体实现无关。
2025-03-08 22:51:54
129
原创 python爬虫系列课程7:ajax
ajax是Asynchronous JavaScript and XML的简写,ajax是一个前后端配合的技术,它可以让JavaScript发送异步的http请求,与后台通信进行数据的获取,ajax最大的优点是实现局部刷新,ajax可以发送http请求,当获取到后台数据的时候更新页面显示数据实现局部刷新,在这里大家只需要记住,当前端页面想和后台服务器进行数据交互就可以使用ajax了。
2025-03-08 21:29:26
293
原创 python实战项目61:去除文本中的表情符号
假设现在有一段文本:“这是一个包含😊表情符号的句子。还有更多像这样的心形❤️和笑脸😀。”,需要编写一段python代码把文本中的表情符号去除掉,达到以下效果:“这是一个包含表情符号的句子。还有更多像这样的心形和笑脸。”下面我们借助AI工具来实现这一目的。
2025-03-08 19:32:28
139
原创 python实战项目60:汽车之家品牌参数配置数据采集
参数配置页面抓包,找到数据接口,构造请求获取数据。如下图所示,点击任意一款车辆,点击参数配置选项。发送请求,获取seriesid。
2025-03-07 21:53:45
528
原创 python爬虫系列课程5:JavaScript语法介绍
JavaScript是一种弱类型语言,也就是说不需要指定变量的类型,JavaScript的变量类型由它的值来决定,定义变量需要用关键字’var’,一条JavaScript语句应该以";"结尾定义变量的语法格式:var 变量名=值;// 同时定义多个变量可以用","隔开,公用一个"var"关键字// 函数定义// 函数调用func()// 传参add(2, 4)// 内部函数外部调用 导出方法!cc();bc = cc;// 全局导出内部变量}())bc()
2025-03-02 13:08:35
73
原创 python实战项目58:采集蜻蜓FM热门音频top排行榜
蜻蜓FM热门音频top排行榜的链接为:,首页如下图所示:采集的思路为1、抓包、找到数据接口;2、发送请求;3、接收请求、提取数据;4、保存数据。
2025-02-25 23:31:01
224
原创 python爬虫系列课程3:解决爬虫过程中遇到的编码问题
这是因为requests模块在解析响应数据时,会以推断的字符集去解析,有时候会出错,就会出现乱码问题,这时需要我们自己去指定字符集。或者使用更为简单通用的方法,直接添加一行代码。
2025-02-18 22:37:52
252
原创 python爬虫系列课程2:如何下载Xpath Helper
点击浏览器右上方的三个点的图标,再点击扩展程序,最后点击管理扩展程序,将右上角的开发者模式图标打开。将下载的文件全部解压缩,把后缀名为crx的文件重命名为xpath.crx。将xpath.crx文件拖拽到扩展程序界面,点击添加扩展程序,安装完毕。
2025-02-18 21:43:12
492
原创 python爬虫系列课程1:初识爬虫
通用爬虫可以提取大多数网站的数据,但是对于网站中某些特殊数据的提取方式没有实现。自定义爬虫可以针对某一种网站自行开发符合要求的爬虫。
2025-02-18 20:34:58
744
1
原创 python实战项目57:根据电影名称在themoviedb搜索电影详情
已知电影名称,在themoviedb电影网站搜索电影的导演、演员、时长、简介、评分等数据,接下来是实现过程。编写代码提取出详情页的标题,上映时间、类型、时长、导演、剧情简介等信息并保存。编写代码提取出结果页第一个结果的详情页url。
2025-01-01 11:39:07
143
原创 python实战项目56:猫眼影片总票房排行榜
接下来再编写爬虫代码时注意携带cookie、headers和载荷中的参数。取出数据包中的数据,再使用xpath表达式提取数据。需求就是采集猫眼影片总票房排行榜上的数据。获取到的数据是json类型的数据,先通过。使用csv文件格式保存数据。
2024-12-31 16:32:18
166
原创 python实战项目55:多线程爬取笔趣阁小说
需求是使用多线程爬取笔趣阁网站小说的所有章节内容并保存,多线程分别使用了concurrent.futures线程池和threading模块。
2024-12-26 13:43:16
1251
原创 python实战项目53:drissionpage采集某程无忧招聘数据
首先说点废话,技术更新的速度很快,之前一直在使用selenium,但随着selenium运用的增多,网站对于selenium的识别也越来越厉害。无意间,本人接触到了DrissionPage,忍不住要向大家安利一下,个人感觉比selenium方便很多,因为不需要不断地下载然后更新驱动,不需要繁琐的操作,DrissionPage把例如执行JS代码的方法封装好了,调用起来真的方便。开始正题,新建一个临时py文件,并输入以下代码,填入您电脑里的Chrome浏览器可执行文件路径,然后运行。
2024-12-23 13:32:41
243
原创 python实战项目52:Selenium爬取steam黑神话悟空评论
Selenium爬取steam游戏评论的思路非常简单,初始化Chromedriver,然后打开评论页面,循环下拉滚动条,每下拉一次滚动条获取一次页面源代码,使用xpath解析数据并保存数据。本文的主要目的是为大家提供完整可执行的代码,以此帮助需要的人尽快获取到数据,降低时间成本。
2024-11-03 23:53:50
1502
1
原创 python实战项目51:selenium结合requests获取某众点评评论
寻找数据接口,发送请求、获取数据、解析数据、保存数据,这是python爬虫的基本步骤,这里就不再做详细展示,重点是使用requests携带上一步中获取到的cookies。首先,初始化selenium的webdriver,然后使用webdriver打开某众点评主页,之后手动扫码登录,利用selenium的get_cookies()方法获取cookies。某众点评的cookies只能用于发送50次请求,之后便会过期,过期之后就需要重新登录,程序中解决了这个问题,但需要准备两个账号以进行切换登录。
2024-11-01 19:48:21
541
原创 python实战项目50:js逆向某蜂窝评论
在控制台下方输入代码Function.prototype.constructor = function(){}并执行,然后点击跳过断点即可。然后截取32位md5加密后的值中下标为[2, 12]的值,便是_sn。首先,添加一个xhr断点。
2024-10-29 21:25:21
537
原创 python实战项目49:足彩开奖竞猜数据抓取
其中,clientCode为固定值,matchId可以在上一步中获取的响应中得到。由于获取到的是json数据,直接使用python中字典的获取数据的方法即可。打开开发者工具,刷新页面,找到数据接口为xhr数据包。
2024-10-29 16:49:44
559
原创 python实战项目48:实某僧字体反爬
图中url的内容加上网站前缀“https://www.shixiseng.com/”,在地址栏中输入之后可以下载字体文件。为网页指定字体,开发者可将心仪的字体文件放在web服务器上,并在css样式中使用它。这里使用的是fontTools库,加载字体文件之后使用对应的方法获取到unicode编码,然后将unicode编码转换为16进制字符串,最后进行相应的替换。字体加密就是利用前端技术干扰,但是页面可以正常展示数据,而使用爬虫获取后无法提取正常的数据。目前的技术开发者可以使用。
2024-10-25 21:59:05
129
原创 python实战项目47:Selenium采集百度股市通数据
这里以获取百度股市通股评下的投票数据为例,页面中的其他数据同理。思路很简单,通过Selenium打开页面,然后定位到“股评”选项卡,再模拟点击“今日”或者“本周”“本月”“今年”,接下来获取页面源代码,再使用xpath解析页面数据。但需要注意的是,使用Selenium打开的页面过多的话,会遇到cookie反爬。这里重点解决的是,在每次打开页面操作之前和之后,需要使用Selenium的delete_all_cookies()方法删除cookie,这样便可以绕过cookie反爬,亲测有效。
2024-10-24 18:26:48
1014
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人