自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 Python基础:生成requirements.txt文件

本文介绍了如何生成文件,以便在其他环境中安装相同的依赖包。首先介绍了使用pip freeze命令的方法,然后介绍了使用第三方库pipreqs的方法。使用pip freeze方法的优点是它简单易用,但它会包含虚拟环境中所有已安装的包,而不仅仅是项目所需的包。这可能会导致文件中包含不必要的依赖项。相比之下,pipreqs是一个更精确的方法,因为它会分析项目中的 Python 源代码文件,找出所有依赖的包,并将它们及其版本写入文件。这样,生成的文件只包含项目所需的依赖项,更加干净和易于管理。

2024-03-17 11:35:04 2915

原创 Python实战:采集全国5A景点名单

通过以上步骤,编写这个简单的 Python 代码,就获取到了官方发布的全国 5A 景点信息,一共是 340 个。这个过程包括获取网页源代码、解析网页源代码、提取所需数据和存储数据等环节。掌握了这些技能,我们可以更加高效地在网上采集所需的信息,为数据分析提供有力支持。世界那么大,我想去看看。本文首发在“程序员coding”公众号,欢迎关注与我一起交流学习。还可以通过公众号添加我的私人微信。

2024-03-13 20:57:57 890 1

原创 Python实战:用Python程序实现春晚刘谦魔术

通过我们的代码实验,可以看出刘谦的这个魔术纯粹是数学原理,只要按照固定的顺序执行,就一定能拼成完成的牌。本文首发在“程序员coding”公众号,欢迎关注与我一起交流学习。

2024-02-10 14:27:21 1434

原创 Python实战:使用DrissionPage库爬取高考网大学信息

DrissionPage 库使用起来确实比 Selenium 库方便很多,再也回不去啦。哈哈哈。本文首发在“程序员coding”公众号,欢迎关注与我一起交流学习。

2024-02-02 21:29:51 2944 1

原创 Python实战:使用DrissionPage库爬取拉勾网职位信息

DrissionPage 是一个基于 python 的网页自动化工具。它既能控制浏览器,也能收发数据包,还能把两者合而为一。可兼顾浏览器自动化的便利性和 requests 的高效率。它功能强大,内置无数人性化设计和便捷功能。它的语法简洁而优雅,代码量少,对新手友好。用 requests 做数据采集面对要登录的网站时,要分析数据包、JS 源码,构造复杂的请求,往往还要应付验证码、JS 混淆、签名参数等反爬手段,门槛较高,开发效率不高。使用浏览器,可以很大程度上绕过这些坑,但浏览器运行效率不高。

2024-02-01 21:44:47 4265 6

原创 Python实战:爬取微博,获取南京地铁每日客流数据

在这篇文章中,我们使用 Python 进行网络爬虫,爬取了微博上的南京地铁每日客流数据,并且进行了数据处理和数据可视化。爬取数据环节较为简单,多看几篇我之前发的文章,都可以轻松写出来爬虫部分的代码。由于微博是由地铁公司的工作人员每天人工编辑发送的,其中不免有数据格式不完全一致,这给数据处理环节增加了复杂度。本文首发在“程序员coding”公众号,欢迎关注与我一起交流学习。本文数据集已经上传到公众号,后台回复“南京地铁”可以自取。

2024-01-31 20:06:04 1706

原创 Python实战:获取身份证前6位归属地

有的时候编程不难,关键是要找到一个好的数据源。通过这篇文章,我们学会了如何使用 Python 获取身份证前六位的归属地信息。希望这篇文章对你有所帮助,让你在 Python 编程和数据处理方面取得更多的进步!本文首发在“程序员coding”公众号,欢迎关注与我一起交流学习。本文数据集已经上传到公众号,后台回复“身份证”可以自取。

2024-01-29 19:57:09 2594

原创 Python实战:将爬虫获取到的数据存到数据库中

SQLite 是一个轻量级的关系型数据库,它是一个开源的嵌入式数据库引擎。SQLite 占用资源非常少,通常用于嵌入式应用程序和移动设备,也经常被用作桌面应用程序的本地数据库。由于其小巧和便携性,SQLite 成为了许多开发人员的首选数据库。在这个 Python 实战中,我们学习了如何将爬虫获取到的数据存储到数据库中。首先,我们使用requests库获取了 API 的数据,并将其转换为 JSON 格式。然后,我们使用pandas库将 JSON 数据转换为 DataFrame,并从中选择了需要保存的列。

2024-01-28 21:16:56 4959

原创 Seaborn:一个样式更好看的Python数据可视化库

Seaborn 是一个基于 Matplotlib 的 Python 数据可视化库,它提供了更高级别的界面和更优雅的默认样式,使得用户能够更轻松地创建各种各样的统计图形。Seaborn 的全名是 “Statistical Data Visualization”,它的目标是使数据可视化更加简单、直观和有效。高度易用:Seaborn 提供了一组高级 API,使得用户可以轻松地创建各种统计图形,而无需关心底层的实现细节。美观的默认样式:Seaborn 提供了一套美观的默认样式,使得生成的图形更具视觉吸引力。

2024-01-25 22:30:18 4150

原创 打好Pandas与Matplotlib组合拳,玩转数据分析与可视化

熟练结合使用 Pandas 和 Matplotlib,可以多维度的进行数据分析与可视化。使用过 Matlab 基础的话,会发现 Matplotlib 一些命令是相似的。总体来说 Matplotlib 使用起来比较简单,可以快速入门。想要生成比较好看的图还是要花心思进行调教优化,比如设置中文字体、数据标签、y 轴内容过长优化显示等细节,需要逐步完善。更多的 Matplotlib 高阶用法还在尝试,放在未来再另起一篇继续写。本文首发在“程序员coding”公众号,欢迎关注与我一起交流学习。

2024-01-24 21:06:44 1749 1

原创 Python实战:爬取哔哩哔哩网站“每周必看”栏目

本次爬虫还是很简单的一个案例,但是在最后保存数据环节翻了船。可以采用每爬一页数据就保存一个 excel 文件的方式,减少重复爬取一次的损失。更好的方式是在进行数据保存之前,做一下数据处理,删除特殊字符。本文首发在“程序员coding”公众号,欢迎关注与我一起交流学习。

2024-01-22 20:18:23 2176

原创 Python实战:解决了小程序抓包返回400状态码问题

写程序是一个不断 debug 的过程,需要多查找资料,多尝试。本文首发在“程序员coding”公众号,欢迎关注与我一起交流学习。数据集已经上传到公众号,后台回复“Manner Coffee”可以自取。

2024-01-21 15:32:38 1338 1

原创 Python实战:通过微信小程序,获取Manner Coffee全国门店信息

有公众号读者在后台提问,想要上海 manner 门店信息。

2024-01-20 19:57:16 1720 1

原创 #Python实战:selenium模拟浏览器运行,获取软科网站2023中国大学排名

在爬取一些加密的网页时,可以使用selenium模拟浏览器运行,再从网页中提取想要的数据。

2024-01-19 20:30:32 3748 1

原创 Python实战:获取腾讯视频弹幕

通过 Python 获取腾讯视频弹幕。

2024-01-16 08:47:33 1323 1

原创 Python实战:获取瑞幸咖啡全国门店和职能部门,竟有接近1.2万个门店

前段时间通过 Python 实战,获取了 全国 6947 个星巴克门店的信息。今天,就有读者在公众号后台问到能不能爬取一下瑞幸的门店,这也激起了我的好奇心,说干就干。打开瑞信咖啡挂网,,并没有发现可以找到门店的入口,出师不利。继续随便浏览下官网的其他页面,来到了“关于我们”——“加入我们”——“门店招聘”这个页面,直觉告诉我这里可能会有数据。点击“门店招聘”,跳转到招聘页面。(本文首发在“程序员coding”公众号)

2024-01-09 22:54:33 2594

原创 Python实战:爬取小说网站

第 1 步:用 requests 库请求https://www.biquge11.cc/read/12972/这个网址,将返回的网页信息转为text,再用re库的正则表达式取出每一章节的地址,放在一个info_lists列表里。通过分析网页源代码,可以发现每个章节的网址都是https://www.biquge11.cc拼接上/read/12972/XXXX.html这种固定格式,也就是下面图片中红框内容,我们可以用正则表达式轻松拿下。首先,百度搜索“笔趣阁”,发现有很多网站都叫笔趣阁。

2024-01-06 22:10:24 1277 2

原创 Python可视化:通过pyecharts库生成桑基图

今天有读者问到怎么生成桑葚图,那就借这个问题来写一篇文章吧。桑葚图更官方名称叫桑基图。(欢迎在公众号后台留言提问~)桑基图通常用于可视化能源或成本转移,通过桑基图可以生动的展示数据的流动和来龙去脉,帮助我们确定各部分流量在总体中的大概占比情况。桑基图通常类似下面图片展示的样式:(本文首发在“程序员coding”公众号)在 python 中,可以借助 pyecharts 库生成桑基图。

2024-01-05 20:19:40 2358 1

原创 python实战:爬取哔哩哔哩视频弹幕

response 内就是乱码的弹幕数据,弹幕内容可以通过 re 正则表达式提取。(本文首发在“程序员coding”公众号)pycharm 控制台输出如下,获取到 16589 条弹幕。(本文首发在“程序员coding”公众号)点开视频右侧的“弹幕列表”,点击下面的“查看历史弹幕”,选择一个其他日期。键盘 F12 快捷键,或者鼠标右击“检查”打开浏览器的检查页面。这个请求,右边就是弹幕的 url 地址。,播放任意一个视频。在开发者工具页面,找到。

2024-01-02 21:07:59 5884 7

原创 python可视化:玩转pyecharts库,分析星巴克门店2023年底最新数据,生成动态全国热力图。

在前几天的文章里,我成功爬取了全国星巴克门店信息,今天尝试加入一些对于这些门店的分析,比如它们的分布特点等,使用pyecharts可视化工具生成柱状图、折线图、饼图、漏斗图、geo地图、热力图等。

2024-01-01 23:56:01 1473 1

原创 Python实战:从12306官网获取全国火车票代售点信息,并通过Pyecharts可视化。

通过本文,可以获取12306对于全国省的编码,获取全国 3253 个火车票代售点信息,通过Pyecharts可视化分析,画出柱状图、折线图、饼图、漏斗图。

2023-12-31 22:42:50 1927 2

原创 python实战:获取全国火车站、高铁站信息(附完整代码)

通过本文可以获取3091个全国火车站的车站名称、所属铁路局、车站电报码、售票时间等信息。

2023-12-29 21:19:52 3074 4

原创 python 实战:爬取全国星巴克门店信息,上海竟有 1115 个门店!

通过本文可获取全国6947个星巴克门店信息,包括:id、店名、地址(省、市、具体地址)、经纬度、营业时间等信息。

2023-12-28 23:30:46 2345 1

身份证归属地查询表.csv

身份证前6位,共有 3829 条归属地编码信息,包含 6 位编码对应的省级、地级、县级行政区。

2024-01-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除