自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

积跬步,慕至千里的博客

想,都是问题;做,才有答案!

  • 博客(288)
  • 资源 (4)
  • 收藏
  • 关注

原创 shell:filebrowser工具使用方法

File Browser是一个开源的文件共享软件,它可以帮助用户轻松地管理他们的文件资源,并通过Web界面进行共享。

2025-05-14 08:00:00 127

原创 shell 关闭与服务器的连接后,保持程序可以后台运行的处理方式

在使用xshell等工具连接服务器时,意外断开连接可能导致运行的程序中断。为了解决这一问题,可以使用nohup命令使程序在后台继续运行,即使终端关闭也不会中断。

2025-05-14 07:30:00 843

原创 T检验、F检验及样本容量计算学习总结

听到最多的检验,非T检验莫属。另一种常常听到的检验大概就是F检验了。关于它们应用在什么场景,应用方式虽然偶尔也在使用,但好像总是稀里糊涂的,没有系统梳理。另外,对于做一些实验,到底需要多少样本量才能满足实验需求,也是停留在一知半解的状态。还是要定期进行对所学所用要有总结,更好的知不足而补足。

2025-04-27 23:16:09 238

原创 PySpark中DataFrame应用升阶及UDF使用

PySpark 有两种 UDF:传统UDF(非向量化UDF) 和 Pandas UDF(向量化UDF)传统UDF(非向量化UDF):通过Python函数逐行处理数据,使用注册优点:适合简单逻辑(如字符串处理、数值转换)在所有Spark版本(≥1.3)中均可使用逐行调试方便,便于通过print或日志逐行调试逻辑。缺点:性能差,高延迟,尤其在大数据集上可能成为瓶颈。需手动处理Spark数据类型与Python类型的映射,易因类型不匹配出错。

2025-04-27 20:00:00 896

原创 pyspark 数据处理的三种方式RDD、DataFrame、Spark SQL案例

上一篇对pyspark的一些常用函数做了梳理,这篇主要是针对RDD、DataFrame、SparkSql三种实现同一功能需要的方式做一梳理,通过实际动手,体会不同方式在数据处理过程中的差异性、便利性。

2025-03-10 19:15:00 1474

原创 pyspark RDD相关常用函数使用案例

虽然让大模型生成了现成的代码,但自己看不动其处理方式终归不是走捷径之道。一个字母一个字母的敲击、运行、输出、报错、调试,现在虽然各种AI大模型层出不穷的展现着其强大的智能水平,紧跟时代的同时,也需要脚踏实地,对一些基础信息进行了解和掌握.

2025-03-10 19:00:00 971

原创 机器学习中过拟合和欠拟合问题处理方法总结

实际操作中,可能受制于业务场景、数据质量等多方面限制,具体采用何种方式防止过拟合、欠拟合问题,可以根据模型评估的结果来进一步分析。

2025-02-10 11:47:44 1107

原创 如何使用满血版的deepseek(避免卡顿的使用方法)

最近deepseek十分火爆,但使用过程中,你是不是和我一样常常碰到如下图所示的问题,并且响应还十分缓慢。基于上述描述的问题,为了体验满血版的deepseek,因此将使用满血版的deepseek的方法总结如下。解决deepseek卡顿的问题,只需要三步。记得填写邀请码:g3ic2DNa)

2025-02-10 07:30:00 6125

原创 机器学习模型常用模型评价指标总结

对于机器学习模型,评价模型的好坏是十分重要的一环,不同的任务对应的评估指标也有所差异,以更好的评价和比较模型的优劣。诸如分类(classification)、回归(regression)、排序(ranking)、聚类(clustering)、主题模型(topic modeling)等。本文则对不同场景的评估指标进行总结梳理

2025-02-07 07:30:00 1273

原创 书籍《新能源汽车动力电池安全管理算法设计》和《动力电池管理系统核心算法》脑图笔记

随着一步步的学习,发现数据所提及的算法,对于基于国标32960的车辆数据来说,整体实用性不是很好,所以,部分章节的笔记也就开始了忽略了潦草。当然,作为对动力电池相关基础知识的了解读物的话,两本书还是不妨拜读一下,对于不感兴趣或者不适用的章节部分,可以根据当下所需选择性略读或跳过。如今身处新能源动力电池行业,欲对动力电池相关算法做一些了解,通过查找相关电子书app,最后找到了这两本书:《新能源汽车动力电池安全管理算法设计》、《动力电池管理系统核心算法》,sui开始阅读,并对书中相关知识点进行了梳理。

2025-02-06 18:12:03 556

原创 Windows环境本地配置pyspark环境详细教程

如何在windows环境本地配置pyspark环境,本文将过程进行了详细梳理和记录。

2025-01-17 08:00:00 3660 10

原创 pyspark连接clickhouse数据库的方式(其它数据库同样适用)

如何用pyspark连接clickhouse,本文通过测试,给出了示例案例。本文的连接方式,同样可以衍生适用于mysql、oracle等数据库。

2025-01-17 07:45:00 781

原创 numpy和panda在数据统计时的注意事项

numpy和panda在数据统计时的注意事项。

2024-12-13 15:33:35 211

原创 01《Python数据分析》数据分析初探章节总结

数据分析就是:用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论,对数据加以详细研究和概括总结的过程。

2024-12-13 15:32:55 1094

原创 在win10系统安装fbprophet模块操作方式

prophet模型运行,win10环境中配置环境方式总结。

2024-11-29 17:35:22 599

原创 Prophet时间序列算法总结及python实现案例

Prophet算法总结、使用注意事项及python实现案例

2024-11-29 16:44:16 1234

原创 使用 pyecharts 渲染成图片程序报错: echarts is not defined问题处理

之前写的使用来保存pyeacharts渲染成的网页截图,可以正常运行。,来来回回试了一些方式,包括卸载重装相关模块或者替换模块,均没解决问题。由于之前好使的snapshot_selenium 方式开始报错,另两个模块也不能用了。

2024-07-04 19:00:00 751

原创 python:大文件分批/块导入数据库方式记录

对于数据文件比较大的数据,一次性串联sql进行入库,往往会受到数据库本身对sql长度的限制,从而需要分块或者分批次,将大数据文件一点一点的进行入库。特针对这种入库方式,进行一个简单记录,各类数据库入库后续均可参考下述实现分块的方式,进行分批入库数据。问题点其实主要是如何对数据进行分块。,从而实现分批入库。

2024-05-23 17:32:38 765

原创 14-pyspark的DataFrame使用总结

PySpark实战笔记系列第五篇:DataFrame使用总结

2024-04-11 20:02:52 1058

原创 13-pyspark的共享变量用法总结

PySpark实战笔记系列第四篇:共享变量用法总结

2024-04-09 20:12:35 1015

原创 12-pyspark的RDD算子注意事项总结

pyspark入门学习笔记第三篇:RDD算子注意事项总结

2024-04-08 20:00:00 1396 2

原创 11-pyspark的RDD的变换与动作算子总结

pyspark入门学习笔记第二篇:RDD的变换与动作算子总结

2024-04-06 23:04:54 1471 2

原创 10-用PySpark建立第一个Spark RDD

pyspark入门学习笔记第一篇

2024-04-05 10:21:12 1599

原创 clickhouse常用函数总结

formatDateTime(def_datetime, '%y') AS def_datetime_year_litter, -- 19(指定日期为19年,Year, last two digits (00-99),本世纪的第19年)formatDateTime(def_datetime, '%M') AS def_datetime_get_minute,-- 20(得到指定事件的“分”,minute (00-59))-- 30(得到指定事件的“秒”,second (00-59))

2024-04-03 18:06:46 2425

原创 pyecharts画图结果存为图片

通过pyecharts绘制的图像,我们尝尝保存在html文件中,以保持其原有的良好的交互性。但当我们在word或者ppt中使用时,保存为图片的形式,则是我们最想要的方式。针对此问题,通过查找相关实现方式,总结其渲染的html文件保存图片方式。在 Python 中,模块pyecharts模块中存在make_snapshot函数,其作用是生成静态图像快照,能够将 pyecharts 生成的图表保存为图片文件。

2023-11-21 20:09:48 3134

原创 仪表盘:pyecharts绘制

利用pyecharts绘制仪表盘

2023-11-21 19:59:05 624

原创 【案例卡】clickhouse:多行数据拼接在一行

groupArray 是 ClickHouse 提供的一种聚合函数,用于在 GROUP BY查询中将行组的某个列的值组合成一个数组。groupArray 函数在分析数据时非常有用,它可以将行组中的数据合并成数组形式,方便后续的处理和分析。

2023-11-07 16:43:13 5483

原创 【总结卡】clickhouse数据库常用高级函数

clickhouse常用高级函数总结

2023-11-07 10:07:05 2692

原创 01 Excel常用高频快捷键汇总

Excel软件是我们工作学习必备的工具之一,作为如此高频使用的一个工具,如果能够掌握其中一些常用的快捷方式,将对轻易提升我们的工作效率,事半功倍,快捷工具的熟练使用,使我们达成所愿的捷径之一,也是相对来说,学习投入最少却最易获益的一种方式。基于此,本文对常用的一些高频快捷键进行了汇总和介绍,以期帮助到有需要的人。

2023-07-26 15:26:51 1892

原创 案例卡:pandas数据框(DataFrame)转换为嵌套列表的两种常见方法

DataFrame转换为嵌套列表的两种实现方式。

2023-03-07 22:04:44 2282

原创 python自动发送邮件实现

使用python来实现自动发送邮件的功能,本质上也是模拟我们实操的这一过程。用python来实现邮件的定期发送,可以极大的节省人工成本。

2023-02-11 22:16:37 5782 1

原创 python正确读取文件路径的三种解决方法

日常用程序读取文件数据等时,常常会显示一些诸如文件路径不存在等错误信息。常用解决的三种方法。

2023-01-30 11:05:21 11462

原创 2022阅读数据分析报告

2022,不安的一年,阅读小记,回顾之余,思未来,从零出发,磨砺以须,保持阅读,坚持小事!

2023-01-03 22:11:33 816

原创 二、postgre数据库SQL优化:查看执行计划

sql优化是一项必备技能,为了优化sql任务,则需要明确需要优化的内容。除了经验之外,可以借助工具,查看sql执行过程中的耗时环节,从而针对性的进行优化,本文即为对执行计划的一些基本信息进行了总结学习。

2022-11-03 22:30:00 6548

原创 一、postgre数据库SQL优化:相关视图介绍

关于sql优化,面试或工作中,都是高频遇到的问题。本文对优化的思考的和相关优化参考用的视图信息进行了整理介绍。

2022-10-24 22:00:00 2666 1

原创 关于手动回车换行操作引起的问题处理方式

这次事件的起因是在数据库中配置一些shell脚本,方便部署在服务器上的脚本的运行。过程中,在数据库中配置的shell脚本存在一个换行操作,常见的操作自然是直接回车操作了,没想到,也正是因为这种操作,导致配置的shell脚本,无法在服务器上正常运行。总是报一些语法错误,但肉眼看脚本,怎么看也看不出毛病。,我则是选择了另一种方式,在notepad++中将 ‘\r’ ,'\n’均进行了字符串替换,进而在数据库中更新对应的配置信息。原来,这一切的起因都是因为linux不支持诸如’\r’等,它会当作一个字符处理。

2022-09-16 17:19:50 529

原创 【模型篇】01 记点脑子里还残存的关于模型分类的三种方式

从不同的角度出发,观察同一模型,会让我们对同一个模型,有更多的了解,更深刻的体会。

2022-09-02 16:33:06 845

原创 【商分篇】02 数据指标及指标体系,商业分析的起跑线

简述数据指标及指标体系的概要信息,为后续进一步学习商业分析做准备和铺垫。

2022-08-18 15:45:14 698 1

原创 【商分篇】01 我开始了解商业数据分析了

简述什么是商业分析,怎么定义和描述一个完整的数据指标。

2022-07-28 16:53:57 1267

原创 《变量:大国的腾挪》摘记

不管几岁,童心万岁。

2022-06-02 19:43:54 572 1

windows-pyspark环境安装包

博文《Windows环境本地配置pyspark环境详细教程》提到的所有软件安装包

2025-01-16

聚类性能度量.png

对常见的聚类性能的度量标准进行了梳理,总结了优缺点、对应的python实现方式,通过表格化的形式,方便展现不同度量标准之间的差异,。

2020-11-06

复工复产日报数据原始数据集 .zip

复工复产情况日报样例数据集,对应个人博客《复工复产日报数据整理处理脚本个人备份版(:https://blog.csdn.net/weixin_42521211/article/details/109271145 )的代码完整原始数据样例

2020-10-25

《python常见图形代码可视化大全整理(包括动图)更新中... 》提及的部分数据

个人博文:https://blog.csdn.net/weixin_42521211/article/details/105711518#comments_13282630 提及的一个数据表,供学习参考

2020-09-28

北京市投资与GDP数据

对应博客: https://blog.csdn.net/weixin_42521211/article/details/105769520?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~all~sobaiduend~default-3-105769520.nonecase&utm_term=%E5%9B%9E%E5%BD%92%E7%B3%BB%E6%95%B0%E7%9A%84%E6%98%BE%E8%91%97%E6%80%A7%E6%A3%80%E9%AA%8C%E6%AD%A5%E9%AA%A4 的数据

2020-09-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除