- 博客(288)
- 资源 (4)
- 收藏
- 关注
原创 shell:filebrowser工具使用方法
File Browser是一个开源的文件共享软件,它可以帮助用户轻松地管理他们的文件资源,并通过Web界面进行共享。
2025-05-14 08:00:00
127
原创 shell 关闭与服务器的连接后,保持程序可以后台运行的处理方式
在使用xshell等工具连接服务器时,意外断开连接可能导致运行的程序中断。为了解决这一问题,可以使用nohup命令使程序在后台继续运行,即使终端关闭也不会中断。
2025-05-14 07:30:00
843
原创 T检验、F检验及样本容量计算学习总结
听到最多的检验,非T检验莫属。另一种常常听到的检验大概就是F检验了。关于它们应用在什么场景,应用方式虽然偶尔也在使用,但好像总是稀里糊涂的,没有系统梳理。另外,对于做一些实验,到底需要多少样本量才能满足实验需求,也是停留在一知半解的状态。还是要定期进行对所学所用要有总结,更好的知不足而补足。
2025-04-27 23:16:09
238
原创 PySpark中DataFrame应用升阶及UDF使用
PySpark 有两种 UDF:传统UDF(非向量化UDF) 和 Pandas UDF(向量化UDF)传统UDF(非向量化UDF):通过Python函数逐行处理数据,使用注册优点:适合简单逻辑(如字符串处理、数值转换)在所有Spark版本(≥1.3)中均可使用逐行调试方便,便于通过print或日志逐行调试逻辑。缺点:性能差,高延迟,尤其在大数据集上可能成为瓶颈。需手动处理Spark数据类型与Python类型的映射,易因类型不匹配出错。
2025-04-27 20:00:00
896
原创 pyspark 数据处理的三种方式RDD、DataFrame、Spark SQL案例
上一篇对pyspark的一些常用函数做了梳理,这篇主要是针对RDD、DataFrame、SparkSql三种实现同一功能需要的方式做一梳理,通过实际动手,体会不同方式在数据处理过程中的差异性、便利性。
2025-03-10 19:15:00
1474
原创 pyspark RDD相关常用函数使用案例
虽然让大模型生成了现成的代码,但自己看不动其处理方式终归不是走捷径之道。一个字母一个字母的敲击、运行、输出、报错、调试,现在虽然各种AI大模型层出不穷的展现着其强大的智能水平,紧跟时代的同时,也需要脚踏实地,对一些基础信息进行了解和掌握.
2025-03-10 19:00:00
971
原创 机器学习中过拟合和欠拟合问题处理方法总结
实际操作中,可能受制于业务场景、数据质量等多方面限制,具体采用何种方式防止过拟合、欠拟合问题,可以根据模型评估的结果来进一步分析。
2025-02-10 11:47:44
1107
原创 如何使用满血版的deepseek(避免卡顿的使用方法)
最近deepseek十分火爆,但使用过程中,你是不是和我一样常常碰到如下图所示的问题,并且响应还十分缓慢。基于上述描述的问题,为了体验满血版的deepseek,因此将使用满血版的deepseek的方法总结如下。解决deepseek卡顿的问题,只需要三步。记得填写邀请码:g3ic2DNa)
2025-02-10 07:30:00
6125
原创 机器学习模型常用模型评价指标总结
对于机器学习模型,评价模型的好坏是十分重要的一环,不同的任务对应的评估指标也有所差异,以更好的评价和比较模型的优劣。诸如分类(classification)、回归(regression)、排序(ranking)、聚类(clustering)、主题模型(topic modeling)等。本文则对不同场景的评估指标进行总结梳理
2025-02-07 07:30:00
1273
原创 书籍《新能源汽车动力电池安全管理算法设计》和《动力电池管理系统核心算法》脑图笔记
随着一步步的学习,发现数据所提及的算法,对于基于国标32960的车辆数据来说,整体实用性不是很好,所以,部分章节的笔记也就开始了忽略了潦草。当然,作为对动力电池相关基础知识的了解读物的话,两本书还是不妨拜读一下,对于不感兴趣或者不适用的章节部分,可以根据当下所需选择性略读或跳过。如今身处新能源动力电池行业,欲对动力电池相关算法做一些了解,通过查找相关电子书app,最后找到了这两本书:《新能源汽车动力电池安全管理算法设计》、《动力电池管理系统核心算法》,sui开始阅读,并对书中相关知识点进行了梳理。
2025-02-06 18:12:03
556
原创 Windows环境本地配置pyspark环境详细教程
如何在windows环境本地配置pyspark环境,本文将过程进行了详细梳理和记录。
2025-01-17 08:00:00
3660
10
原创 pyspark连接clickhouse数据库的方式(其它数据库同样适用)
如何用pyspark连接clickhouse,本文通过测试,给出了示例案例。本文的连接方式,同样可以衍生适用于mysql、oracle等数据库。
2025-01-17 07:45:00
781
原创 01《Python数据分析》数据分析初探章节总结
数据分析就是:用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论,对数据加以详细研究和概括总结的过程。
2024-12-13 15:32:55
1094
原创 使用 pyecharts 渲染成图片程序报错: echarts is not defined问题处理
之前写的使用来保存pyeacharts渲染成的网页截图,可以正常运行。,来来回回试了一些方式,包括卸载重装相关模块或者替换模块,均没解决问题。由于之前好使的snapshot_selenium 方式开始报错,另两个模块也不能用了。
2024-07-04 19:00:00
751
原创 python:大文件分批/块导入数据库方式记录
对于数据文件比较大的数据,一次性串联sql进行入库,往往会受到数据库本身对sql长度的限制,从而需要分块或者分批次,将大数据文件一点一点的进行入库。特针对这种入库方式,进行一个简单记录,各类数据库入库后续均可参考下述实现分块的方式,进行分批入库数据。问题点其实主要是如何对数据进行分块。,从而实现分批入库。
2024-05-23 17:32:38
765
原创 clickhouse常用函数总结
formatDateTime(def_datetime, '%y') AS def_datetime_year_litter, -- 19(指定日期为19年,Year, last two digits (00-99),本世纪的第19年)formatDateTime(def_datetime, '%M') AS def_datetime_get_minute,-- 20(得到指定事件的“分”,minute (00-59))-- 30(得到指定事件的“秒”,second (00-59))
2024-04-03 18:06:46
2425
原创 pyecharts画图结果存为图片
通过pyecharts绘制的图像,我们尝尝保存在html文件中,以保持其原有的良好的交互性。但当我们在word或者ppt中使用时,保存为图片的形式,则是我们最想要的方式。针对此问题,通过查找相关实现方式,总结其渲染的html文件保存图片方式。在 Python 中,模块pyecharts模块中存在make_snapshot函数,其作用是生成静态图像快照,能够将 pyecharts 生成的图表保存为图片文件。
2023-11-21 20:09:48
3134
原创 【案例卡】clickhouse:多行数据拼接在一行
groupArray 是 ClickHouse 提供的一种聚合函数,用于在 GROUP BY查询中将行组的某个列的值组合成一个数组。groupArray 函数在分析数据时非常有用,它可以将行组中的数据合并成数组形式,方便后续的处理和分析。
2023-11-07 16:43:13
5483
原创 01 Excel常用高频快捷键汇总
Excel软件是我们工作学习必备的工具之一,作为如此高频使用的一个工具,如果能够掌握其中一些常用的快捷方式,将对轻易提升我们的工作效率,事半功倍,快捷工具的熟练使用,使我们达成所愿的捷径之一,也是相对来说,学习投入最少却最易获益的一种方式。基于此,本文对常用的一些高频快捷键进行了汇总和介绍,以期帮助到有需要的人。
2023-07-26 15:26:51
1892
原创 python自动发送邮件实现
使用python来实现自动发送邮件的功能,本质上也是模拟我们实操的这一过程。用python来实现邮件的定期发送,可以极大的节省人工成本。
2023-02-11 22:16:37
5782
1
原创 二、postgre数据库SQL优化:查看执行计划
sql优化是一项必备技能,为了优化sql任务,则需要明确需要优化的内容。除了经验之外,可以借助工具,查看sql执行过程中的耗时环节,从而针对性的进行优化,本文即为对执行计划的一些基本信息进行了总结学习。
2022-11-03 22:30:00
6548
原创 一、postgre数据库SQL优化:相关视图介绍
关于sql优化,面试或工作中,都是高频遇到的问题。本文对优化的思考的和相关优化参考用的视图信息进行了整理介绍。
2022-10-24 22:00:00
2666
1
原创 关于手动回车换行操作引起的问题处理方式
这次事件的起因是在数据库中配置一些shell脚本,方便部署在服务器上的脚本的运行。过程中,在数据库中配置的shell脚本存在一个换行操作,常见的操作自然是直接回车操作了,没想到,也正是因为这种操作,导致配置的shell脚本,无法在服务器上正常运行。总是报一些语法错误,但肉眼看脚本,怎么看也看不出毛病。,我则是选择了另一种方式,在notepad++中将 ‘\r’ ,'\n’均进行了字符串替换,进而在数据库中更新对应的配置信息。原来,这一切的起因都是因为linux不支持诸如’\r’等,它会当作一个字符处理。
2022-09-16 17:19:50
529
复工复产日报数据原始数据集 .zip
2020-10-25
《python常见图形代码可视化大全整理(包括动图)更新中... 》提及的部分数据
2020-09-28
北京市投资与GDP数据
2020-09-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人