自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 python学习day32

官方文档:https://pdpbox.readthedocs.io/en/latest/GitHub 仓库:https://github.com/SauceCat/PDPbox。PyPI 页面:https://pypi.org/project/PDPbox/2.官方文档的阅读和使用:要求安装的包和文档为同一个版本。1.官方文档的检索方式:github和官网(对应的库)4.绘图的理解:对底层库的调用。b.普通方法所需要的参数。a.实例化所需要的参数。c.普通方法的返回值。

2025-05-29 23:56:01 66

原创 python学习day31

models/ 目录:专门存放训练好的模型文件,根据模型保存格式不同,可能是 .pkl(Python pickle 格式,常用于保存 sklearn 模型 )、.h5(常用于保存 Keras 模型 )、.joblib 等。output/logs/:保存项目运行日志文件,记录项目从开始到结束过程中的关键信息,如训练开始时间、训练过程中的损失值变化、预测时间等。4. 为你的数据和模型产出物创建专门的顶层目录,如 data/ 和 models/,将它们与你的源代码(通常放在 src/ 目录)分开。

2025-05-28 23:57:38 469

原创 python学习day30

如果直接使用python model/main.py,会报错, 当使用 python -m model.main 时,Python 会将当前目录(即项目根目录)添加到 sys.path 的开头。2. 进入路径:cd xxx(main的相对路径),然后执行python main.py (注意如果先cd后,就不能采用第一个命令了)3.导入库/模块的核心逻辑:找到根目录(python解释器的目录和终端的目录不一致)这里的终端可以通过左上角的查看-终端 打卡,默认的路径是你的项目根目录。1.导入官方库的三种手段。

2025-05-27 23:58:02 257

原创 python学习day29

2. 在类定义外部定义方法,然后把方法赋值给类的属性---这是一种动态方法,常在装饰器中使用,可以再外部修改类的方法。1. 在类定义内部直接写方法,这是静态方法,一般定义类都这么完成。2.装饰器思想的进一步理解:外部修改、动态。3.类方法的定义:内部定义和外部定义。

2025-05-26 23:56:08 218

原创 python学习day28

5.类的继承:属性的继承、方法的继承。2.pass占位语句。

2025-05-25 23:58:46 270

原创 python学习day27

编写一个装饰器 logger,在函数执行前后打印日志信息(如函数名、参数、返回值)有参数类型:统计给定范围的质数。1.装饰器的思想:进一步复用。有返回值类型:统计质数个数。3.注意内部函数的返回值。无返回值类型:打印素数。2.函数的装饰器写法。

2025-05-24 15:53:51 118

原创 python学习day26

●任务: 编写一个名为 describe_shape 的函数,该函数接收图形的名称 shape_name (必需),一个可选的 color (默认 “black”),以及任意数量的描述该图形尺寸的关键字参数 (例如 radius=5 对于圆,length=10, width=4 对于矩形)。●任务: 编写一个名为 print_user_info 的函数,该函数接收一个必需的参数 user_id,以及任意数量的额外用户信息(作为关键字参数)。3.函数的参数类型:位置参数、默认参数、不定参数。

2025-05-23 23:52:46 830

原创 python学习day25

4.try-except-else-finally机制。2.debug过程中的各类报错。3.try-except机制。

2025-05-22 23:45:47 180

原创 python学习day24

os.walk(top, topdown=True, onerror=None, followlinks=False) 会为一个目录树生成文件名。pipeline基于元组,利用不可变性。元组操作&&迭代器使用。

2025-05-22 16:44:32 152

原创 python学习day23

构建完整pipeline,用刚刚组装好的预处理器实例化pipeline。构建Columntransformer预处理器,把前面的组装起来。ColumnTransformer和Pipeline类。pipeline预处理步骤,相较于之前封装了一下。使用pipeline进行训练和评估。转化器和估计器的概念。

2025-05-21 23:50:24 132

原创 python学习day22

复习前21天的内容,并完成kaggle项目的提交。

2025-05-20 23:50:19 195

原创 python学习day21

主成分分析 (PCA:寻找最大方差方向) PCA可以被看作是将SVD应用于经过均值中心化的数据矩阵,并对其结果进行特定解释的一种方法。主成分分析 (PCA) 的核心思想是识别数据中方差最大的方向(即主成分)。这样做的目的是在降低数据维度的同时,尽可能多地保留原始数据中的“信息”(通过方差来衡量)。新的特征(主成分)是原始特征的线性组合,并且它们之间是正交的(不相关)。t-分布随机邻域嵌入 (t-SNE) t-SNE:保持高维数据的局部邻域结构,用于可视化。2. 对中心化后的数据进行SVD。

2025-05-18 23:59:03 551

原创 python学习day20

d.推荐系统:在协同过滤算法中,用户-物品评分矩阵通常是稀疏且高维的。SVD (或其变种如 FunkSVD, SVD++) 可以用来分解这个矩阵,发现潜在因子 (latent factors),从而预测未评分的项。应用:结构化数据中,将原来的m个特征降维成k个新的特征,新特征是原始特征的线性组合,捕捉了数据的主要方差信息,降维后的数据可以直接用于机器学习模型(如分类、回归),通常能提高计算效率并减少过拟合风险。b.数据重构:比如重构信号、重构图像(可以实现有损压缩,k 越小压缩率越高,但图像质量损失越大)

2025-05-17 23:58:47 347

原创 python学习day19

数据处理与前几天完全一样,同时先使用随机森林分类器测试一下方便对比。2.皮尔逊相关系数筛选。6.递归特征消除REF。

2025-05-17 09:15:17 138

原创 python学习day18

分布绘制对应的特征分布图,并结合ai分析对应的特征给出行为模式。为了方便操作选择k=3,下面用shap分析特征的重要性。1.推断簇含义的2个思路:先选特征和后选特征。3.科研逻辑闭环:通过精度判断特征工程价值。2.通过可视化图形借助ai定义簇的含义。聚类后的分析:推断簇的类型。数据处理+KMeans聚类。展示总体特征分分布图。筛出聚类后的三个结果。

2025-05-16 23:55:38 336

原创 python学习day17

指标评估:轮廓系数(取值[-1,1],越接近1越好,接近-1不好,接近0无区分)CH指数([0,+00]越高越好)DB指数([0,+00]越小越好)DBSCAN 的参数是 eps 和min_samples,选完他们出现k和评估指标。除了经典的评估指标,还需要关注聚类出来每个簇对应的样本个数,避免太少没有意义。聚类常见算法:kmeans聚类、dbscan聚类、层次聚类。KMeans 和层次聚类的参数是K值,选完k指标就确定。原则t-sne或者pca进行2D或3D可视化。选择合适的算法,根据评估指标调参( )

2025-05-14 23:15:34 271

原创 python学习day16

numpy数组的创建:简单创建、随机创建、遍历、运算。numpy数组的索引:一维、二维、三维。数组的常见操作和形状。SHAP值的深入理解。

2025-05-10 23:19:27 292

原创 python学习day15

尝试找到一个kaggle或者其他地方的结构化数据集,用之前的内容完成一个全新的项目,这样你也是独立完成了一个专属于自己的项目。同一个问题,特征加工上,是否对数据进一步加工得出了新的结论-----你的加工被证明是有意义的。研究问题的选择上,同一个数据你找到了有意思的点,比如更换了因变量,做出了和别人不同的研究问题。数据的质量上,是否有好的研究主题但是你这个数据很难获取,所以你这个研究有价值。1.有数据地址的提供数据地址,没有地址的上传网盘贴出地址即可。特征太多,热力图较复杂,后面使用聚类方法改进。

2025-05-09 23:40:22 211

原创 python学习day14

2.尝试确定一下shap各个绘图函数对于每一个参数的尺寸要求,如shap.force_plot力图中的数据需要满足什么形状?3.确定分类问题和回归问题的数据如何才能满足尺寸,分类采取信贷数据集,回归采取单车数据集。1.参考上述文档补全剩余的几个图。

2025-05-07 23:59:31 147

原创 python学习day13

不平衡数据集处理策略:过采样(随机过采样,smote过采样),修改权重,修改阈值。1.不平衡数据集的处理策略:过采样、修改权重、修改阈值。

2025-05-04 23:58:55 233

原创 python学习day12

其理论可保证全局收敛,尤其适合中小规模组合优化问题(如集成电路布线、TSP),但效率受降温策略影响显著,初始温度、降温速率等参数需精细调节,大规模问题中计算耗时较长。策略是以适应度为评价指标(可以是一些结果方面的指标),通过选择,交叉和变异三种操作,生成子代,作为新的种群去替换旧的种群(保留适应度高的个体),循环往复,知到适应度收敛或者达到预设的迭代次数。策略是模拟鸟群或鱼群的社会协作行为,粒子通过跟踪个体历史最优(pbest)和群体历史(gbest)最优更新速度和位置,逐步收敛到最优解。

2025-05-03 23:23:45 390

原创 python学习day11

贝叶斯优化(2种实现逻辑,以及如何避开必须用交叉验证的问题)随机搜索(简单介绍,非重点 实战中很少用到,可以不了解)time库的计时模块,方便后人查看代码运行时间。使用time测试运行时间。

2025-05-02 22:27:23 231

原创 python学习day10

各个模型的训练,三行代码,1实例化,2训练,3预测 生成混淆矩阵和分类报告,并用accuracy,precision,recall,f1等指标进行评估。处理object变量,标签编码(适合有顺序关系的)或者独热编码(适合无序的,会增加维度)缺失值处理,众数,中位数,平均数等补充。2读取数据查看数据信息--理解数据。导包整合,实际上用到什么导入什么。2.机器学习模型建模的三行代码。3.机器学习模型分类问题的评估。

2025-04-30 23:37:37 361

原创 python学习day9

enumerate使用,可以同時返回索引和元素。2.介绍了enumerate()函数。1.介绍了热力图的绘制方法。3.介绍了子图的绘制方法。

2025-04-29 10:13:55 120

原创 python学习day8

●连续特征的处理:归一化和标准化。

2025-04-27 23:58:45 211

原创 python学习day7

【代码】python学习day7。

2025-04-26 23:59:56 135

原创 python学习day6

单特征可视化:连续变量箱线图(还说了核密度直方图)、离散特征直方图。箱线图美化--->直方图。特征和标签关系可视化。

2025-04-25 23:08:28 149

原创 python学习day5

现在在py文件中 一次性处理data数据中所有的连续变量和离散变量。3. 对独热编码后的变量转化为int类型。先按照示例代码过一遍,然后完成下列题目。2. 对离散变量进行one-hot编码。4. 对所有缺失值进行填充。1. 读取data数据。

2025-04-24 23:53:55 127

原创 python学习day4

median()中位数,mode()众数,数据需要循环操作需要转换成列表类型。按照示例代码的要求,去尝试补全信贷数据集中的数值型缺失值。打开数据(csv文件、excel文件)查看数据(尺寸信息、查看列名等方法)初识pandas库与缺失数据的补全。利用循环补全所有列的空值。众数、中位数填补空值。

2025-04-23 22:28:32 325

原创 python学习day3

创建一个包含三个字符串元素的列表 tech_list,元素分别为 “Python”, “Java”, “Go”。1. 定义一个包含整数的列表 scores,赋值为 [85, 92, 78, 65, 95, 88]。修改 tech_list 中的第二个元素(索引为 1),将其从 “Java” 更改为 “Ruby”。计算当前 tech_list 的长度,并将结果存储在变量 current_length 中。- 28-35度:打印"黄色预警:天气炎热"- 20-27度:打印"绿色提示:适宜温度"

2025-04-22 21:15:49 359

原创 python学习day2

比较 score_a 是否大于 score_b,将比较结果(布尔值)存储在变量 is_a_higher 中;比较 score_a 是否小于等于 score_b,将结果存储在变量 is_a_lower_or_equal 中;比较 score_a 是否不等于 score_b,将结果存储在变量 is_different 中。然后,使用 f-string 分三行打印出类似以下格式的信息: 75 是否大于 90: False 75 是否小于等于 90: True 75 是否不等于 90: True。

2025-04-21 16:53:09 242

原创 python学习day1

计算这两个变量的和,并将结果存储在一个新的变量 a 中;计算这两个变量的余数,叫做c。然后,使用 f-string 打印出类似 “20 加 8 的结果是:28” 的信息,分成三行打印。创建两个变量:name 存储你的名字(字符串,例如 "小明"),city 存储你所在的城市(字符串,例如 "北京")。如果想在输出的姓名两边加上引号,例如 姓名: "小明", 城市: 北京,f-string 语句应该怎么写?3.f-string的使用,保存固定位数的浮点数,以2位为例{变量:.2f}定义两个浮点数变量,

2025-04-20 17:46:01 196

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除