一叶知秋秋-CSDN博客

原创 python学习day32

官方文档：https://pdpbox.readthedocs.io/en/latest/GitHub 仓库：https://github.com/SauceCat/PDPbox。PyPI 页面：https://pypi.org/project/PDPbox/2.官方文档的阅读和使用：要求安装的包和文档为同一个版本。1.官方文档的检索方式：github和官网（对应的库）4.绘图的理解：对底层库的调用。b.普通方法所需要的参数。a.实例化所需要的参数。c.普通方法的返回值。

2025-05-29 23:56:01 66

原创 python学习day31

models/ 目录：专门存放训练好的模型文件，根据模型保存格式不同，可能是 .pkl（Python pickle 格式，常用于保存 sklearn 模型）、.h5（常用于保存 Keras 模型）、.joblib 等。output/logs/：保存项目运行日志文件，记录项目从开始到结束过程中的关键信息，如训练开始时间、训练过程中的损失值变化、预测时间等。4. 为你的数据和模型产出物创建专门的顶层目录，如 data/ 和 models/，将它们与你的源代码（通常放在 src/ 目录）分开。

2025-05-28 23:57:38 469

原创 python学习day30

如果直接使用python model/main.py，会报错，当使用 python -m model.main 时，Python 会将当前目录（即项目根目录）添加到 sys.path 的开头。2. 进入路径：cd xxx（main的相对路径），然后执行python main.py （注意如果先cd后，就不能采用第一个命令了）3.导入库/模块的核心逻辑：找到根目录（python解释器的目录和终端的目录不一致）这里的终端可以通过左上角的查看-终端打卡，默认的路径是你的项目根目录。1.导入官方库的三种手段。

2025-05-27 23:58:02 257

原创 python学习day29

2. 在类定义外部定义方法，然后把方法赋值给类的属性---这是一种动态方法，常在装饰器中使用，可以再外部修改类的方法。1. 在类定义内部直接写方法，这是静态方法，一般定义类都这么完成。2.装饰器思想的进一步理解：外部修改、动态。3.类方法的定义：内部定义和外部定义。

2025-05-26 23:56:08 218

原创 python学习day28

5.类的继承：属性的继承、方法的继承。2.pass占位语句。

2025-05-25 23:58:46 270

原创 python学习day27

编写一个装饰器 logger，在函数执行前后打印日志信息（如函数名、参数、返回值）有参数类型：统计给定范围的质数。1.装饰器的思想：进一步复用。有返回值类型：统计质数个数。3.注意内部函数的返回值。无返回值类型：打印素数。2.函数的装饰器写法。

2025-05-24 15:53:51 118

原创 python学习day26

●任务：编写一个名为 describe_shape 的函数，该函数接收图形的名称 shape_name (必需)，一个可选的 color (默认 “black”)，以及任意数量的描述该图形尺寸的关键字参数 (例如 radius=5 对于圆，length=10, width=4 对于矩形)。●任务：编写一个名为 print_user_info 的函数，该函数接收一个必需的参数 user_id，以及任意数量的额外用户信息（作为关键字参数）。3.函数的参数类型：位置参数、默认参数、不定参数。

2025-05-23 23:52:46 830

原创 python学习day25

4.try-except-else-finally机制。2.debug过程中的各类报错。3.try-except机制。

2025-05-22 23:45:47 180

原创 python学习day24

os.walk(top, topdown=True, onerror=None, followlinks=False) 会为一个目录树生成文件名。pipeline基于元组，利用不可变性。元组操作&&迭代器使用。

2025-05-22 16:44:32 152

原创 python学习day23

构建完整pipeline，用刚刚组装好的预处理器实例化pipeline。构建Columntransformer预处理器，把前面的组装起来。ColumnTransformer和Pipeline类。pipeline预处理步骤，相较于之前封装了一下。使用pipeline进行训练和评估。转化器和估计器的概念。

2025-05-21 23:50:24 132

原创 python学习day22

复习前21天的内容，并完成kaggle项目的提交。

2025-05-20 23:50:19 195

原创 python学习day21

主成分分析 (PCA:寻找最大方差方向) PCA可以被看作是将SVD应用于经过均值中心化的数据矩阵，并对其结果进行特定解释的一种方法。主成分分析 (PCA) 的核心思想是识别数据中方差最大的方向（即主成分）。这样做的目的是在降低数据维度的同时，尽可能多地保留原始数据中的“信息”（通过方差来衡量）。新的特征（主成分）是原始特征的线性组合，并且它们之间是正交的（不相关）。t-分布随机邻域嵌入 (t-SNE) t-SNE：保持高维数据的局部邻域结构，用于可视化。2. 对中心化后的数据进行SVD。

2025-05-18 23:59:03 551

原创 python学习day20

d.推荐系统：在协同过滤算法中，用户-物品评分矩阵通常是稀疏且高维的。SVD (或其变种如 FunkSVD, SVD++) 可以用来分解这个矩阵，发现潜在因子 (latent factors)，从而预测未评分的项。应用：结构化数据中，将原来的m个特征降维成k个新的特征，新特征是原始特征的线性组合，捕捉了数据的主要方差信息，降维后的数据可以直接用于机器学习模型（如分类、回归），通常能提高计算效率并减少过拟合风险。b.数据重构：比如重构信号、重构图像（可以实现有损压缩，k 越小压缩率越高，但图像质量损失越大）

2025-05-17 23:58:47 347

原创 python学习day19

数据处理与前几天完全一样，同时先使用随机森林分类器测试一下方便对比。2.皮尔逊相关系数筛选。6.递归特征消除REF。

2025-05-17 09:15:17 138

原创 python学习day18

分布绘制对应的特征分布图，并结合ai分析对应的特征给出行为模式。为了方便操作选择k=3，下面用shap分析特征的重要性。1.推断簇含义的2个思路：先选特征和后选特征。3.科研逻辑闭环:通过精度判断特征工程价值。2.通过可视化图形借助ai定义簇的含义。聚类后的分析：推断簇的类型。数据处理+KMeans聚类。展示总体特征分分布图。筛出聚类后的三个结果。

2025-05-16 23:55:38 336

原创 python学习day17

指标评估：轮廓系数（取值[-1,1]，越接近1越好，接近-1不好，接近0无区分）CH指数（[0,+00]越高越好）DB指数（[0,+00]越小越好）DBSCAN 的参数是 eps 和min_samples，选完他们出现k和评估指标。除了经典的评估指标，还需要关注聚类出来每个簇对应的样本个数，避免太少没有意义。聚类常见算法：kmeans聚类、dbscan聚类、层次聚类。KMeans 和层次聚类的参数是K值，选完k指标就确定。原则t-sne或者pca进行2D或3D可视化。选择合适的算法，根据评估指标调参（）

2025-05-14 23:15:34 271

原创 python学习day16

numpy数组的创建：简单创建、随机创建、遍历、运算。numpy数组的索引：一维、二维、三维。数组的常见操作和形状。SHAP值的深入理解。

2025-05-10 23:19:27 292

原创 python学习day15

尝试找到一个kaggle或者其他地方的结构化数据集，用之前的内容完成一个全新的项目，这样你也是独立完成了一个专属于自己的项目。同一个问题，特征加工上，是否对数据进一步加工得出了新的结论-----你的加工被证明是有意义的。研究问题的选择上，同一个数据你找到了有意思的点，比如更换了因变量，做出了和别人不同的研究问题。数据的质量上，是否有好的研究主题但是你这个数据很难获取，所以你这个研究有价值。1.有数据地址的提供数据地址，没有地址的上传网盘贴出地址即可。特征太多，热力图较复杂，后面使用聚类方法改进。

2025-05-09 23:40:22 211

原创 python学习day14

2.尝试确定一下shap各个绘图函数对于每一个参数的尺寸要求，如shap.force_plot力图中的数据需要满足什么形状？3.确定分类问题和回归问题的数据如何才能满足尺寸，分类采取信贷数据集，回归采取单车数据集。1.参考上述文档补全剩余的几个图。

2025-05-07 23:59:31 147

原创 python学习day13

不平衡数据集处理策略：过采样（随机过采样，smote过采样），修改权重，修改阈值。1.不平衡数据集的处理策略：过采样、修改权重、修改阈值。

2025-05-04 23:58:55 233

原创 python学习day12

其理论可保证全局收敛，尤其适合中小规模组合优化问题（如集成电路布线、TSP），但效率受降温策略影响显著，初始温度、降温速率等参数需精细调节，大规模问题中计算耗时较长。策略是以适应度为评价指标（可以是一些结果方面的指标），通过选择，交叉和变异三种操作，生成子代，作为新的种群去替换旧的种群（保留适应度高的个体），循环往复，知到适应度收敛或者达到预设的迭代次数。策略是模拟鸟群或鱼群的社会协作行为，粒子通过跟踪个体历史最优（pbest）和群体历史(gbest)最优更新速度和位置，逐步收敛到最优解。

2025-05-03 23:23:45 390

原创 python学习day11

贝叶斯优化（2种实现逻辑，以及如何避开必须用交叉验证的问题）随机搜索（简单介绍，非重点实战中很少用到，可以不了解）time库的计时模块，方便后人查看代码运行时间。使用time测试运行时间。

2025-05-02 22:27:23 231

原创 python学习day10

各个模型的训练，三行代码，1实例化，2训练，3预测生成混淆矩阵和分类报告，并用accuracy,precision,recall,f1等指标进行评估。处理object变量，标签编码（适合有顺序关系的）或者独热编码（适合无序的，会增加维度）缺失值处理，众数，中位数，平均数等补充。2读取数据查看数据信息--理解数据。导包整合，实际上用到什么导入什么。2.机器学习模型建模的三行代码。3.机器学习模型分类问题的评估。

2025-04-30 23:37:37 361

原创 python学习day9

enumerate使用，可以同時返回索引和元素。2.介绍了enumerate（）函数。1.介绍了热力图的绘制方法。3.介绍了子图的绘制方法。

2025-04-29 10:13:55 120

原创 python学习day8

●连续特征的处理：归一化和标准化。

2025-04-27 23:58:45 211

原创 python学习day7

【代码】python学习day7。

2025-04-26 23:59:56 135

原创 python学习day6

单特征可视化：连续变量箱线图（还说了核密度直方图）、离散特征直方图。箱线图美化--->直方图。特征和标签关系可视化。

2025-04-25 23:08:28 149

原创 python学习day5

现在在py文件中一次性处理data数据中所有的连续变量和离散变量。3. 对独热编码后的变量转化为int类型。先按照示例代码过一遍，然后完成下列题目。2. 对离散变量进行one-hot编码。4. 对所有缺失值进行填充。1. 读取data数据。

2025-04-24 23:53:55 127

原创 python学习day4

median()中位数，mode()众数，数据需要循环操作需要转换成列表类型。按照示例代码的要求，去尝试补全信贷数据集中的数值型缺失值。打开数据（csv文件、excel文件）查看数据（尺寸信息、查看列名等方法）初识pandas库与缺失数据的补全。利用循环补全所有列的空值。众数、中位数填补空值。

2025-04-23 22:28:32 325

原创 python学习day3

创建一个包含三个字符串元素的列表 tech_list，元素分别为 “Python”, “Java”, “Go”。1. 定义一个包含整数的列表 scores，赋值为 [85, 92, 78, 65, 95, 88]。修改 tech_list 中的第二个元素（索引为 1），将其从 “Java” 更改为 “Ruby”。计算当前 tech_list 的长度，并将结果存储在变量 current_length 中。- 28-35度：打印"黄色预警：天气炎热"- 20-27度：打印"绿色提示：适宜温度"

2025-04-22 21:15:49 359

原创 python学习day2

比较 score_a 是否大于 score_b，将比较结果（布尔值）存储在变量 is_a_higher 中；比较 score_a 是否小于等于 score_b，将结果存储在变量 is_a_lower_or_equal 中；比较 score_a 是否不等于 score_b，将结果存储在变量 is_different 中。然后，使用 f-string 分三行打印出类似以下格式的信息： 75 是否大于 90: False 75 是否小于等于 90: True 75 是否不等于 90: True。

2025-04-21 16:53:09 242

原创 python学习day1

计算这两个变量的和，并将结果存储在一个新的变量 a 中；计算这两个变量的余数，叫做c。然后，使用 f-string 打印出类似 “20 加 8 的结果是：28” 的信息，分成三行打印。创建两个变量：name 存储你的名字（字符串，例如 "小明"），city 存储你所在的城市（字符串，例如 "北京"）。如果想在输出的姓名两边加上引号，例如姓名: "小明", 城市: 北京，f-string 语句应该怎么写？3.f-string的使用，保存固定位数的浮点数，以2位为例{变量：.2f}定义两个浮点数变量，

2025-04-20 17:46:01 196

weixin_51728929的博客