- 博客(23)
- 资源 (1)
- 收藏
- 关注
原创 python打卡DAY23
ordinal_categories=[['< 1 year', '1 year', '2 years', '3 years', '4 years', '5 years', '6 years', '7 years', '8 years', '9 years', '10+ years']] # Years in current job 的顺序 (对应1-11)# kmeans_label=kmeans.fit_predict(x_scaled)#提供了每个数据点所属的簇的信息,用于区分不同簇的数据点。
2025-05-18 19:45:22
600
原创 python打卡DAY22
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score # 用于评估分类器性能的指标。# # print(f'k={k}\n 惯性:{kmeans.inertia_:.2f}\n轮廓系数:{silhouette:.3f}\n CH系数:{ch:.2f}\n DB{db:.3f}')# print(f'聚类分析耗时:{end_time-start_time:.4f}')
2025-05-17 23:48:08
870
原创 python打卡DAY21
print('shap_values[0,:,:]shape',shap_values[0,:,:].shape)##这里也可以省略后面的写作shap_values[0】,代表第一个样本所有特征对所有类别的贡献,后面部位可以省略但是前面不能。# print(f'k={k}\n 惯性:{kmeans.inertia_:.2f}\n轮廓系数:{silhouette:.3f}\n CH系数:{ch:.2f}\n DB{db:.3f}')
2025-05-17 00:48:52
452
原创 python打卡DAY20
##注入所需库import pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltimport randomimport numpy as npimport timeimport shapfrom sklearn.svm import SVC #支持向量机分类器# from sklearn.neighbors import KNeighborsClassifier #K近邻分类器# from sklearn.linear_model
2025-05-16 00:24:36
891
原创 python打卡DAY19
print('shap_values[0,:,:]shape:',shap_values[0,:,:].shape)##这里也可以省略后面的写作shap_values[0】,代表第一个样本所有特征对所有类别的贡献,后面部位可以省略但是前面不能。# print(f'k={k}\n 惯性:{kmeans.inertia_:.2f}\n轮廓系数:{silhouette:.3f}\n CH系数:{ch:.2f}\n DB{db:.3f}')
2025-05-14 21:29:55
878
原创 python打卡DAY18
print('shap_values[0,:,:] shape:',shap_values[0,:,:].shape)##这里也可以省略后面的写作shap_values[0】,代表第一个样本所有特征对所有类别的贡献,后面部位可以省略但是前面不能。# print(f'k={k}\n 惯性:{kmeans.inertia_:.2f}\n轮廓系数:{silhouette:.3f}\n CH系数:{ch:.2f}\n DB{db:.3f}')
2025-05-14 00:25:23
676
原创 python打卡DAY17
print('shap_values[0,:,:] shape:',shap_values[0,:,:].shape)##这里也可以省略后面的写作shap_values[0】,代表第一个样本所有特征对所有类别的贡献,后面部位可以省略但是前面不能。# print(f'k={k}\n 惯性:{kmeans.inertia_:.2f}\n轮廓系数:{silhouette:.3f}\n CH系数:{ch:.2f}\n DB{db:.3f}')
2025-05-12 23:58:34
786
原创 python打卡DAY16
print('shap_values[0,:,:] shape:',shap_values[0,:,:].shape)####这里也可以省略后面的写作shap_values[0】,后面部位可以省略但是前面不能。#print(f'k={k}\n 惯性:{kmeans.inertia_:.2f}\n 轮廓系数:{silhouette:.3f}\n CH指数:{ch:.2f}\n DB指数{db:.3f}')# print(f'训练与预测耗时:{end_time - start_time:.4f}')
2025-05-12 00:53:22
654
原创 python打卡DAY5
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score # 用于评估分类器性能的指标。# print(f'训练与预测耗时:{end_time - start_time:.4f}')# print(f'训练与预测耗时:{end_time-start_time:.4f}')# print(f'网格搜索耗时:{end_time-start_time:.4f}秒')
2025-05-11 00:10:39
290
原创 python打卡DAY14
n_estimators, max_depth, min_samples_split, min_samples_leaf = params # 序列解包,允许你将一个可迭代对象(如列表、元组、字符串等)中的元素依次赋值给多个变量。from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score # 用于评估分类器性能的指标。
2025-05-10 02:10:10
643
原创 python打卡DAY13
n_estimators, max_depth, min_samples_split, min_samples_leaf = params # 序列解包,允许你将一个可迭代对象(如列表、元组、字符串等)中的元素依次赋值给多个变量。from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score # 用于评估分类器性能的指标。
2025-05-09 00:21:50
458
原创 python打卡DAY12
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score # 用于评估分类器性能的指标。print(f'平均{clean_metric_name}:{np.mean(scores):.4f}(+/-{np.std(scores):.4f})')# print(f"随机过采样后训练与预测耗时: {end_time_ros - start_time_ros:.4f} 秒")
2025-05-08 00:38:01
716
原创 python打卡DAY11
n_estimators, max_depth, min_samples_split, min_samples_leaf = params # 序列解包,允许你将一个可迭代对象(如列表、元组、字符串等)中的元素依次赋值给多个变量。from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score # 用于评估分类器性能的指标。
2025-05-07 00:45:36
669
原创 python打卡DAY10
print(f"遗传算法优化耗时: {end_time - start_time:.4f} 秒")# print(f'训练与预测耗时:{end_time - start_time:.4f}')# print(f'训练与预测耗时:{end_time - start_time:.4f}')# print("\n--- 2. 网格搜索优化随机森林 (训练集 -> 测试集) ---")# print("\n--- 2. 遗传算法优化随机森林 (训练集 -> 测试集) ---")
2025-05-05 20:52:06
713
原创 python打卡DAY9
print("\n--- 2. 网格搜索优化随机森林 (训练集 -> 测试集) ---")# print("--- 1. 默认参数随机森林 (训练集 -> 测试集) ---")# print("--- 1. 默认参数随机森林 (训练集 -> 测试集) ---")# print("--- 1. 默认参数随机森林 (训练集 -> 测试集) ---")# print("--- 1. 默认参数随机森林 (训练集 -> 测试集) ---")
2025-05-05 00:55:24
610
原创 python打卡DAY8
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score # 用于评估分类器性能的指标。print(f'准确率:{svm_accuracy:.4f}\n精确率:{svm_precision}\n召回率:{svm_recall:.4f}\nF1值:{svm_f1:.4f}')# plt.legend(labels=['否','是'])# plt.xticks([0,1],['否','是'])
2025-05-03 22:00:27
434
原创 python打卡DAY7
print(f'索引{i}对应的特征是:{feature}')# plt.legend(labels=['否','是'])# plt.legend(labels=['否','是'])# plt.legend(labels=['否','是'])# plt.xticks([0,1],['否','是'])# plt.title('年收入箱线图')# plt.title('相关热力图')# plt.xlabel('年收入')#查看基本信息与缺失值。# #绘制热力图&子图。
2025-05-02 21:38:14
514
原创 python打卡DAY6
解释:这里 x='Number of Open Account' 表示 data 这个 DataFrame 中的一列。data=data 明确告诉 seaborn 去这个 DataFrame 中找列。seaborn 内部会根据 x 和 hue 的列名在 data 中自动查找和处理。plt.title('在当前工作年限直方图')plt.xlabel('在当前工作年限')plt.title('年收入箱线图')plt.ylabel('员工数量')plt.xlabel('年收入')
2025-05-02 00:42:07
366
原创 python打卡DAY5
它的核心思想是将数据分成若干个区间(称为“桶”或“bin”),然后统计每个区间内的数据点数量。plt.title('Annual Income 的箱线图')plt.title('在当前工作年限直方图')plt.title('在当前工作年限直方图')plt.xlabel('在当前工作年限')plt.xlabel('在当前工作年限')plt.title('年收入箱线图')plt.ylabel('员工数量')plt.ylabel('员工数量')plt.xlabel('年收入')复习:数据编码与缺失值填补。
2025-04-30 23:18:55
728
原创 python打卡DAY4
可以看到之前的Home Ownership已经被替换成了'Home Ownership_Have Mortgage','Home Ownership_Home Mortgage', 'Home Ownership_Own Home','Home Ownership_Rent'data[i] = data[i].astype(int) # 这里的i就是独热编码后的特征名。list_final.append(i) # 这里打印出来的就是独热编码后的特征名。到此为止,已经掌握了对离散变量做独热编码的所有方法。
2025-04-29 23:52:33
330
原创 python打卡DAY3
print(f'优秀分数个数为:{excellent_count}\n优秀分数总分为:{excellent_total_score}\n优秀分数平均分为:{average_excellent_score}\n总体分数总和为:{total_score}\n总体平均分数为:{average_score}')print(f'75是否大于90:{is_a_higher}\n75是否小于等于90:{is_a_lower_or_equal}\n75是否不等于90:{is_different}')
2025-04-28 21:48:14
429
原创 python打卡DAY2
代码 print(f'a\nb\nc\n') 没有输出变量 a 、 b 、 c 的数值,而是输出了字母 a 、 b 、 c ,这是因为在 f-string 中,需要将变量名放在花括号 {} 内,Python 才会将其解析为变量并输出对应的值。计算这两个变量的和,并将结果存储在一个新的变量 a 中;- `tech_list[0,1,2,3]` 中,`0,1,2,3` 会被解释为一个元组 `(0, 1, 2, 3)`,Python 列表不支持使用元组作为索引,因此会抛出 `TypeError` 异常。
2025-04-27 23:11:55
850
原创 python打卡day1
在当前代码里, "num1" 、 "+" 、 "num2" 、 "的结果是:" 和 "a" 都是普通的字符串字面量,Python 会将它们拼接成 "num1+num2的结果是:a" 并直接输出,并不会把 num1 、 num2 和 a 当作变量来解析。当前代码中 "num1"+"num2" 会拼接成 "num1num2" ,但后续的 "的结果是:" 和 "a" 并没有正确地拼接在一起,而且整个表达缺少完整的引号包裹。然后,使用 print() 函数将每个变量的值单独打印出来,每个值占一行。
2025-04-26 19:50:49
498
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人