今日无事`-CSDN博客

原创决策树分类ID3

new_entropy += prob * calc_shannon_ent(sub_data_set) # 计算熵。sub_data_set = split_data_set(data_set, i, value) # 划分数据集。best_feat = choose_best_feature_to_split(data_set) # 选择最好的特征。best_feat_label = sub_labels[best_feat] # 获取最好的特征的特征标签。

2025-05-23 08:40:16 428

原创决策树分类

prob = len(sub_data_set) / float(len(data_set)) # 计算子数据集的概率。new_entropy += prob * calc_shannon_ent(sub_data_set) # 计算熵。sub_data_set = split_data_set(data_set, i, value) # 划分数据集。base_entropy = calc_shannon_ent(data_set) # 计算数据集的基本熵。

2025-05-16 08:38:32 316

原创 pyspark环境搭建

Spark 是一个通用的、快速的集群计算系统，用于大规模数据处理。而 PySpark 是 Spark 的 Python API.Spark：本身是用 Scala 语言开发的，Scala 运行在 Java 虚拟机（JVM）上，与 Java 有很好的互操作性。因此 Spark 天然支持 Scala 和 Java 这两种编程语言，开发者可以使用 Scala 或 Java 调用 Spark 的各种功能，编写 Spark 应用程序。PySpark：让开发者能够使用 Python 语言来编写 Spark 应用程序。

2025-04-25 10:23:32 1108

原创关联规则挖掘-FPtree算法

update_tree(ordered_items, ret_tree, header_table, count) # 更新树。print(' ' * ind, self.name, ' ', self.count) # 将树以文本形式展示出来。if len(freq_item_set) == 0: # 如果没有元素满足最小支持度，返回空树和空头指针表。self.children = {} # 存储子节点的字典，键是节点名称，值是TreeNode对象。# 输入：项集、当前节点、头指针表、频次。

2025-04-25 09:35:37 923