- 博客(5)
- 收藏
- 关注
原创 决策树分类ID3
new_entropy += prob * calc_shannon_ent(sub_data_set) # 计算熵。sub_data_set = split_data_set(data_set, i, value) # 划分数据集。best_feat = choose_best_feature_to_split(data_set) # 选择最好的特征。best_feat_label = sub_labels[best_feat] # 获取最好的特征的特征标签。
2025-05-23 08:40:16
428
原创 决策树分类
prob = len(sub_data_set) / float(len(data_set)) # 计算子数据集的概率。new_entropy += prob * calc_shannon_ent(sub_data_set) # 计算熵。sub_data_set = split_data_set(data_set, i, value) # 划分数据集。base_entropy = calc_shannon_ent(data_set) # 计算数据集的基本熵。
2025-05-16 08:38:32
316
原创 pyspark环境搭建
Spark 是一个通用的、快速的集群计算系统,用于大规模数据处理。而 PySpark 是 Spark 的 Python API.Spark:本身是用 Scala 语言开发的,Scala 运行在 Java 虚拟机(JVM)上,与 Java 有很好的互操作性。因此 Spark 天然支持 Scala 和 Java 这两种编程语言,开发者可以使用 Scala 或 Java 调用 Spark 的各种功能,编写 Spark 应用程序。PySpark:让开发者能够使用 Python 语言来编写 Spark 应用程序。
2025-04-25 10:23:32
1108
原创 关联规则挖掘-FPtree算法
update_tree(ordered_items, ret_tree, header_table, count) # 更新树。print(' ' * ind, self.name, ' ', self.count) # 将树以文本形式展示出来。if len(freq_item_set) == 0: # 如果没有元素满足最小支持度,返回空树和空头指针表。self.children = {} # 存储子节点的字典,键是节点名称,值是TreeNode对象。# 输入:项集、当前节点、头指针表、频次。
2025-04-25 09:35:37
923
原创 HBase集群部署
下面以三台服务器(hadoop1,hadoop2,hadoop3)为例,讲解HBase的部署.HBase集群的具体规划如下:hadoop1和hadoop2是主节点,hadoop2和hadoop3是从节点.
2025-04-24 17:43:42
1313
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人