自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 决策树分类ID3

new_entropy += prob * calc_shannon_ent(sub_data_set) # 计算熵。sub_data_set = split_data_set(data_set, i, value) # 划分数据集。best_feat = choose_best_feature_to_split(data_set) # 选择最好的特征。best_feat_label = sub_labels[best_feat] # 获取最好的特征的特征标签。

2025-05-23 08:40:16 428

原创 决策树分类

prob = len(sub_data_set) / float(len(data_set)) # 计算子数据集的概率。new_entropy += prob * calc_shannon_ent(sub_data_set) # 计算熵。sub_data_set = split_data_set(data_set, i, value) # 划分数据集。base_entropy = calc_shannon_ent(data_set) # 计算数据集的基本熵。

2025-05-16 08:38:32 316

原创 pyspark环境搭建

Spark 是一个通用的、快速的集群计算系统,用于大规模数据处理。而 PySpark 是 Spark 的 Python API.Spark:本身是用 Scala 语言开发的,Scala 运行在 Java 虚拟机(JVM)上,与 Java 有很好的互操作性。因此 Spark 天然支持 Scala 和 Java 这两种编程语言,开发者可以使用 Scala 或 Java 调用 Spark 的各种功能,编写 Spark 应用程序。PySpark:让开发者能够使用 Python 语言来编写 Spark 应用程序。

2025-04-25 10:23:32 1108

原创 关联规则挖掘-FPtree算法

update_tree(ordered_items, ret_tree, header_table, count) # 更新树。print(' ' * ind, self.name, ' ', self.count) # 将树以文本形式展示出来。if len(freq_item_set) == 0: # 如果没有元素满足最小支持度,返回空树和空头指针表。self.children = {} # 存储子节点的字典,键是节点名称,值是TreeNode对象。# 输入:项集、当前节点、头指针表、频次。

2025-04-25 09:35:37 923

原创 HBase集群部署

下面以三台服务器(hadoop1,hadoop2,hadoop3)为例,讲解HBase的部署.HBase集群的具体规划如下:hadoop1和hadoop2是主节点,hadoop2和hadoop3是从节点.

2025-04-24 17:43:42 1313

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除