- 博客(6)
- 收藏
- 关注
原创 Python关于字迹提取
这里的第二步,虽然前面使用了高斯模糊,减少了噪点,可是效果并不能说完美,我们还需要再处理,当这些噪点被红色轮廓描述出来时,它变成“点”,我们需要清理它,在这里我们使用的是cv2.approxPolyDP()。再用高斯模糊,去除噪点,使更平滑。设置阈值,使像素点高的呈现白色,低的呈现黑色。对于字迹提取,硬笔与毛笔最初的处理一样,但最后呈现在用户面前需要做细小差异的处理。在上面部分,高斯模糊是很重要的一部分,他可以平滑图像,它的本质是使用。2.近似轮廓,减少点的数量,使轮廓边缘更加平滑。,让像素值更加平滑。
2025-03-15 16:20:55
369
原创 决策树和随机森林
其中, 𝐿𝛼(𝑇) 表示最终损失(希望决策树的最终损失越小越好),𝐺𝑖𝑛𝑖(𝑇) 表示当前结点的熵或基尼系数, |𝑇| 表示当前结点包含的数据样本个数, 𝑇𝑙𝑒𝑎𝑓 表示当前结点被划分后产生的叶子结点个数(显然,叶子节点越多损失越大),𝛼 是由用户指定的偏好系数( 𝛼 越大代表我们对 “划分出更多的子结点” 的惩罚越大,即越不偏好于决策树的过分划分,因此有助于控制模型过拟合;如上图,这是一个简单的决策树,我们可以清晰的看到它的特征顺序是天气,温度,风速。为了简化模型,同时不丢
2024-12-16 00:33:28
857
原创 SVM算法
但是,基于实际情况来说,线性可分的数据集是非常有限的,这里我们引入软间隔的概念。而较小的 γ 则会导致较简单的模型,因为单个样本的影响范围较大,可能会导致欠拟合,即模型过于简单而无法捕捉到数据中的细微模式。我们用直线在坐标轴上划分,以此划分区域,将数据点分类,我们可以在图上看出,满足它的有三条直线来划分数据。它是一个偏执项,调整核函数的灵敏度,它通常设置为非负值。在软间隔里,引入了松弛变量,它允许一些点被错误的分类,但是相应的会得到一些惩罚,这里的松弛变量表示为ξi,它需要满足的条件也变成了。
2024-12-02 13:47:19
762
原创 机器学习—聚类算法
它是一种无监督学习方法,用于对未标记的数据进行分类。聚类的目标是将数据集中的对象分成多个组(簇),使得同一个簇内的对象彼此相似,而不同簇的对象彼此相异。
2024-11-02 16:43:52
875
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人