
漫话机器学习系列专辑
文章平均质量分 86
《漫话机器学习系列专辑》以通俗易懂的方式介绍机器学习的核心概念、算法和应用。通过简洁的语言和生动的例子,帮助读者从基础到进阶逐步掌握机器学习的知识,涵盖了监督学习、无监督学习、深度学习等领域。适合机器学习初学者和有一定基础的开发者,旨在为读者提供实用的理论指导与实践经验。
IT古董
坚持不懈,努力分享!!!
展开
-
【漫话机器学习系列】270.KNN算法(K-Nearest Neighbors)
KNN(k近邻)算法是一种基于距离度量的监督学习算法,广泛应用于分类与回归问题。其核心思想是通过计算待分类样本与训练集中各样本的距离,选取最近的K个邻居,根据多数投票原则确定分类结果。K值的选择对算法效果至关重要,通常取奇数以避免二分类中的平票情况,并通过交叉验证确定最优K值。特征处理方面,二进制特征常用海明距离,数值型特征则多用欧氏距离。KNN的优势在于直观易懂,适合小样本、低维数据,但面对大规模或高维数据时,计算成本高且易受维度灾难影响。常见应用包括图像识别、推荐系统等。为提高效率,可结合降维技术或使用原创 2025-05-20 12:21:59 · 456 阅读 · 0 评论 -
【漫话机器学习系列】269.K-Means聚类算法(K-Means Clustering)
K-Means聚类算法是一种基于距离的无监督机器学习方法,旨在将数据集划分为K个不重叠的簇,使得簇内数据点相似度高,簇间差异大。该算法实现简单、效率高,广泛应用于市场细分、图像压缩等领域。其核心步骤包括:随机初始化K个中心点、将样本分配到最近的中心点、更新中心点位置,并重复这些步骤直至收敛。K值的选择对聚类效果至关重要,常用方法有肘部法则和轮廓系数等。K-Means算法虽易于实现和解释,但需手动指定K值,且对初始中心敏感,仅适用于凸形聚类。掌握K-Means是学习更复杂聚类模型的基础。原创 2025-05-20 12:14:03 · 819 阅读 · 0 评论 -
【漫话机器学习系列】268. K 折交叉验证(K-Fold Cross-Validation)
K折交叉验证(K-Fold Cross-Validation)是一种评估机器学习模型性能的重采样方法,通过将训练数据划分为K个等份,轮流使用其中一份作为验证集,其余作为训练集,反复训练和验证模型,以评估其在未知数据上的泛化能力。这种方法减少了模型评估的方差,提高了评估的鲁棒性,并更充分地利用了数据。K值的选择常见为5或10,其中10折交叉验证在偏差与方差之间取得了较好的平衡。损失函数可以是均方误差、对数损失函数或精度,根据任务需要选择。原创 2025-05-19 07:52:10 · 847 阅读 · 0 评论 -
【漫话机器学习系列】267.JOINS
本文通过图解方式详细解析了SQL中的多表连接(JOIN)操作,适合SQL初学者、中级开发者和数据分析师快速理解。文章首先介绍了JOIN的基本概念,随后通过图示展示了五种常见的JOIN类型:LEFT JOIN(左连接)、RIGHT JOIN(右连接)、INNER JOIN(内连接)、FULL OUTER JOIN(全外连接)和OUTER MINUS INNER(外连接减去内连接)。每种JOIN类型都配有详细的语法说明和实际应用场景,帮助读者理解其本质区别。文章还提供了对比一览表,总结了各JOIN类型的特点,并原创 2025-05-19 07:40:51 · 743 阅读 · 0 评论 -
【漫话机器学习系列】266.雅可比矩阵(Jacobian Matrix)
雅可比矩阵是描述多变量向量函数一阶偏导数的矩阵,广泛应用于深度学习、优化算法、机器人控制等领域。它通过矩阵形式表示输入变量微小变化对输出变量的影响,起到局部线性近似的作用。在神经网络的反向传播、自动微分系统、非线性最小二乘优化及机器人动力学中,雅可比矩阵都是关键工具。其几何意义在于描述向量场的局部线性变换,如旋转和缩放。通过雅可比矩阵,可以更直观地理解多变量函数的变化关系,为复杂系统的分析和优化提供数学基础。原创 2025-05-18 09:30:22 · 741 阅读 · 0 评论 -
【漫话机器学习系列】265.普拉托变换的相关问题(Issues With Platt Scaling)
PlattScaling是一种广泛使用的概率校准方法,旨在将机器学习模型的输出分数映射为概率,以提高预测结果的可解释性和实用性。然而,这种方法并非没有缺陷。首先,PlattScaling通过训练额外的逻辑回归模型来实现校准,这通常需要进行交叉验证以避免过拟合,导致计算资源和时间的显著增加。其次,由于过分关注概率拟合,可能会导致预测概率与实际分类结果不一致,特别是在数据分布不平衡的情况下。为了解决这些问题,可以考虑使用更轻量的校准方法如IsotonicRegression,或对不平衡数据进行重采样。尽管Pla原创 2025-05-18 09:22:51 · 740 阅读 · 0 评论 -
【漫话机器学习系列】264.内距(又称四分位差)Interquartile Range
内距(Interquartile Range,IQR)是数据分析中用于识别异常值的重要工具。IQR定义为第三四分位数(Q3)与第一四分位数(Q1)之差,表示数据中间50%的范围。通过IQR,可以计算异常值的上下界,通常为Q1-1.5×IQR和Q3+1.5×IQR,超出此范围的数据点被视为异常值。IQR方法相比标准差法更稳健,尤其适用于非正态分布数据。在数据清洗、可视化和机器学习特征工程中,IQR被广泛应用。例如,在Python中,可以通过计算IQR和设定上下界来识别异常值。IQR与箱型图结合使用,能直观展示原创 2025-05-17 15:23:21 · 806 阅读 · 0 评论 -
【漫话机器学习系列】263.线性插值(Interpolation)
线性插值是一种在数据科学与机器学习中常用的技术,用于填补缺失数据。它通过在已知数据点之间画一条直线,根据直线的斜率来推测中间未知点的数值。这种方法简单直观,适用于多种场景,如数据清洗、图像处理、动画插帧、金融建模和传感器数据补全等。线性插值的优点在于其简单快速、易于实现,且不需要引入外部假设,但它也有局限性,如不能处理非线性变化趋势和对突变数据敏感。通过Python中的Pandas或NumPy库,可以轻松实现线性插值。尽管线性插值是数据插值的“入门款”,但其高效性和直观性使其在众多实际项目中得到广泛应用。原创 2025-05-17 15:14:22 · 913 阅读 · 0 评论 -
【漫话机器学习系列】262.交叉项(Interaction Term)
交叉项(InteractionTerm)在回归模型中用于捕捉特征变量之间的相互作用,当目标变量的变化依赖于多个特征的联合影响时,交叉项显得尤为重要。其数学形式通常表现为两个或多个特征变量的乘积,如回归模型中的 (x_1 \times x_2),用于衡量它们的协同效应。引入交叉项可以提升模型的解释能力和预测精度,尤其在广告点击率、房价预测和生物统计等场景中,忽略交叉项可能导致模型遗漏关键信息。在实际建模中,可以通过手动创建交叉项或使用工具如 PolynomialFeatures 自动生成。然而,交叉项的存在增原创 2025-05-16 12:12:49 · 926 阅读 · 0 评论 -
【漫话机器学习系列】261.工具变量(Instrumental Variables)
在数据建模与因果推断过程中,我们经常遇到一个棘手问题:内生性(Endogeneity)。它会导致模型估计产生偏差,进而误导决策。在这篇文章中,我们将结合一幅图解,用通俗语言讲清楚什么是工具变量(Instrumental Variables, IV),它能解决什么问题,以及我们应该如何理解它的使用逻辑。原创 2025-05-16 12:06:29 · 1083 阅读 · 0 评论 -
【漫话机器学习系列】260.在前向神经网络中初始权重(Initializing Weights In Feedforward Neural Networks)
在神经网络训练中,权重初始化是一个关键步骤,它影响模型的收敛速度和性能。文章通过图解和代码示例,详细介绍了权重初始化的三大原则:使用小的随机数打破对称性、通常从正态分布中抽取初始权重、偏差通常预置为0或小正数。此外,文章还提到了Xavier和He初始化等更精细的策略,这些策略根据激活函数的不同来优化初始权重的分布,以保持前向和反向传播中激活值与梯度的稳定性。通过PyTorch的代码示例,文章展示了如何在实践中应用这些初始化策略。最后,文章强调了正确初始化的重要性,并提供了相关阅读材料,帮助读者更深入地理解这原创 2025-05-15 12:24:29 · 1152 阅读 · 0 评论 -
【漫话机器学习系列】259.神经网络参数的初始化(Initialization Of Neural Network Parameters)
神经网络参数初始化是构建高效稳定模型的关键步骤。本文通过手绘风格图,详细解析了参数初始化的背景、方法及其数学依据。参数初始化不当可能导致梯度消失、爆炸或收敛缓慢等问题。常见的初始化方法包括从均匀分布或正态分布中随机提取初始权重,并控制初始化的规模。Xavier初始化是适用于sigmoid和tanh激活函数的经典方案,旨在保持激活值和梯度的方差稳定。此外,还介绍了He初始化和LeCun初始化等针对不同激活函数的优化方法。原创 2025-05-14 12:12:05 · 1612 阅读 · 0 评论 -
【漫话机器学习系列】258.拐点(Inflection Point)
拐点(Inflection Point)是数学分析中一个关键概念,指函数图像上曲率方向发生变化的点,即由凸变凹或由凹变凸的位置。通过二阶导数的符号变化可以识别拐点:当二阶导数f''(x)由正变负或由负变正时,对应的x值即为拐点。拐点在实际中有广泛应用,例如在机器学习中用于判断模型过拟合,在金融分析中用于预测趋势反转,在疫情研究中用于预测传播拐点等。掌握拐点的概念和识别方法,有助于更好地理解数据变化规律,并在多个领域中做出有效决策。原创 2025-05-14 11:58:52 · 954 阅读 · 0 评论 -
【漫话机器学习系列】257.填补缺失值(Imputing Missing Values)
在数据科学领域,处理缺失值是数据预处理的关键步骤,直接影响模型性能。本文介绍了几种常见的缺失值填补方法:对于定量变量(如年龄、收入),常用均值填补,以减少数据波动;对于定性变量(如性别、城市),则使用众数填补,以保持数据分布一致性。此外,对于缺失值较多或与其他特征相关性较强的情况,可以采用模型预测填补,如K近邻(KNN)算法。其他高级方法包括插值法、多重插补(MICE)、删除缺失行/列或添加缺失值指示变量。原创 2025-05-13 12:10:38 · 1376 阅读 · 0 评论 -
【漫话机器学习系列】256.用 k-NN 填补缺失值
在处理数据科学项目中的缺失值时,k-NN(k最近邻)填补是一种有效的方法。本文介绍了k-NN填补的原理、实现步骤及其应用场景。k-NN填补通过找到与缺失样本最相似的k个样本,利用它们的特征值来填补缺失项,通常能取得比简单均值填补更好的效果。实现时,可以使用scikit-learn中的KNNImputer类,并注意数据标准化和合理选择k值。k-NN填补适用于客户信息表、医疗数据、设备传感器数据等场景,但在大数据集上计算复杂度较高。总体而言,k-NN填补是一种智能且效果良好的缺失值处理方法,特别适用于中小规模数原创 2025-05-13 12:06:36 · 1077 阅读 · 0 评论 -
【漫话机器学习系列】255.独立同分布(Independent and Identically Distributed,简称 IID)
独立同分布(IID)是指数据之间彼此独立且来源于相同的概率分布。它是很多理论推导和模型设计的隐含前提。在实际应用中,要注意数据是否满足 IID 假设,并根据实际情况灵活处理。理解 IID,不仅能让我们更好地理解算法的适用条件,也能在遇到偏离 IID 的数据时,作出更合理的建模选择。原创 2025-05-12 12:17:13 · 922 阅读 · 0 评论 -
【漫话机器学习系列】254.假设空间(Hypothesis Space)
假设空间(Hypothesis Space)是机器学习中模型选择的核心概念,指在模型训练过程中预先设定的一组可能函数集合,用于最小化损失函数。假设空间的大小直接影响模型的能力、泛化能力和预测效果。假设空间越大,模型拟合能力越强,但可能导致过拟合;反之,假设空间过小则可能导致欠拟合。理解假设空间有助于在模型设计中权衡偏差与方差,选择合适的模型类型和参数,提升泛化能力。例如,线性核函数的支持向量机假设空间限于线性函数,而高斯核则允许更复杂的非线性边界。原创 2025-05-12 12:12:33 · 581 阅读 · 0 评论 -
【漫话机器学习系列】253.超平面(Hyperplane)
超平面(Hyperplane)是n维空间中的一个(n-1)维线性子空间,用于将空间划分为两部分。在二维空间中,超平面表现为一条直线;在三维空间中,它是一个平面;而在更高维空间中,虽然无法直观可视化,但其数学定义仍然适用。超平面在机器学习和数据科学中尤为重要,特别是在支持向量机(SVM)中,它用于在不同类别的数据点之间建立决策边界,以实现分类任务。此外,超平面在处理高维数据和深度学习中的特征空间分割方面也发挥着关键作用。通过理解超平面的几何和数学特性,可以更好地掌握其在各种科学和工程应用中的重要性。原创 2025-05-11 09:20:21 · 1096 阅读 · 0 评论 -
【漫话机器学习系列】252.零损失(0-1 Loss)
零一损失函数(0-1 Loss)是机器学习中用于衡量分类模型预测准确性的基本工具。其核心思想是:当模型预测正确时,损失为0;预测错误时,损失为1。这种二元特性使得零一损失函数在直观上易于理解,但在实际模型训练中,由于其不可导性和优化困难,通常不直接用于优化过程。相反,训练中常使用如交叉熵损失或铰链损失等可导的替代函数。然而,在模型评估阶段,零一损失函数通过计算准确率(Accuracy)来评估模型性能,成为衡量分类效果的重要指标。原创 2025-05-11 09:06:13 · 682 阅读 · 0 评论 -
【漫话机器学习系列】251.约登指数(Youden‘s Index)
约登指数(Youden's Index)是由W.J. Youden提出的一种二分类模型评估指标,用于衡量模型的整体分类性能。它通过结合真正率(Sensitivity)和特异度(Specificity)来评估模型识别正负样本的能力,计算公式为J = Sensitivity + Specificity - 1。约登指数的取值范围为[-1, 1],值越大表示模型性能越好,其中J=1表示完美分类,J=0表示模型性能与随机猜测无异,J<0则表示模型表现比随机猜测更差。原创 2025-05-10 10:04:45 · 1138 阅读 · 0 评论 -
【漫话机器学习系列】250.异或函数(XOR Function)
异或函数(XOR Function)是逻辑运算中的一种基础函数,定义为当两个输入不同时输出1,相同时输出0。这一简单的逻辑运算在多个领域中扮演着重要角色。在机器学习和深度学习中,异或函数因其非线性可分性质,推动了多层感知机的发展。在加密和编码领域,异或运算因其可逆性被广泛应用于数据加密和校验。在逻辑电路设计中,异或门是构建加法器等关键模块的基础。Python中可以通过简单的算术或按位操作实现异或函数。理解异或函数不仅对计算机科学和人工智能的学习至关重要,也是掌握现代技术发展的基石。原创 2025-05-10 10:04:30 · 842 阅读 · 0 评论 -
【漫话机器学习系列】249.Word2Vec自然语言训练模型
Word2Vec是Google团队于2013年提出的一种自然语言处理技术,旨在将词语映射到低维向量空间,以捕捉词语间的语义和语法关系。与传统的one-hot编码相比,Word2Vec通过连续向量表示词语,解决了稀疏性和高维度问题,并能有效体现词语间的相似性。Word2Vec有两种主要训练方法:CBOW(通过上下文预测中心词)和Skip-gram(通过中心词预测上下文),分别适用于不同规模的数据集。训练后的词向量具备语义相似性、语法相似性和向量运算特性,广泛应用于文本分类、情感分析、推荐系统等任务。原创 2025-05-09 12:23:46 · 846 阅读 · 0 评论 -
【漫话机器学习系列】248.什么是代价(损失)函数(Why It Called A Cost Function)
代价函数(Cost Function)或损失函数(Loss Function)在机器学习和深度学习中扮演着核心角色,用于衡量模型预测值与真实值之间的差异。代价函数的目标是通过最小化这个差异来优化模型参数,从而提高预测准确性。损失函数通常针对单个样本的误差,而代价函数则是对整个训练集的损失进行平均或累计。常见的代价函数包括均方误差(MSE)和交叉熵损失(Cross Entropy Loss),分别适用于回归和分类任务。代价函数的重要性在于它指导模型参数的更新方向,衡量模型的性能,并直接影响最终模型的效果。原创 2025-05-09 09:30:41 · 881 阅读 · 0 评论 -
【漫话机器学习系列】247.当 N=整个母体(WHEN N=POPULATION)
这听起来似乎是个合理的质疑。毕竟,如果数据已经完整,直观上我们似乎可以直接进行确定性的分析,何需再依赖概率与推断?但实际上,答案并不如此简单。本文将详细解释这个问题的本质,并帮助大家深入理解。原创 2025-05-08 12:18:16 · 836 阅读 · 0 评论 -
【漫话机器学习系列】246.何时有缺失值的样本才可删除?(When Can We Delete Observations With Missing Values )
判断缺失机制:是随机的,还是有模式的?评估缺失对整体数据的影响:是否会引入偏差?谨慎处理:不要一刀切地删除所有缺失样本,应根据具体情况决定删除、填充或建模。“如果缺失是随机的或者可以在其他特征中体现,那么可以删除;否则,缺失本身是信息的一部分,删除可能带来偏差。原创 2025-05-08 12:15:12 · 538 阅读 · 0 评论 -
【漫话机器学习系列】245.权重衰减(Weight Decay)
权重衰减,又叫作L2正则化,本质上是在原始损失函数(Loss)中,添加一项关于模型参数(权重)大小的惩罚项。简单来说,除了最小化预测误差之外,还希望模型的参数(即权重)本身不要太大。这样做的目的,是避免模型过度依赖某些特征,提升模型的稳定性和泛化能力。项目内容定义在损失函数中增加权重平方惩罚项目的防止过拟合,提高泛化能力数学表达式常见应用深度学习模型训练、岭回归权重衰减是一个简单但非常有效的正则化方法,尤其适合用来改善深度学习模型的训练效果。原创 2025-05-07 10:23:39 · 1157 阅读 · 0 评论 -
【漫话机器学习系列】244.弱学习器(Weak Learners)
弱学习器,英文为,指的是性能略优于随机猜测的学习模型。也就是说,它的预测准确率只需要比随机分类器稍好一点就可以了,不要求很高。例如,对于一个二分类问题,随机猜测的准确率是 50%。只要一个模型能达到50%以上的准确率(比如 51%、55%),它就可以被称为弱学习器。在集成学习中,尤其是在Boosting算法(如 AdaBoost、Gradient Boosting、XGBoost)中,弱学习器通过反复迭代、加权组合,可以被提升成一个强大的整体模型(Strong Learner)。关键点内容。原创 2025-05-07 10:22:58 · 1658 阅读 · 0 评论 -
【漫话机器学习系列】243.数值下溢(Underflow)
在计算机中,数值都是以有限位数进行存储和计算的。当某个数字太小,小到计算机无法用浮点格式精确表示时,就会出现数值下溢(Underflow)。通常,计算机处理下溢的方法是直接将这些无法表示的小数值四舍五入到0。虽然看起来合理,但这种处理方式会引发严重的问题,因为0与极小数在数学特性上存在巨大差异。如图所示:数值太小 → 无法表示 → 被置为0极小的非零数 ≠ 0,它仍然可以影响后续计算!数值下溢(Underflow)是计算机科学中重要而微妙的问题,特别是在现代机器学习、科学计算等领域。原创 2025-05-06 10:08:55 · 721 阅读 · 0 评论 -
【漫话机器学习系列】242.欠拟合(Underfitting)
在机器学习中,当模型无法充分捕捉训练数据中的潜在模式时,就会发生欠拟合(Underfitting)现象。简单来说,欠拟合的模型在训练集上的表现就已经很差,自然无法在测试集上有好的效果。如上图所示,一条红色的直线勉强穿过了稀疏的样本点,但显然未能合理拟合数据的实际分布。这就是典型的欠拟合模型。关键词高偏差(High Bias)低复杂度学习不足欠拟合(Underfitting)是深度学习和机器学习训练中常见的挑战之一。原创 2025-05-06 09:50:36 · 731 阅读 · 0 评论 -
【漫话机器学习系列】241.典型丢弃概率(Typical Dropout Probabilities)
Dropout是深度学习中防止过拟合的经典手段之一。不同层次的神经元应采用不同的Dropout概率设置:输入层建议Dropout率为20%。隐藏层建议Dropout率为50%。实际应用时,应结合模型规模、数据量和具体任务灵活调整。希望本文能帮助你在构建神经网络时,合理使用Dropout,提高模型的鲁棒性和泛化能力!原创 2025-05-05 09:34:57 · 859 阅读 · 0 评论 -
【漫话机器学习系列】240.真正类率(True Positive Rate,TPR)
在机器学习与深度学习模型评估中,"真正类率"(True Positive Rate,简称TPR)是一个非常重要的指标。TPR反映了分类器对正样本识别能力的强弱,也常常被称为召回率(Recall)或灵敏度(Sensitivity)。原创 2025-05-05 09:28:00 · 908 阅读 · 0 评论 -
【漫话机器学习系列】239.训练错误率(Training Error Rate)
在机器学习模型训练过程中,评估模型性能是至关重要的一个环节。其中,训练错误率(Training Error Rate) 是最基础也最重要的性能指标之一。原创 2025-05-04 09:38:24 · 977 阅读 · 0 评论 -
【漫话机器学习系列】238.训练误差与测试误差(Training Error And Test Error)
在机器学习的学习和实践过程中,我们经常会遇到两个重要的概念:训练误差(Training Error)和测试误差(Test Error)。理解这两个误差的区别和联系,是掌握模型性能评估、调优的基础。本文将从定义、意义、差异和常见误区等方面,系统地讲解训练误差与测试误差。原创 2025-05-04 09:19:12 · 641 阅读 · 0 评论 -
【漫话机器学习系列】237. TSS总平方和
在机器学习与统计建模领域,评价模型好坏的重要指标之一就是方差与误差分析。其中,TSS(Total Sum of Squares,总平方和)扮演着非常关键的角色。今天我们就来深入剖析 TSS,从公式理解到实际应用,一步步搞懂它!原创 2025-05-03 08:38:15 · 1063 阅读 · 0 评论 -
【漫话机器学习系列】236.邻域链接(Tomek Link)
在处理机器学习中的分类问题时,我们经常会遇到数据不平衡或噪声数据过多的问题。尤其是在过采样(如SMOTE)或欠采样之前,如何对数据进行合理清洗,是影响模型性能的关键因素之一。原创 2025-05-03 08:28:42 · 1270 阅读 · 0 评论 -
【漫话机器学习系列】235.切分文本(Tokenize Text)
单词(word)子词(subword)字符(character)句子(sentence)段落(paragraph)“我”, “喜欢”, “小鸟”这就是一种基于“词”的切分方式。原创 2025-05-01 09:19:20 · 1710 阅读 · 0 评论 -
【漫话机器学习系列】234.阈值类特征的方差分析(Thresholding Categorical Feature Variance)
类别特征的方差越大,说明其携带的信息越丰富。这与我们在统计学中的认知是一致的:方差越大,代表数据分布越分散、不集中,信息熵更高;相反,如果某个变量几乎都集中在一个取值上,它几乎对模型没有什么帮助。原创 2025-05-01 08:55:14 · 795 阅读 · 0 评论 -
【漫话机器学习系列】233.激活阈(Threshold Activation)
在深度学习(Deep Learning)中,激活函数(Activation Function)决定了神经网络每个神经元的输出形式。没有激活函数,神经网络就只是一堆线性叠加,无法拟合复杂的非线性关系。而在众多激活函数中,阈值激活函数(Threshold Activation Function)是最早被提出的一种,它简单粗暴,却也奠定了后续复杂模型的基础。今天,让我们从这幅生动的手绘图出发,深度理解阈值激活的本质。虽然阈值激活函数简单、粗糙,但它是神经网络发展的起点。原创 2025-04-30 11:47:26 · 921 阅读 · 0 评论 -
【漫话机器学习系列】232.所以/因为的表示符号(Therefore And Because Notation)
在数学推理、逻辑推导、证明过程中,我们经常会遇到各种符号。其中,“所以”(∴)与“因为”(∵)这两个符号虽然简单,却在逻辑表达中起着重要作用。尤其是在手写证明、课堂笔记、学术交流中,它们被广泛使用,能够极大地提高表达的简洁性和清晰度。今天,我们就结合一张简洁可爱的图,详细讲讲它们的由来、写法和应用场景。虽然 ∴ 和 ∵ 是非常小巧的符号,但背后蕴含着数学推理的基本精神 ——因果分明,推理严谨。它们以最简洁的方式,体现了逻辑思维的力量。原创 2025-04-30 11:47:13 · 722 阅读 · 0 评论 -
【漫话机器学习系列】231.随机森林中的随机性(The Random In Random Forest)
在机器学习中,随机森林作为一种强大且灵活的集成学习方法,常被应用于分类、回归、特征选择等任务。随机森林的优秀表现,很大程度上源自于其中引入的随机性。那么,这种“随机”到底体现在哪里?又是如何提升模型性能的呢?对数据的随机性(Bagging,有放回抽样)对特征的随机性(每次分裂时随机选择特征)正是这双重随机策略,让随机森林在众多机器学习任务中表现出色,成为工业界和学术界广泛应用的重要算法。原创 2025-04-29 09:42:21 · 931 阅读 · 0 评论