机器学习做二元分类问题（二）_二元分类模型的两类错误-CSDN博客

本文链接：https://blog.csdn.net/ML_algorithmResearch/article/details/50371253

本文详细介绍了二元分类问题，特别是感知器（Perceptron）算法（PLA）。PLA是一种寻找线性二元分类器的算法，用于从样本中学习。文章通过实例解释了如何判断和修正假设函数的错误，证明了在样本线性可分时PLA能够收敛，并探讨了面对非线性可分样本时的变形策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、二元分类问题

接着上一节我们举得例子，我们说机器学习的流程是什么呢？首先我们要有一个学习的演算法，我们叫做Ａ，这个演算法会看资料，然后会看我们的假设函数集合，从集合中选择一个假设函数做为我们的银行学到技能。这其实就是一个使用机器学习做是非题的问题。

　那么假设函数集合是什么样子呢？

我们把每一个使用者当做一个向量X（年龄，工作年限，年薪），每一维都当做一个特征，我们把然后我们根据这个向量计算出来一个分数，每一个维度根据其对结果的影响，其权重值就是正值，反之，就给负的权重。然后我们假设一个门限值，当我们计算的分数超过了门限值，我们就给他发信用卡，如果我们计算的分数没有超过门限值，然后我们就不发给他信用卡，其计算的方式如图所示：

那么以上的过程就可以划分为一个公式。

这个公式很简单，首先你要明白假设函数就是张这个样子，你给定一个输入X，它就会给你一个输出h(X)，这个输出只有两种情况，-1 或则 +1，为什么呢？以为sign函数就是一个这样的函数，如果sign(X) 中的X为正，则sign(X)等于+1，如果X为负，则结果为-1，为什么要用sign函数呢？其实很好理解，以为我们后面是把计算的分数和门限值进行相减，然后对相减的结果进行取sign，其意思就是你给定的X所计算得到的分数超过门限值，那么h(X)就取+1,否则就取-1，二者分别代表着要不要发送给客户信用卡。其中的W表示的每一个维度的权重。

下面我们把公式进行简化，我们把threshold和前面的求和公式进行结合，因为前面的求和公式是从第一维开始，我们把threshold做为第0维。

则h(X) 可以表示如下：

此时，我们可以假设函数看成这样的，如果我们的向量只有二维的,，那么我们的W_0其实就是刚才所说的门限值，X_0就可以看做是+1，其余的就是真正的特征输入。仔细观察这个二维的假设函数，分析其几何意义，首先因为它是二维的，所以我们把其特征的两个维度分别作为一个二维平面的图，那么一个的输入点就是平面图中的一个点，那么再看h(X),当sign()内容的那个方程值为正的时候就是+1，内部的方程如果是负的就是