一、二元分类问题
接着上一节我们举得例子,我们说机器学习的流程是什么呢?首先我们要有一个学习的演算法,我们叫做A,这个演算法会看资料,然后会看我们的假设函数集合,从集合中选择一个假设函数做为我们的银行学到技能。这其实就是一个使用机器学习做是非题的问题。
那么假设函数集合是什么样子呢?
我们把每一个使用者当做一个向量X(年龄,工作年限,年薪),每一维都当做一个特征,我们把然后我们根据这个向量计算出来一个分数,每一个维度根据其对结果的影响,其权重值就是正值,反之,就给负的权重。然后我们假设一个门限值,当我们计算的分数超过了门限值,我们就给他发信用卡,如果我们计算的分数没有超过门限值,然后我们就不发给他信用卡,其计算的方式如图所示:
那么以上的过程就可以划分为一个公式。
这个公式很简单,首先你要明白假设函数就是张这个样子,你给定一个输入X,它就会给你一个输出h(X),这个输出只有两种情况,-1 或则 +1,为什么呢?以为sign函数就是一个这样的函数,如果sign(X) 中的X为正,则sign(X)等于+1,如果X为负,则结果为-1,为什么要用sign函数呢?其实很好理解,以为我们后面是把计算的分数和门限值进行相减,然后对相减的结果进行取sign,其意思就是你给定的X所计算得到的分数超过门限值,那么h(X)就取+1,否则就取-1,二者分别代表着要不要发送给客户信用卡。其中的W表示的每一个维度的权重。
下面我们把公式进行简化,我们把threshold和前面的求和公式进行结合,因为前面的求和公式是从第一维开始,我们把threshold做为第0维。
则h(X) 可以表示如下:
此时,我们可以假设函数看成这样的,如果我们的向量只有二维的,,那么我们的W_0其实就是刚才所说的门限值,X_0就可以看做是+1,其余的就是真正的特征输入。仔细观察这个二维的假设函数,分析其几何意义,首先因为它是二维的,所以我们把其特征的两个维度分别作为一个二维平面的图,那么一个的输入点就是平面图中的一个点,那么再看h(X),当sign()内容的那个方程值为正的时候就是+1,内部的方程如果是负的就是