台大李宏毅Machine Learning 2017Fall学习笔记 (6)Logistic Regression

最新推荐文章于 2025-04-19 16:40:32 发布

Allenlzcoder

最新推荐文章于 2025-04-19 16:40:32 发布

阅读量1.3k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：台大李宏毅Machine Learning 2017Fall 文章标签： machine learning deep learning 机器学习深度学习李宏毅

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Allenlzcoder/article/details/78994291

台大李宏毅Machine Learning 2017Fall 专栏收录该内容

15 篇文章

订阅专栏

本文详细介绍了台大李宏毅教授2017年秋季课程中Logistic Regression的学习笔记，包括函数集的选择、评估函数的好坏及最佳函数的寻找三个步骤，并对Logistic Regression与Linear Regression进行了对比分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

台大李宏毅Machine Learning 2017Fall学习笔记 (6)Logistic Regression

做Logistic Regression回归，需要3步。
Step 1: Function Set
在此问题中选择 $sigmod(z)$ 函数，具体见下图。
这里写图片描述

这里对Logistic Regression和Linear Regression的输出值做个对比，主要是输出值的范围不同。

Step 2: Goodness of a Function
如果训练数据集的格式如下所示：

假设训练集数据是由 $f_{w,b}(x)=P_{w,b}(C_1|x)$ 函数产生。给定 $w$ 和 $b$ ，由该函数产生这组数的概率为

L (w, b) = f w, b (x 1) f w, b (x 2) (1 - f w, b (x 3)) \cdot \cdot \cdot f w, b (x N)

$L(w,b)=f_{w,b}(x^1)f_{w,b}(x^2)(1-f_{w,b}(x^3))\cdot\cdot\cdot f_{w,b}(x^N)$
现在的目标是求出使

L(w,b) $L(w,b)$ 最大的

w∗ $w^*$ 和

b∗ $b^*$ 。

w *, b * = a r g max w, b L (w, b)

$w^*,b^*=arg\ \max_{w,b}L(w,b)$
为了便于处理，对上式进行等价处理：
这里写图片描述

这里写图片描述

这里写图片描述

注意：上图中采用交叉熵函数作为损失函数。

Cross entropy $Cross\ entropy$ 表示两个

distribution $distribution$ 有多么接近，若两个

distribution $distribution$ 一模一样，则

cross entropy=0 $cross\ entropy=0$ 。
关于前两步对Logistic Regression和Linear Regression做对比。
这里写图片描述

这里写图片描述

至于为何不用

square error $square\ error$ 做线性回归，暂且不表。
Step 3: Find the best function
这一步的工作就是要利用梯度下降法，不断迭代，找到符合要求的解。PPT中步骤详细，直接贴上来。
这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

顺便观察下迭代的公式，可以发现逻辑回归和线性回归的迭代公式是相同的。
这里写图片描述

这里写图片描述

好，模型的求解讲解完毕。再说一说为何不用

square error $square\ error$ 。
如果采用了

logistic regression + square error $logistic\ regression\ +\ square\ error$ 的方式，那么在第三步中会出现微分值为0的情况，导致参数无法迭代更新。比如下面两个例子。
这里写图片描述

这里写图片描述

这里写图片描述

Cross entropy $Cross\ entropy$ : 距离目标点越远时，目标值越大，参数更新的越快。

Square error $Square\ error$ : 当距离目标远时，目标函数对参数的微分值极小，参数更新速度很慢，不容易得到结果。
下图形象地展示了这一点。
这里写图片描述

这里写图片描述

判别式模型与生成式模型(Discriminative v.s. Generative)
这一小节讲述的

logistic regression $logistic\ regression$ 属于判别式模型(Discriminative)；上一节中利用高斯分布描述数据的联合概率的方法求解model属于生成式模型(Generative)。
这里写图片描述

这里写图片描述

两种求解模型的方法各有优劣，在此小节的问题中判别式模型的准确率更高。
那生成式模型的优势见下图。
这里写图片描述

这里写图片描述

之前讨论的都是二分类问题，如果遇到多分类问题，以三分类为例，则需要把

sigmod(x) $sigmod(x)$ 函数改为

softmax(x) $softmax(x)$ ,其公式如下：

s o f t m a x (z j) = e z j \sum i e z i

$softmax(z_j)=\frac{e^{z_j}}{\sum_{i}e^{z_i}}$
举例如下：
这里写图片描述

这里写图片描述

这里写图片描述

Logistic Regression $Logistic\ Regression$ 的限制
有时会出现无法分类的情况，如下图。
这里写图片描述

这里写图片描述

这里写图片描述

此时需要进行特征变换，但是要找到一个很好的特征变换往往并不容易。
这里写图片描述

这里写图片描述

这时候咱们把几个逻辑回归组合起来，其效果相当于特征变换的作用。再加一个逻辑回归当作分类器。整体结构图如下所示。
这里写图片描述

这里写图片描述

首先进行特征变换，结果如下。
这里写图片描述

这里写图片描述

基于特征变换的结果进行分类，如下图。
这里写图片描述

这里写图片描述

注：上图右下中的

x,1 $x_{1}^,$ 和

x,2 $x_{2}^,$ 画反了。。。
把多个

logistic regression $logistic\ regression$ 串在一起，再换个名字叫

Deep Learning $Deep\ Learning$ ，瞬间就潮了许多。就可以去骗麻瓜说我们是在利用深度学习的方法做人工智能，模拟人类大脑的运作~~~

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。