交叉熵损失分析

最新推荐文章于 2025-04-02 22:17:02 发布

置顶

南有乔木NTU

最新推荐文章于 2025-04-02 22:17:02 发布

阅读量1.8k

点赞数 2

分类专栏：深度学习文章标签：深度学习损失函数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zijin0802034/article/details/85036968

版权

本文分析了在分类任务中为何使用交叉熵损失函数，对比了平方损失和Softmax损失函数的优缺点。交叉熵损失能有效解决概率分布问题，并在数值稳定性上优于平方损失，是深度学习分类任务的首选。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

交叉熵损失分析

分类任务是训练神经网络最常用的任务之一。对于分类任务来说，它的损失函数一般采用交叉熵损失函数。至于为什么这样做，本博客在此进行简单的分析。

平方损失函数

在分类任务上，类别往往属于离散的整形数据(integer)。最直观的想法就是直接使用平方损失函数： $L=\frac{1}{2}\sum_{i=1}^N(y_i-t_i)^2$ 。这里假设 $y_i$ 为第i个样本网络的输出结果， $t_i$ 为该样本对应的标签。
使用平方损失虽然简单，但是缺点也很明显：

例如：在二分类任务中，如果使用最后一层sigmoid激活以后的结果作为类别（ $L=\frac{1}{2}(y-t)^2$ )，如果网络输出了0.000001，那么在softmax这块( $\frac{dL}{dz} = (y-t)*y*(1-y)$ )，导数基本很小，导致无法反向更新。对于logistic function都会存在这些问题。
一般分类任务中，类别之间是互斥的。那么所有类别对应的概率之和应该等于1。平方损失无法体现出该点。

Softmax损失函数

Softmax函数解决了互斥类别中各个类的概率之和等于1的问题。该函数定义如下：
$p_i = \frac{e^{a_i}}{\sum_{k=1}^N e^{a_k}}$
在numpy中，softmax函数可以通过如下实现：

def softmax(X):
    exps = np.exp(X)
    return exps / np.sum(exps)

但是这里有坑需要注意， $e^x$ 很容易出现数值溢出，返回nan的错误。
所以需要对softmax实现进行以下优化：
$p_i = \frac{e^{a_i}}{\sum_{k=1}^N e^{a_k}} = \frac{Ce^{a_i}}{C\sum_{k=1}^N e^{a_k}}=\frac{e^{a_i + log(C)}}{\sum_{k=1}^N e^{a_k+log(C)}}$

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。