NLP（四十七）常见的损失函数

原创

已于 2023-07-10 17:32:17 修改 · 置顶 · 5.8k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #损失函数

于 2021-04-24 14:39:13 首次发布

本文详细介绍了NLP任务中常用的损失函数，包括MeanSquaredError、MeanAbsoluteError、BinaryCrossEntropy、CategoricalCrossEntropy和SparseCategoricalCrossEntropy，并通过Keras和PyTorch提供了实现示例。对比了两种框架在实现这些损失函数时的差异，特别是PyTorch中对于CrossEntropyLoss的处理方式。此外，还探讨了HingeLoss在分类问题中的应用。

本文将给出NLP任务中一些常见的损失函数（Loss Function），并使用Keras、PyTorch给出具体例子。
在讲解具体的损失函数之前，我们有必要了解下什么是损失函数。所谓损失函数，指的是衡量模型预测值y与真实标签Y之间的差距的函数。本文将介绍的损失函数如下：

Mean Squared Error（均方差损失函数）
Mean Absolute Error（绝对值损失函数）
Binary Cross Entropy（二元交叉熵损失函数）
Categorical Cross Entropy（多分类交叉熵损失函数）
Sparse Categorical Cross Entropy（稀疏多分类交叉熵损失函数）
Hingle Loss（合页损失函数）
…

以下将分别介绍上述损失函数，并介绍Keras和PyTorch中的例子。在此之前，我们分别导入Keras所需模块和PyTorch所需模块。Keras所需模块如下：
导入Keras相关模块
PyTorch所需模块如下：

从导入模块来看，PyTorch更加简洁，在后面的部分中我们将持续比较这两种框架的差异。

Mean Squared Error

Mean Squared Error（MSE）为均方差损失函数，一般用于回归问题。我们用 $\widetilde{y}_{i}$ 表示样本预测值序列 $\{\widetilde{y}_{1}, \widetilde{y}_{2},...,\widetilde{y}_{n}\}$ 中的第i个元素，用 $y_{i}$ 表示样本真实值序列 ${y_{1}, y_{2},...,y_{n}\}$ 中的第i个元素，则均方差损失函数MSE的计算公式如下：