0-1 损失函数
L(Y,f(x))={1,Y≠f(x)0,Y=f(x)L(Y,f(x))=\left\{ \begin{aligned} &1, && Y \ne f(x) \\ &0, && Y = f(x) \end{aligned} \right.L(Y,f(x))={1,0,Y=f(x)Y=f(x)
绝对值损失函数
L(Y,f(x))=∣Y−f(x)∣L(Y,f(x))=\vert{Y-f(x)}\vertL(Y,f(x))=∣Y−f(x)∣
对数损失函数
L(Y,f(x))={−Y∗log(f(x)),Y=1−(1−Y)∗log(1−f(x)),Y=0L(Y,f(x))=\left\{ \begin{aligned} &-Y*log(f(x)), && Y = 1 \\ &-(1-Y)*log(1-f(x)), && Y = 0 \end{aligned} \right.L(Y,f(x))={−Y∗log(f(x)),−(1−Y)∗log(1−f(x)),Y=1Y=0
平方损失函数
L(Y,f(x))=−ΣN(Y−f(x))2L(Y,f(x))=-\Sigma_N(Y-f(x))^2L(Y,f(x))=−ΣN(Y−f(x))2
指数损失函数
L(Y,f(x))=exp−Y∗f(x)L(Y,f(x))=exp^{-Y*f(x)}L(Y,f(x))=exp−Y∗f(x)
Hinge损失函数
L(Y,f(x))=max(0,1−Y∗f(x))L(Y,f(x))=max(0, 1-Y*f(x))L(Y,f(x))=max(0,1−Y∗f(x))
交叉熵损失函数
L(Y,f(x))=−1nΣx[Y∗logf(x)+(1−Y)∗log(1−f(x))]L(Y,f(x))=-\frac1n\Sigma_x{[Y*logf(x)+(1-Y)*log(1-f(x))]}L(Y,f(x))=−n1Σx[Y∗logf(x)+(1−Y)∗log(1−f(x))]
OHEM loss
取 3:1 的负样本去计算loss,之外的负样本损失置为零
Focal loss

- 解决样本不平衡的问题
正样本乘以α\alphaα, 负样本乘以1−α1-\alpha1−α,默认α\alphaα为0.25,即正样本比负样本占比小【在总体的损失中】
- 增加因子,更关注困难的,错分的样本【增大损失】,减小易分类样本的损失,γ\gammaγ默认为2
paper中单独做了一个实验,就是直接在CE上加权重,得到的结果是alpha=0.75的时候效果最好,也就是说,正样本的权重为0.75,负样本的权重为0.25,正样本的权重大于负样本,因为本身就是正样本个数远少于负样本。加了gama次方后,alpha取0.25的时候效果最好,也就是说,正样本的权重为0.25,负样本的权重为0.75,这个时候反而负样本的权重在增加,按道理来说,负样本个数这么多,应该占loss主导,这说明gama次方已经把负样本整体的loss衰减到需要加权重的地步。
paper中alpha取0.25,gama取2效果最好

本文详细介绍了0-1损失函数、绝对值损失、对数损失、平方损失、指数损失、Hinge损失、交叉熵损失以及Focal Loss等常见机器学习中的损失函数,特别强调了Focal Loss在解决样本不平衡问题中的作用和参数调整策略。
1931

被折叠的 条评论
为什么被折叠?



