Residual Unit:
yl=H(xl)+F(xl,Wl)
xl+1=f(yl)
xl
and
xl+1
is the input and output of
l
-th residual unit
h(xl)=xl
is an identity mapping
Log loss:
L(y,p(y,x))=−log(p(y | x))
f(x)=11+e−wTx
y∈{0,1}
p(Y=1 | x)=f(x)
p(Y=0 | x)=1−f(x)
似然函数
l(w)=∏Ni=0p(yi | xi)yi[1−p(yi | xi)](1−yi)
取对数
L(w)=∑Ni=0(yilog(p(yi | xi))+(1−yi)log(1−p(yi | xi))
最大化似然函数 <=> 最小化负似然函数
L′(w,x)=∑Ni=0(−yilog(p(yi | xi))−(1−yi)log(1−p(yi | xi))
加L1 正则
J(w,x)=∑Ni=0(−yilog(p(yi | xi))−(1−yi)log(1−p(yi | xi))+12r||w||1
加L2正则
J(w,x)=∑Ni=0(−yilog(p(yi | xi))−(1−yi)log(1−p(yi | xi))+12r||w||2