前言
上文介绍了正则化项与贝叶斯的关系,正则化项对应于贝叶斯的先验分布,因此通过设置参数的先验分布来调节正则化项。本文首先介绍了贝叶斯线性回归的相关性质,和正则化参数λ的作用,然后简单介绍了贝叶斯思想的模型比较,最后总结全文。
目录
1、后验参数分布和预测变量分布
2、正则化参数λ的作用
3、贝叶斯模型比较
4、总结
1、参数的后验分布和预测变量分布
已知模型参数的先验分布和高斯分布的数据集,参数的后验分布通过贝叶斯定理求得。
模型参数w的先验分布:
高斯分布的数据集的似然函数:
1、模型的参数后验分布
后验分布求解步骤:
性质:
如下图:
三张图分别为样本数等于1、2、20的参数后验分布:
由上面三图可知,当样本数逐渐增加时,参数w分布的等高圆半径越来越小,即协方差项越来越小,参数w的确定性增大。
2、模型的预测变量分布
下图样本数分别为2,4,25的预测变量的分布:
由上面三图可知,暗红色区域代表预测变量的方差,当样本数增加时,预测变量的方差变小,确定性增加。
因此,增加样本数据可以提高预测结果的准确性。
2、正则项参数λ的作用
含正则化项L2范数的损失函数:
参数的先验分布为高斯分布,参数后验分布的自然对数为:
因此,最大化参数w的后验分布等同于最小化含正则项的损失函数。β表示观测数据集的精度,α表示先验参数分布的精度,λ衡量这两项的相对重要程度。
最大化参数w的后验分布,得参数w:
由上式可知,当λ等于0时,无先验分布,参数等于最大似然函数对应的模型参数,模型复杂度达到最大。当λ增大时,参数
的分量变小,若λ足够大,则参数
的某些分量等于0,因此正则项参数的作用是调节模型的复杂度。
3、贝叶斯模型比较
常用的模型比较方法有留出法、交叉验证法和自助法,这三种方法的缺点在于无法用完整的训练数据构建模型,因此构建的模型可能不符合真实模型。
最大似然函数构建的模型存在过拟合,因为最大似然函数认为参数w是常数,即参数w的点估计。
贝叶斯模型避免过拟合问题,因为贝叶斯认为参数w是分布在一定的参数空间,所有可能的w与似然函数加权求和(如下图),得到的预测变量能够避免过拟合问题。
因此,贝叶斯可以使用整个训练数据集来进行模型比较。
模型证据
假设共有L个模型{Mi},其中i=1,2,...,L。假设数据集D是由其中一个模型生成的,模型Mi生成数据集的概率称模型证据,如下表达式。
其中,模型Mi是由参数w控制的,即不同的参数w代表不同的模型。
由于数据集D是随机抽样生成的,有可能会出现错误的模型产生的更大的模型证据,为了避免这一偶然因素,采用期望的形式去比较模型,如下图。
若数据集D是由模型M1产生的,那么上式恒大于0。
总结
本文简单的介绍了贝叶斯线性回归的相关性质,样本数增加可以减小参数w和预测变量的分布空间,提高准确性。贝叶斯的模型比较之所以可以使用整个训练数据集,是因为贝叶斯对参数w的分布空间进行了加权求和。
参考
Christopher M.Bishop <<Pattern Reconition and Machine Learning>>