【计算机视觉】多示例学习
问题描述
有这样的训练数据,给定的标签是按照包 bag
来组织的,也就是说 positive 的包至少含有一个正样本,而 negative 的包中都是负样本。如何训练模型实现良好的分类效果?这正是多示例学习所研究的问题设定。
在应用中的对照
特别是目标检测、跟踪中,负样本很好选取,而最优正样本则很难。通常正样本的选取是在标记的矩形框附近做一些扰动,得到一堆儿框放入 positive bag中,总有一个是最佳的。
求解方法
如果所有的样本标记已知,那问题就转化为监督学习的问题。所以问题是正样本包中只能保证有一个是正样本,而且并不知道是哪一个?
解决方法就是迭代优化:假设知道了所有样本标记,用监督学习得到一个分类模型,然后通过这个分类模型对正样本进行预测,然后更新它们的标记,之后就可以继续进行模型训练。就这样两个步骤,EM steps:监督学习,标记更新。
注意点:
-
监督训练模型的时候,只从正样本包中挑选最正确的(分类得分最高)的那个。正样本包中的其它样本,不管是正的还是负的,通通不