Active Learning 原理

最新推荐文章于 2024-03-01 17:12:07 发布

coder_oyang

最新推荐文章于 2024-03-01 17:12:07 发布

阅读量2.1k

点赞数

分类专栏：机器学习算法 active learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/coder_oyang/article/details/78622483

版权

机器学习算法同时被 2 个专栏收录

30 篇文章

订阅专栏

active learning

1 篇文章

订阅专栏

其实一直在用这种方式，提升分类模型精度，最近才发现这类方法有一个专业名词，active learning ，中文名主动学习，其目的挑选出未标注标签的样本，通过标注这些挑选出来的样本提升模型分类精度。

第一. 挑选样本，挑选哪些样本对模型提升精度有帮助呢？挑选那些对模型来说信息量大的样本，信息量大的定义又是什么呢？

第二. 信息量大，模型分类的过程中，分错的样本相较于分对的样本，对于模型的信息量大，正是因为模型不具备错误样本相关信息，所以导致分错，下面就是挑选信息量大的规则：

1. 所有分类结果中，每一个类别结果模型得到的概率都较小

2. 所有分类结果中，概率最大类别与概率次大类别对应的数值相差不大

3. 所有分类结果中，每一个类别对应的概率都相差不大，也就是熵大

所有上面的规则，都是该样本对于模型的信息量大的表现，挑选规则设定之后，通过下面流程：

1. 将小部分标准的样本训练出一个分类模型

2. 训练好的分类模型通过上述挑选规则将未标注样本中的信息量大的样本跳挑出，完成人工标注

3. 重复1,2步骤，指导所有样本被标注

active learning一方面减少标注量，另一方面保证标注的语料分布在分类面的附近。

牵扯出一个问题。就是标注样本中存在少量错误标注的样本，而这些样本对模型效果会产生较大影响，传统方法，就是遍历查找，现在可以通过，将样本随机分N份，取其中N-1份作为训练数据，剩余作为测试数据，这样，测试数据会得到一个预测标签，通过比较预测标签与实际标签的差异，判断是否标注错误

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。