机器学习:领域自适应学习

本文探讨了在训练数据和测试数据存在差异时,如何通过领域适应技术(如DomainAdversarialTraining)利用少量有标注和大量无标注数据,通过特征提取和微调来提高模型性能。同时提及了衡量特征相似度的方法以及数据增强在困难情况下的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

训练一个分类器是小问题

在这里插入图片描述

上难度

在这里插入图片描述
训练数据和测试数据不一致,比如训练数据是黑白的,测试时彩色的,结果准确率非常低。
训练数据和测试数据有点差距的时候,能不能效果也能好呢?这就用到了领域自使用domain adptation
在这里插入图片描述
用一个领域学到的知识,用到另外一个领域。

Domain Shift

在这里插入图片描述
有多种多样的domain shift

  • 分布频次不一样
  • 标签不一致

这里只考虑分布不一样
在这里插入图片描述
在这里插入图片描述

  • 有标注的数据量,但比较少,可以通过微调的方式进行训练,跑2-3个epoch
  • 小心不要过拟合

在这里插入图片描述
现在问题是有大量的图像,但是没有标注,怎么用这些没有标注的数据用来训练模型。
在这里插入图片描述
把颜色去掉,这样就能一样训练了。

Domain Adversarial Training

在这里插入图片描述
把前5层当作feature extractor,后5层当作label predictor。
想要有标注的数据和无标注的数据抽取后的特征在分布上没有什么差别。
在这里插入图片描述

  • 特征抽取器:学会愚弄领域分类器
  • 不能让特征抽取器永远输出0,也需要label predictor的训练
    在这里插入图片描述

Limitation

在这里插入图片描述

  • 三角形和矩形越相近越好,但如何衡量呢?

在这里插入图片描述
考虑边界
在这里插入图片描述

  • 考虑外包围
    在这里插入图片描述

在这里插入图片描述
更坏的情况:

  • 只有一张
  • 甚至都不知道

一张都不知道的话就不叫domain adaptation而是domain generalization
在这里插入图片描述
data aug 进行数据增强
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

uncle_ll

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值