论文阅读笔记《Learning Embedding Adaptation for Few-Shot Learning》

最新推荐文章于 2024-09-26 07:11:45 发布

深视

最新推荐文章于 2024-09-26 07:11:45 发布

阅读量5.1k

点赞数 8

分类专栏：论文阅读笔记 # 小样本学习文章标签：深度学习小样本学习自注意力机制

本文链接：https://blog.csdn.net/qq_36104364/article/details/107579565

版权

论文阅读笔记同时被 2 个专栏收录

259 篇文章

订阅专栏

小样本学习

100 篇文章

订阅专栏

小样本学习&元学习经典论文整理||持续更新

核心思想

本文主要是针对度量学习算法中的特征提取阶段进行了改进，之前的特征提取网络或者说嵌入式表征的（Embedding Representation）过程是与任务无关的（Task-agnostic），这就要求在训练集上得到的特征提取网络，要有足够强的泛化能力，使其提取的特征信息同时满足测试集中未见过的新样本。这一要求无疑是很难实现的，作者就想到让特征提取网络有针对性地提取与任务有关的（Task-specific）特征信息，这样就能更好的适应测试集中未见过的新样本了。为了实现这一目标，作者设计了一个自适应的Transformer，用于将任务无关的特征信息转换成任务相关的，这一结构本质上采用了自注意力机制（Self-attention Mechanism）。整个网络的处理过程如下图所示
在这里插入图片描述
首先，使用普通的特征提取网络 $\textbf{E}$ 提取各个样本的特征信息 $\phi_x$ ，然后利用变形器 $\textbf{T}$ 将其转化为任务相关的特征信息 $\psi_x$ ，最后通过任意的距离度量方式寻找到与测试样本最接近的训练样例，实现分类。这里的变形器 $\textbf{T}$ 所采用的自注意力机制，我们在之前的文章中也有提及论文阅读笔记《Attentive Weights Generation for Few Shot Learning via Information Maximization》，它储存了一种三元信息—— $Q$ （query）， $K$ （key）， $V$ （value），其计算过程如下
在这里插入图片描述
其中 $W_Q^T,W_K^T,W_V^T$ 分别表示三个线性映射的权重，也可以理解为是三个全连接层的权重值， $\phi_x$ 就是普通特征提取网络得到的特征信息了，而 $\mathcal{Q},\mathcal{K},\mathcal{V}$ 表示样例集合，有两种构建方式，第一种就是 $\mathcal{Q}=\mathcal{K}=\mathcal{V}=\mathcal{X}_{train}\cup x_{test}$ 此时 $\mathcal{Q},\mathcal{K},\mathcal{V}$ 三者相同，只包含未见过的新样本的支持集和对应的查询集，而第二种方式则保持 $\mathcal{Q}$ 不变， $\mathcal{K},\mathcal{V}$ 构建方式如下
$\mathcal{K}=\mathcal{V}=\mathcal{X}_{train}\cup x_{test}\cup \mathcal{X}^S_{train}$ 其不仅包含未见过的新样本，而且还包含了部分训练过程中见过的样本 $\mathcal{X}^S_{train}$ ，为了方便实现， $\mathcal{X}^S_{train}$ 中每种类别只保留了两个样本。
在经过线性映射得到 $Q, K, V$ 后，分别计算 $Q$ 中每个样本与 $K$ 中每个样本相似性 $\alpha_{qk}$ ，计算过程如下
在这里插入图片描述
并将其作为权重，用于计算任务相关的特征信息 $\psi_{x_q}$ ，计算过程如下

其中 $V_{:,k}$ 表示 $V$ 中的第 $k$ 列。

实现过程

网络结构

普通的特征提取网络可采用Conv或ResNet网络，分类器可采用Matching Net或Prototypical Net网络结构。

损失函数

为了训练变形器中的线性映射层 $W_Q^T,W_K^T,W_V^T$ ，在普通的分类损失基础上，增加了对比损失（contrastive loss），计算过程如下
在这里插入图片描述

训练策略

整个网络的训练过程如下
在这里插入图片描述

算法推广

本文提出的方法还可以应用于直推小样本学习（Transductive FSL）和广义小样本学习（Generalized FSL）。

创新点

提出了一种基于自注意力机制的变形器，将任务无关的特征信息转换为任务相关的特征信息

算法评价

之前对于特征提取网络的研究，通常是对任务无关的通用型的网络开展的，通过提高其对于各类样本，尤其是新样本的泛化能力，来改善小样本分类的效果。而本文则是提出了任务相关的特征提取网络，针对每种类别的样本，提取特定的信息用于改善分类效果。而且作者的改进相当于在原有的特征提取网络+分类器的结构中增加了一个变形器，变成特征提取网络+变形器+分类器的结构，这使得其能够很容易的嵌入到其他的算法中，起到一个即插即用的效果。

如果大家对于深度学习与计算机视觉领域感兴趣，希望获得更多的知识分享与最新的论文解读，欢迎关注我的个人公众号“深视”。在这里插入图片描述