- 博客(4)
- 收藏
- 关注
原创 VLAD+video classification 浅析
一、VLAD 名称:Vector of Local Aggregated Descriptor 计算步骤:提取SIFT描述算子 训练K个聚类中心的码本,k-means,所有数据 每个SIFT找到最近的聚类中心 求残差 残差和,然后得到k*N的向量,即为所求二、NetVLAD 论文:https://arxiv.org/pdf/1511.07247.pdf 时间线:2016 TPAMI 主要内容:...
2021-06-28 19:13:26
376
原创 ViViT: A Video Vision Transformer 阅读笔记
论文:https://arxiv.org/pdf/2103.15691.pdf开源代码:无时间线:2021 arxiv领域:行为识别机构:google research1.Motivation使用纯transformer结构解决视频分类问题;2.主要方法2.1 transformer结构设计一共四种transformer结构:1.直接复用原始transformer ...
2021-06-28 19:01:48
991
原创 Bert 阅读
论文:https://arxiv.org/pdf/1810.04805.pdfgithub:https://github.com/google-research/bert时间线:arxiv-2018 NAACL-HLT 2019摘要Bidirectional Encoder Representations from Transformers,作为预训练的基网络,可以支持不同的下游任务,包括但不限于:文本分类、question answer等,不用为每个任务单独训练巨量数据,只用在基网络的后.
2021-04-29 17:01:25
174
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人