本文来源公众号“江大白”,仅用于学术分享,侵权删,干货满满。
原文链接:通用视觉Backbone,TransXNet:全局+局部动态=性能强大(附源码及源码)
导读
香港大学俞益洲教授团队开发了通用视觉主干网络TransXNet,引入了D-Mixer模块,专注捕捉全局与局部动态性。经实验验证,TransXNet在ImageNet-1K、COCO 2017等数据集上均展现出卓越的性能。
本篇分享论文TransXNet: Learning both global and local dynamics with a dual dynamic token mixer for visual recognition
,通用的视觉Backbone,TransXNet: 全局动态性+局部动态性=性能强大,代码已开源!
-
论文链接:https://arxiv.org/abs/2310.19380 (预印版)
-
代码链接:https://github.com/LMMMEng/TransXNet
摘要
香港大学计算机科学系俞益洲教授(https://www.cs.hku.hk/~yzyu/)及其研究团队开发了一种新型的通用视觉主干网络—TransXNet,该模型同时融合了全局和局部动态性。其创新之处在于引入了一个即插即用的模块,名为Dual Dynamic Token Mixer(D-Mixer)。
与以往的卷积和se