- 博客(53)
- 收藏
- 关注
原创 Are Synthetic Data Useful for Egocentric Hand-Object Interaction Detection?“
收集真实数据的过程让我们深刻体会到了这项工作的困难:仅仅收集和标注1000帧高质量的真实数据就花费了我们近两周的时间。b) 物体库构建:我们收集了超过1000种常见物体的3D模型,涵盖了日常生活中的各种类别,从简单的杯子到复杂的电子设备。e) 我们自己设计的一个专门针对手部-物体交互的轻量级模型:这个模型融合了手部姿态估计和物体检测的特点,虽然还不成熟,但我们认为值得一试。使用合成数据预训练,然后在真实数据上微调的策略显著提高了模型性能,在某些情况下甚至超过了仅使用真实数据训练的模型。
2024-11-10 17:35:57
701
原创 HOISDF: Constraining 3D Hand-Object Pose Estimation with Global Signed Distance Fields
研究背景研究问题:这篇文章要解决的问题是单目相机下从图像中联合估计手和物体的3D姿态。由于手和物体在交互过程中经常发生遮挡,现有的方法通常依赖于中间3D形状表示(如3D点云或网格)来提高性能。研究难点:该问题的研究难点包括:手和物体在交互过程中容易发生遮挡,现有的显式3D形状表示在处理遮挡时效果有限,如何有效地利用隐式3D形状信息来提高姿态估计的鲁棒性。相关工作:该问题的研究相关工作有:直接提升方法和粗到细方法。直接提升方法通过滤波2D图像特征并使用剩余特征进行预测;
2024-11-03 19:43:29
1003
原创 MambaVision
MambaVision模型在mIoU方面达到了49.1%,显著优于同样大小的Swin-T、Swin-S和SwinB模型。R-CNN检测头,MambaVision-T、MambaVision-S和MambaVision-B模型在box。与ConvNeXt-T和Swin-T模型相比,:在ImageNet-1K数据集上,MambaVision模型在Top-1准确率和图像吞吐量方面达到了新的S。:在ImageNet-1K数据集上,MambaVision模型变体在Top-1准确率和图像吞吐量方面达到了。
2024-10-27 22:33:44
908
原创 【无标题】Are Synthetic Data Useful for Egocentric Hand-Object Interaction Detection?“
收集真实数据的过程让我们深刻体会到了这项工作的困难:仅仅收集和标注1000帧高质量的真实数据就花费了我们近两周的时间。b) 物体库构建:我们收集了超过1000种常见物体的3D模型,涵盖了日常生活中的各种类别,从简单的杯子到复杂的电子设备。e) 我们自己设计的一个专门针对手部-物体交互的轻量级模型:这个模型融合了手部姿态估计和物体检测的特点,虽然还不成熟,但我们认为值得一试。使用合成数据预训练,然后在真实数据上微调的策略显著提高了模型性能,在某些情况下甚至超过了仅使用真实数据训练的模型。
2024-10-20 21:55:25
544
原创 MambaVision:一种混合Mamba-Transformer视觉主干网络
摘要我们提出了一种新型的混合Mamba-Transformer主干网络,命名为MambaVision,它专门为视觉应用而设计。我们的核心贡献包括重新设计Mamba公式,以提高其有效建模视觉特征的能力。此外,我们对集成视觉变换器(ViT)与Mamba的可行性进行了全面的消融研究。我们的结果表明,在Mamba架构的最后一层加入多个自注意力模块大大提高了捕获长程空间依赖性的建模能力。基于我们的发现,我们引入了一系列具有分层架构的MambaVision模型,以满足各种设计标准。
2024-10-13 16:21:11
1414
原创 MambaVision
NVIDIA摘要我们提出了一种新型的混合Mamba-Transformer主干网络,命名为MambaVision,它专门为视觉应用而设计。我们的核心贡献包括重新设计Mamba公式,以提高其有效建模视觉特征的能力。此外,我们对集成视觉变换器(ViT)与Mamba的可行性进行了全面的消融研究。我们的结果表明,在Mamba架构的最后一层加入多个自注意力模块大大提高了捕获长程空间依赖性的建模能力。基于我们的发现,我们引入了一系列具有分层架构的MambaVision模型,以满足各种设计标准。
2024-10-13 16:13:45
1030
原创 Are Synthetic Data Useful for Egocentric Hand-Object Interaction Detection?“(分析)
收集真实数据的过程让我们深刻体会到了这项工作的困难:仅仅收集和标注1000帧高质量的真实数据就花费了我们近两周的时间。b) 物体库构建:我们收集了超过1000种常见物体的3D模型,涵盖了日常生活中的各种类别,从简单的杯子到复杂的电子设备。e) 我们自己设计的一个专门针对手部-物体交互的轻量级模型:这个模型融合了手部姿态估计和物体检测的特点,虽然还不成熟,但我们认为值得一试。使用合成数据预训练,然后在真实数据上微调的策略显著提高了模型性能,在某些情况下甚至超过了仅使用真实数据训练的模型。
2024-09-08 16:37:36
1169
原创 Are Synthetic Data Useful for Egocentric Hand-Object Interaction Detection?(中文翻译)
罗萨里奥·莱昂纳尔迪 $ {}^{1}\square $,安东尼诺·弗尔纳里 $ {}^{1,2}\square $,弗朗切斯科·拉古萨 $ {}^{1,2} $ O 和乔瓦尼·玛丽亚·法里内拉 $ {}^{1,2} $ O$ {}^{1} $ 意大利卡塔尼亚大学数学与计算机科学系2 Next Vision s.r.l.,意大利摘要。本研究调查了合成数据在增强以自我为中心的手-物体交互检测中的有效性。
2024-09-08 16:30:01
1396
原创 精度:Fine-Grained Egocentric Hand-Object Segmentation
论文标题: Fine-Grained Egocentric Hand-Object Segmentation: Dataset, Model, and Applications作者: Lingzhi Zhang, Shenghao Zhou, Simon Stent, Jianbo Shi会议: European Conference on Computer Vision (ECCV), 2022。
2024-09-01 19:32:56
1268
原创 Fine-Grained Egocentric Hand-Object(中文翻译)
自我中心视频提供了高保真度建模人类行为的细粒度信息。手和交互对象是理解观众行为和意图的一个关键方面。我们提供了一个标注数据集,包含11,243个自我中心图像,并具有在各种日常活动中与手和对象互动的逐像素分割标签。我们的数据集是首个标注详细手-对象接触边界的数据集。我们引入了一种上下文感知的组合数据增强技术,以适应分布外的YouTube自我中心视频。
2024-09-01 19:29:02
1490
原创 语义分割(Deeplab V3+补充知识)
FCN(Fully Convolutional Networks for Semantic Segmentation,2014)是语义分割领域的开山之作,顾名思义其特点就是网络中只有卷积层,没有全连接层。它能够实现端到端的像素级别分类,从下图可以大概了解它的整体结构。
2024-08-25 22:33:44
947
原创 deeplab3-plus(中文翻译)
空间金字塔池化模块或编码-解码器结构用于深度神经网络的语义分割任务。前者网络通过使用滤波器或在多个速率和多个有效视野的池化操作来编码多尺度上下文信息,而后者网络则通过逐步恢复空间信息来捕捉更锐利的物体边界。在这项工作中, 我们提出结合两种方法的优点。具体而言,我们提出的模型,DeepLabv3+,通过添加一个简单而有效的解码器模块来扩展DeepLabv3,从而特别改善物体边界的分割结果。
2024-08-25 22:33:16
1430
原创 机器学习(40)
本周阅读了一篇关于多块和特征融合的图像去雾网络的论文。基于深度学习的去雾方法在图像去雾领域取得了显着进展,但大多数方法仍然存在去雾不完全和颜色失真的问题。为了解决这个问题,提出了一种基于多块和特征融合的图像去雾网络。该网络由预处理、特征提取、特征融合和后处理模块组成。预处理模块可以自适应地从补丁中提取图像特征信息。特征提取模块使用级联密集残差块来提取深层特征信息。特征融合模块对特征图进行通道加权和像素加权,实现主要特征的融合。后处理模块对融合后的特征图进行非线性映射,得到去雾图像。
2024-06-16 16:36:36
655
原创 机器学习(39)
本文主要讨论了生成式对抗神经网络。首先,本文介绍了生成式对抗网络的设计思路。在此基础下,本文阐述了GAN的网络结构以及训练过程。生成器与解释器相互迭代,随着更新,生成器的效果趋近于真实图片。其次,本文展示了题为Generative Adversarial Networks论文的主要内容。这篇论文提出了生成式对抗网络的网络结构以及训练过程,该模型填补了生成任务方面神经网络的空白。此外,这篇论文还从理论角度证明了生成器的数据分布能够达到全局最优以及训练算法的可收敛性。
2024-06-09 19:16:42
803
原创 机器学习(37)
本周,我通读了论文《ImageNet Classification with Deep Convolutional Neural Networks》。该文献的主要贡献是构建了一个深层神经网络架构,该架构具有几点创新之处。第一,通过减少参数量来加速训练;第二,提出了几种避免过拟合的措施;第三,使用ReLU激活函数取代了tanh和softmax。另外,我还深入学习了CNN的原理。CNN通过卷积和池化等操作,逐步减小图像尺寸,从而大大减少了参数量。总体而言,本周对CNN进行了深入剖析,这个过程让我受益匪浅。
2024-05-26 13:44:32
674
原创 机器学习(36)
本周阅读了一篇关于多块和特征融合的图像去雾网络的论文。基于深度学习的去雾方法在图像去雾领域取得了显着进展,但大多数方法仍然存在去雾不完全和颜色失真的问题。为了解决这个问题,提出了一种基于多块和特征融合的图像去雾网络。该网络由预处理、特征提取、特征融合和后处理模块组成。预处理模块可以自适应地从补丁中提取图像特征信息。特征提取模块使用级联密集残差块来提取深层特征信息。特征融合模块对特征图进行通道加权和像素加权,实现主要特征的融合。后处理模块对融合后的特征图进行非线性映射,得到去雾图像。
2024-05-19 18:08:35
799
原创 机器学习(35)文献阅读Generative Adversarial Networks
本文主要讨论了生成式对抗神经网络。首先,本文介绍了生成式对抗网络的设计思路。在此基础下,本文阐述了GAN的网络结构以及训练过程。生成器与解释器相互迭代,随着更新,生成器的效果趋近于真实图片。其次,本文展示了题为Generative Adversarial Networks论文的主要内容。这篇论文提出了生成式对抗网络的网络结构以及训练过程,该模型填补了生成任务方面神经网络的空白。此外,这篇论文还从理论角度证明了生成器的数据分布能够达到全局最优以及训练算法的可收敛性。
2024-05-12 20:20:46
636
原创 机器学习(34)阅读文献gan
该文提出了名为对抗性生成模型的新框架。该框架同时训练两个模型:生成模型G提取数据分布特征,判别模型D分辨输入数据来自训练数据还是由G生成。G的训练过程时最大限度的提高D出错的概率。在文中实验通过对生成样本进行定性和定量评估,展示了该框架的潜力。
2024-05-05 22:48:16
818
原创 机器学习(文献阅读)
本文主要讨论SA ConvLSTM的模型。本文简要介绍了LSTM的结构以及运行逻辑,并展示了ConvLSTM。其次本文展示了题为Self-Attention ConvLSTM for Spatiotemporal Prediction的论文主要内容。这篇论文提出了Self-attention ConvLSTM模型,该模型将自注意力机制引入到 ConvLSTM 中。具体来说,提出了一种新颖的自注意力记忆(SAM)来记忆在空间和时间域方面具有远程依赖性的特征。
2024-04-28 19:55:56
1108
原创 机器学习(32)
本文主要讨论SA ConvLSTM的模型。本文简要介绍了LSTM的结构以及运行逻辑,并展示了ConvLSTM。其次本文展示了题为Self-Attention ConvLSTM for Spatiotemporal Prediction的论文主要内容。这篇论文提出了Self-attention ConvLSTM模型,该模型将自注意力机制引入到 ConvLSTM 中。具体来说,提出了一种新颖的自注意力记忆(SAM)来记忆在空间和时间域方面具有远程依赖性的特征。
2024-04-21 19:34:32
1208
原创 机器学习(31)PINN
本文主要讨论PINN。本文简要介绍了监督学习。其次本文展示了题为Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations的论文主要内容。该论文提出了一个深度学习框架,使数学模型和数据能够协同结合。
2024-04-14 19:11:50
2418
原创 机器学习(30)
文章目录摘要一、文献阅读1. 题目2. abstract3. 网络架构3.1 Sequence Generative Adversarial Nets3.2 SeqGAN via Policy Gradient3.3 The Generative Model for Sequences3.4 The Discriminative Model for Sequences(CNN)4. 文献解读4.1 Introduction4.2 创新点4.3 实验过程4.3.1 训练设置4.3.2 实验结果4.3.3 相关
2024-04-07 20:57:19
949
原创 ubuntu没网,无显卡驱动
sudo systemctl restart network-manager.service //重启网卡。sudo ifconfig ens33(这条指令测试好了之后我的OK了)ifconfig后只有一个lo,好像其他网卡驱动都没有启动一样。发现了需要的网卡驱动,但是却没有ip地址啥的。
2024-03-31 15:54:53
257
原创 机器学习(29)
文章目录Diffusion&Stable Diffusion扩散模型与稳定扩散模型摘要AbstractDiffusion Model扩散模型Forward Diffusion Process正向扩散过程噪声图像的分布封闭公式Reverse Diffusion Process反向扩散过程loss function损失函数Loss Function of VAE model VAE模型的损失函数本项可以忽略,由于可用Lt−1L_{t-1}Lt−1中相同神经网络进行拟合,且忽略使得样本质量更好实施kl
2024-03-31 15:54:02
643
原创 机器学习(27)
该文提出了名为对抗性生成模型的新框架。该框架同时训练两个模型:生成模型G提取数据分布特征,判别模型D分辨输入数据来自训练数据还是由G生成。G的训练过程时最大限度的提高D出错的概率。在文中实验通过对生成样本进行定性和定量评估,展示了该框架的潜力。
2024-03-24 16:15:40
914
1
原创 机器学习(26)回顾gan+文献阅读
本文主要讨论了生成式对抗神经网络。首先,本文介绍了生成式对抗网络的设计思路。在此基础下,本文阐述了GAN的网络结构以及训练过程。生成器与解释器相互迭代,随着更新,生成器的效果趋近于真实图片。其次,本文展示了题为Generative Adversarial Networks论文的主要内容。这篇论文提出了生成式对抗网络的网络结构以及训练过程,该模型填补了生成任务方面神经网络的空白。此外,这篇论文还从理论角度证明了生成器的数据分布能够达到全局最优以及训练算法的可收敛性。
2024-03-17 17:34:47
1363
原创 机器学习(25)文献阅读
本周阅读了一篇关于多块和特征融合的图像去雾网络的论文。基于深度学习的去雾方法在图像去雾领域取得了显着进展,但大多数方法仍然存在去雾不完全和颜色失真的问题。为了解决这个问题,提出了一种基于多块和特征融合的图像去雾网络。该网络由预处理、特征提取、特征融合和后处理模块组成。预处理模块可以自适应地从补丁中提取图像特征信息。特征提取模块使用级联密集残差块来提取深层特征信息。特征融合模块对特征图进行通道加权和像素加权,实现主要特征的融合。后处理模块对融合后的特征图进行非线性映射,得到去雾图像。
2024-03-10 20:52:50
1159
原创 文献阅读(二十四)
本周阅读了AlexNet 经典论文,AlexNet是一种深度卷积神经网络,由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton在2012年ImageNet图像分类竞赛中提出。其基本结构包括输入层、多个卷积层和池化层、全连接层以及输出层。其中,卷积层和池化层是交替进行的,卷积层用于提取图像特征,池化层则用于下采样,减少特征图的大小并增加模型的稳定性。全连接层用于将提取的特征与先验知识相结合,输出层则将网络输出转化为概率值,用于预测图像的类别。
2024-03-03 20:42:51
791
原创 文献阅读(二十三)
浓雾场景中,图像去雾非常具有挑战性,雾霾图像中保留的原始信息相当少。尽管以前的方法取得了巨大的进步,但它们在浓雾场景中仍然存在内容和颜色信息丢失的问题。最近出现的去噪扩散概率模型(DDPM)表现出强大的生成能力,显示出解决该问题的潜力。然而DDPM没有考虑去雾任务的物理特性,限制了其信息补全能力。在这项工作中,我们提出了 DehazeDDPM:一种基于 DDPM 和物理感知的图像去雾框架,适用于复杂的雾霾场景。具体来说,DehazeDDPM 分两个阶段工作。
2024-01-29 00:32:06
1254
原创 文献阅读(二十二)
这周阅读了一种基于扩散模型的无噪声模型高光谱图像去噪方法论文,扩散模型是一种常用的图像去噪方法,它在去除噪声的同时保持图像的细节和边缘信息。无噪声模型高光谱图像去噪是指对高光谱图像进行去噪处理,以减少由于传感器噪声、环境干扰或其他因素引起的图像噪声。无噪声模型高光谱图像去噪的基本思想是通过对高光谱图像中的每个像素点进行扩散来减少噪声。扩散模型基于偏微分方程,使用图像的梯度信息来控制噪声的扩散过程。它通过将像素点的值与其周围像素点的差异进行比较,来决定噪声的传播方向和速率。
2024-01-21 14:26:20
1398
原创 文献阅读(二十一)
本周阅读了双多尺度去雾网络论文,Dual Multi-Scale Dehazing Network(DMDN)是一种用于图像去雾的深度学习网络。这个网络旨在处理受雾影响的图像,以提高图像的可见度和清晰度。去雾是计算机视觉领域中的一个重要任务,因为雾霾或大气散射会导致图像变得模糊和低对比度。DMDN 的设计采用了双重多尺度的结构,以更有效地捕捉图像中的各种细节和特征。它通常包含多个卷积神经网络(CNN)层,用于学习图像中的复杂模式和信息。通过在不同尺度上操作,DMDN能够更好地还原由雾霾引起的图像失真。
2024-01-14 18:52:35
1101
原创 机器学习(二十)
剪枝和量化技术是深度学习中常用的模型优化方法,而长短时记忆网络(LSTM)则是一种有效处理序列数据的循环神经网络。这篇摘要将聚焦于如何在LSTM模型中应用剪枝和量化技术,以提高模型的效率和减小资源消耗。在剪枝方面,我们探讨了通过去除LSTM模型中不必要的神经元或连接来减小模型规模的方法。通过精心设计的剪枝算法,可以在保持模型性能的同时显著减小模型的参数量,加速推理过程,并使其更适用于嵌入式设备等资源受限的场景。
2024-01-07 12:59:31
1094
1
原创 机器学习(复习自监督式学习)
本周学习了关于自监督式学习的内容,自监督式学习不需要外界提供有标签的资料,他的带标签的资料源于自身。BERT的预训练过程包括两个阶段:MLM和NSP,在MLM中,模型需要预测被遮盖的词语,从而学习到词语之间的关系。在NSP中,模型需要判断两个句子是否是连续的,从而学习到句子级别的语义关系。BERT的创新之处在于采用了双向上下文建模的方法,能够更好地理解上下文中的词语含义。自监督式学习是一种机器学习方法,其中模型从未标记的数据中自动学习表示。
2023-12-31 21:52:33
1019
1
原创 文献阅读笔记(十八)文献阅读
本周阅读了AlexNet 经典论文,AlexNet是一种深度卷积神经网络,由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton在2012年ImageNet图像分类竞赛中提出。其基本结构包括输入层、多个卷积层和池化层、全连接层以及输出层。其中,卷积层和池化层是交替进行的,卷积层用于提取图像特征,池化层则用于下采样,减少特征图的大小并增加模型的稳定性。全连接层用于将提取的特征与先验知识相结合,输出层则将网络输出转化为概率值,用于预测图像的类别。
2023-12-24 19:23:39
1084
1
原创 机器学习(17)
本周,我通读了论文《ImageNet Classification with Deep Convolutional Neural Networks》。该文献的主要贡献是构建了一个深层神经网络架构,该架构具有几点创新之处。第一,通过减少参数量来加速训练;第二,提出了几种避免过拟合的措施;第三,使用ReLU激活函数取代了tanh和softmax。另外,我还深入学习了CNN的原理。CNN通过卷积和池化等操作,逐步减小图像尺寸,从而大大减少了参数量。总体而言,本周对CNN进行了深入剖析,这个过程让我受益匪浅。
2023-12-17 19:36:44
123
1
原创 机器学习(16)GAN
在上周的学习中,明白了GAN的大概原理,不过没有具体写GAN背后的数学理论,这一篇尝试详细地推到一下GAN是怎么来的。生成器的目标是通过学习数据分布的潜在结构,生成逼真的样本。它接收一个随机噪声向量作为输入,并通过一系列的转换将其映射到数据空间。生成器的目标是最小化生成样本与真实样本之间的差异,通常使用生成样本与真实样本之间的损失函数来衡量。考虑一下,GAN到底生成的是什么呢?
2023-12-10 19:00:11
182
1
原创 机器学习(15)文献阅读+复习GAN
基于深度学习的去雾方法在图像去雾领域取得了显着进展,但大多数方法仍然存在去雾不完全和颜色失真的问题。为了解决这个问题,提出了一种基于多块和特征融合的图像去雾网络。该网络由预处理、特征提取、特征融合和后处理模块组成。预处理模块可以自适应地从补丁中提取图像特征信息。特征提取模块使用级联密集残差块来提取深层特征信息。特征融合模块对特征图进行通道加权和像素加权,实现主要特征的融合。后处理模块对融合后的特征图进行非线性映射,得到去雾图像。
2023-12-03 19:30:05
105
1
转载 机器学习(十四)生成对抗网络(GAN)
生成对抗网络其实是两个网络的组合:生成网络(Generator)负责生成模拟数据;判别网络Discriminator)负责判断输入的数据是真实的还是生成的。生成网络要不断优化自己生成的数据让判别网络判断不出来,判别网络也要优化自己让自己判断得更准确。二者关系形成对抗,因此叫对抗网络。 生成对抗网络(GAN, Generative adversarial network)自从2014年被Ian Goodfellow提出以来,掀起来了一股研究热潮。
2023-11-26 18:52:20
332
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人