
计算机视觉
文章平均质量分 86
普通网友
这个作者很懒,什么都没留下…
展开
-
Meta强势推出分割一切新工作的视觉大模型!SAM2对比YOLOV8
SAM 2 是 Meta 的Segment Anything Model (SAM) 的后续产品,是一款专为图像和视频中的综合对象分割而设计的尖端工具。它采用统一、可提示的模型架构,支持实时处理和零镜头泛化,在处理复杂的视觉数据方面表现出色。原创 2024-08-26 17:32:12 · 1688 阅读 · 0 评论 -
SAM 2最新应用落地!牛津大学团队发布Medical SAM 2,刷新医学图像分割SOTA榜
2023 年 4 月,Meta 公司发布了 Segment Anything Model (SAM),号称能够「分割一切」,犹如一颗重磅炸弹震荡了整个计算机视觉领域,甚至被很多人看作是颠覆传统 CV 任务的研究。时隔 1 年多,可想而知,强大的实力使得业界开始加速探索 SAM 在不同领域的应用,尤其是在医学图像分割领域,不少实验室和学术研究团队已经将其视为医学图像分割模型的不二之选。所谓医学图像分割,就是将医学图像中具有特殊含义的部分分割出来,并提取相关特征,进而为临床诊断、病理学研究等提供可靠依据。原创 2024-08-26 17:15:31 · 1950 阅读 · 0 评论 -
浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余
然后构造图像金字塔并从金字塔顶层依次往下迭代,在每次迭代中,输入当前尺度被选择的 patch,Encoder1 用于预测每个 patch 对应的下一个尺度的细粒度 patch 的选择情况,特别地,顶层图像的 patch 全部被选上,以保证模型能获得粗粒度的全图信息。如左图所示,随着尺度的增加,细粒度的图像特征被加入,模型精度逐步提升。另外,根据由被选择的 patch 重建的图像,可以看出模型对于背景区域只关注了粗尺度的信息,对于相关的前景区域,模型能够关注细粒度的细节信息。基于以上分析,我们提出了。原创 2024-08-21 16:43:36 · 748 阅读 · 0 评论 -
Nature子刊,上智院、复旦、中国气象局研发次季节AI大模型「伏羲」,突破「可预报性沙漠」
它能够改变气候科学的研究范式,突破传统模式的局限性,实现更精细的空间分辨率和更长时间尺度的精准气候风险预报。目前,「伏羲」次季节气候预测大模型仍有提升空间,例如其空间分辨率为 1.5 度,与 ECMWF 次季节模式的 36 公里的空间分辨率相比仍相对粗糙,目前预报的是日均气温、缺少日最高温度和日最低温度等。「伏羲」次季节气候预测大模型有效提升了对 MJO 的预测技巧,将 MJO 的预测技巧达到了 36 天,大幅超过了 ECMWF 的 S2S 模式的 30 天时长。原创 2024-08-19 15:30:00 · 745 阅读 · 0 评论 -
登Nature子刊|北航、清华团队用AI在多空间组学平台上高分辨率表征组织,比原始分辨率高36倍
通过对 Visium、Xenium、spatial-CUT&Tag、slide-DNA/RNA-seq 等多种空间组学平台的综合评估,soScope 提高了识别具有生物学意义的肠道和肾脏结构的性能,揭示了无法以原始分辨率解决的胚胎心脏结构,并纠正了测序和样本处理中出现的样本和技术偏差。在这里,北航和清华的研究团队引入了空间组学范围(soScope),这是一个完全生成的框架,它模拟来自不同空间组学技术的点级概况的生成过程,旨在提高它们的空间分辨率和数据质量。组织是由具有不同分子状态和空间组织的细胞构成的。原创 2024-08-16 16:11:33 · 906 阅读 · 0 评论 -
ECCV 2024 | 南洋理工三维数字人生成新范式:结构扩散模型,用于 3D 人类生成
StructLDM 是一个从图像、视频中学习的前馈三维生成模型(Feedforward 3D Generative Model),相比于已有 3D GAN 方法可生成高质量、多样化且视角一致的三维数字人,并支持不同层级的可控生成与编辑功能,如局部服装编辑、三维虚拟试衣等部位感知的编辑任务,且不依赖于特定的服装类型或遮罩条件,具有较高的适用性。值得注意的是,StructLDM 支持不同级别的可控 3D 人体生成和编辑,包括姿势/视图/形状控制,以及高级任务,包括构图生成、部分感知服装编辑、3D 虚拟试穿等。原创 2024-08-15 17:00:50 · 1151 阅读 · 0 评论 -
在计算机视觉领域,有哪些新兴技术值得关注?扩散模型、自监督学习、弱监督学习、视觉语言模型、NeRF编辑技术
扩散模型可以用于修复受损或有缺陷的图像,通过逐步去除噪声并恢复图像的原始内容。:扩散模型能够将低分辨率图像重建为高分辨率图像,同时保持图像的细节和纹理。:扩散模型可以执行图像翻译任务,即将图像从一个风格转换到另一个风格,或者对图像进行编辑,如内容替换等。:扩散模型可以辅助进行图像分割和目标检测任务,提供更加精准的分割边界和检测框。:扩散模型在无条件图像生成方面展现出了优异的性能,能够生成高质量、多样化的图像。:扩散模型可以根据文本描述生成相应的图像,这在创意设计和虚拟内容生成中非常有用。原创 2024-08-07 11:57:50 · 1075 阅读 · 0 评论 -
现在投身于计算机视觉是否明智?新兴技术
投身于计算机视觉领域目前被认为是一个明智的选择。计算机视觉作为人工智能的一个重要分支,其技术的应用范围广泛,包括但不限于工业自动化、医疗影像分析、安全监控、智能交通和游戏开发等领域。随着技术的不断进步,尤其是深度学习技术的突破,计算机视觉在多个视觉任务上已经超越了人类,市场对计算机视觉专业人才的需求持续增长。当前,计算机视觉领域的就业前景非常广阔,市场上针对机器视觉检测的专业和课程相对较少,导致相关领域方面的人才短缺。此外,技术的快速更新和应用领域的扩展也为从业者提供了新的技能要求和发展方向。原创 2024-08-07 11:49:06 · 1229 阅读 · 0 评论 -
全面解读视觉大模型-视觉Transformer原理、应用、优缺点以及未来发展趋势
视觉大模型,也称为视觉Transformer,是近年来计算机视觉领域的一大突破。这种模型在图像识别、目标检测、语义分割等任务中表现出色,成为深度学习领域的研究热点。本文将通过万字长文,对视觉大模型进行全面解读,包括其原理、应用、优缺点以及未来发展趋势。原创 2024-07-03 13:43:16 · 8263 阅读 · 0 评论 -
2024年的顶级计算机视觉机遇和挑战
计算机视觉(CV)是人工智能的一部分,它使计算机能够分析和理解视觉信息,包括图像和视频。它超越了简单的“看到”图像,而是教会计算机根据它们看到的东西做出决定。人工智能驱动的计算机视觉市场正经历快速增长,从2023年的220亿美元增长到预期的2023年的220亿美元500亿美元到2030年,2024-2030年CAGR将达到21.4%。这项技术模仿人类的视觉,但使用复杂的算法、大量数据和相机工作得更快。计算机视觉系统可以快速分析大面积上的数千种物品,或者检测人眼看不见的微小缺陷。原创 2024-06-21 13:54:04 · 1397 阅读 · 0 评论 -
中科院版「分割一切」Fast SAM模型 | 精度相当,速度提升50倍!目前GitHub6.9K+星
比Meta的「分割一切模型」(SAM)更快的图像分割工具,来了!中科院团队开源了FastSAM模型,能以50倍的速度达到与原始SAM相近的效果,并实现25FPS的实时推理。该成果在Github已经获得6.9K+次星标,在Twitter、PaperswithCode等平台也受到了广泛关注。原创 2024-04-30 16:47:57 · 3064 阅读 · 0 评论 -
YOLO-NAS | 新一代目标检测王者,性能比yolov8,yolov7更胜一筹!
综上所述,YOLO-NAS的训练数据集需要是格式正确、内容丰富、标注详尽的YOLO模型所支持的格式。这样的数据集不仅能为模型提供充分的训练信息,还能帮助模型在面对实际问题时展现出更好的性能和适应性。在准备数据集时,需要注意数据的质量和多样性,确保数据集能够满足YOLO-NAS训练的要求,从而让模型在实际应用中发挥出最佳的效果。原创 2024-04-30 16:30:23 · 1047 阅读 · 0 评论 -
YOLO-World :实时开放词汇对象检测,前沿开集目标检测器!YOLOV8/计算机视觉/深度学习
YOLO-World的实时开放词汇检测能力和优秀的性能使其成为了一个强大的工具,可用于各种需要快速准确对象检测的场景。YOLO在标准基准测试中,World 的速度和效率超过了现有的开放词汇检测器,包括 MDETR 和 GLIP 系列,展示了YOLOv8 在单个 NVIDIA V100 GPU 上的卓越性能。本节详细介绍了可用的模型及其特定的预训练权重、支持的任务以及与各种运行模式(如推理、验证、训练和导出)的兼容性,支持的模式用 ✅ 表示,不支持的模式用 ❌ 表示。可用型号、支持的任务和运行模式。原创 2024-04-08 14:50:56 · 2855 阅读 · 0 评论 -
打造你的专属大模型,学完即可使用上岗!技术人的大模型课程(人工智能/机器学习/深度学习)
在教学方面,Daniel指导的AI研究课题广泛且深入,包括图像分割、医疗报告生成、三维运动生成、多模态对话生成、视频理解及评论生成等,这些课题跨越计算机视觉、自然语言处理和多模态等多个研究方向。他在顶尖学术会议和期刊上发表了15篇以上的论文,包括但不限于ACM MM、CIKM、AAAI、ICLR和TOSEM等,并担任SOSP、ACL、EMNLP、MSR、ICSE、ICSME等多个会议的程序委员会成员或审稿人。4、社区支持与行业网络:加入我们,你将有机会接触行业大咖,参与热点话题的分享,拓宽你的职业网络。原创 2024-04-08 14:25:36 · 1268 阅读 · 0 评论 -
ICLR 2024 |冻结住的CLIP仍可作为教师模型!
不难发现,在UCF-101与HMDB-51数据集上,fine-tune模型的性能比Frozen CLIP更强,但是在Kinetics-600数据集上,fine-tune模型的实验性能却比frozen CLIP要更弱。而在与训练数据不那么相似的测试类别上,模型需要更多地依赖预训练的泛化性知识,但这些知识已经在fine-tune的过程中被逐渐抹去了(典型的灾难遗忘问题(catastrophic forgetting issue)),因此fine-tune模型性能更差。我们在两种场景下都达到了最优的识别性能。原创 2024-03-27 09:42:34 · 996 阅读 · 0 评论 -
自动驾驶方向Autonomous Driving的优质论文及其代码!PC-NeRF、3D三维重建、AoSRNet、无人驾驶技术
与精度高但重复计算的传统以代理为中心的方法以及精度和通用性受到影响的以场景为中心的方法不同,SIMPL 为所有相关交通参与者提供实时、准确的运动预测。为了提高准确性和推理速度,我们提出了一种紧凑而高效的全局特征融合模块,该模块以对称方式执行定向消息传递,使网络能够在单次前馈传递中预测所有道路使用者的未来运动,并减轻 视点移动导致的精度损失。非均匀成像介质中的光散射和衰减或光强度不一致会导致收集到的图像对比度不足和颜色失真,从而限制视觉驱动的智慧城市、自动驾驶汽车和智能机器人等领域的发展。原创 2024-03-15 14:02:08 · 886 阅读 · 0 评论 -
医学图像分割方向优质的论文及其代码【Medical Image Segmentation】UNet、transformer、计算机视觉
所提出的 WSL 策略融合了三种不同的架构但相同的对称编码器-解码器网络:用于详细局部特征提取的基于 CNN 的 UNet、用于全面全局上下文理解的基于 Swin Transformer 的 SwinUNet 以及用于高效长时长的基于 VMamba 的 Mamba-UNet。Weak-Mamba-UNet 的有效性在公开的 MRI 心脏分割数据集上进行了验证,该数据集具有经过处理的涂鸦注释,其性能超过了仅使用 UNet 或 SwinUNet 的类似 WSL 框架的性能。不方便下载的,我已整理好。原创 2024-03-13 14:47:17 · 1673 阅读 · 0 评论 -
2023年最具影响力的 10 篇AI论文(Llama2、SAM、LLM、 Pythia、QLoRA、BloombergGPT、DPO、Mistral 7B、Orca 2、transformer)
一、Pythia — 大模型该如何训练?2023 一年又过去,这一年,AI 圈子以一种“狂飙突进”的速度飞速发展,哪怕在这个领域深耕多年的学者们也开始感叹“从没有见过哪个领域在哪一年如同 AI 领域在 2023 年这样如此飞速的发展与不断的进化”,毫无疑问,这一年 AI,尤其是大模型的爆发将会深刻影响未来我们生活的方方面面。原创 2024-01-16 17:19:29 · 1864 阅读 · 0 评论 -
研究生话题:要基于Pytorch做深度学习,如何快速提升代码能力? --人工智能/深度学习
在深度学习和计算机视觉领域,AlexNet、VGG、ResNet、Yolo和SSD都是极为重要的模型,各自代表了图像识别和对象检测领域的重要进展。为了深入理解这些模型的工作原理和应用,手写代码并亲自进行数据标记和训练是一个非常有效的学习方法。”, 其实就是一份非常有意思的 AI 大模型的介绍性入门课程,如果认真学了,你会学会关于大模型的相关知识,加薪、换工作大概率是个加分项。:这是一个强大的科学计算库,提供了大量的数学函数处理以及对大型多维数组和矩阵的支持,是深度学习中进行数学运算的基石。原创 2024-01-15 17:07:11 · 1385 阅读 · 1 评论 -
放养式图像处理方向研究生如何学习?
学习人工智能方向的语言以及框架,如TensorFlow、PyTorch等,API文档也是个不错的选择,至于网上的哪些教程,网上都能找到,没必要浪费钱了。通过网上课程、教材或教程学习图像处理的基础知识,包括数字图像处理、信号处理、线性代数和统计学等,以及一些相关的机器学习、深度学习专业知识。确定你在图像处理领域(或者说计算机视觉)的具体兴趣和目标,例如图像分割、目标检测等,最好是能够跟导师的研究方向挂钩。创建个人网站或在线作品集,展示你的项目和技能,知乎、博客、github都可。原创 2024-01-12 21:00:00 · 791 阅读 · 0 评论 -
2023最具前景的研究方向之一:人工智能+计算机视觉+3D视觉
计算机视觉是人工智能领域的一个重要组成部分,它涉及使计算机能够理解和解释图像和视频数据。通过机器学习和深度学习技术,计算机视觉能够自动地完成图像分类、目标检测、人脸识别等任务,甚至超越了人类的能力。原创 2023-10-27 17:23:06 · 1085 阅读 · 0 评论 -
AI+无人机方向!可以写的专业居然有这么多!人工智能毕业论文计算机视觉
特别是对于工科类的小伙伴们来说,AI无人机+专业学科,已经成为了毕业论文方向的重要选择之一,AI无人机,也是论文发表的热门选题,特别电子信息、计算机科学与技术、核电技术与控制工程、电子信息、流体力学、电气工程、船舶电子电器工程、材料、交通信息工程与控制、航空航天等专业的小伙伴来说,论文发表方向,几乎与AI“强绑定”。原创 2023-08-17 14:43:30 · 507 阅读 · 0 评论 -
CV不存在了?Meta推出最新AI模型SAM,计算机视觉领域的ChatGPT
Facebook母公司Meta在推特宣布推出SAM模型(Segment Anything Model)并开源原创 2023-04-11 14:47:13 · 666 阅读 · 0 评论