- 博客(39)
- 收藏
- 关注
原创 LLM:decoder-only 思考
本文探讨了decoder-only模型成为主流架构的原因及其关键技术。重点分析了KV-cache机制如何通过缓存历史token的Key/Value显著提升推理效率。对比decoder-only与encoder-decoder架构,前者更适合自回归生成任务,后者更擅长并行处理。文章还区分了Causal LM和Prefix LM两种训练范式的attention mask差异,指出Prefix LM能更好地建模prompt-response关系。尽管decoder-only生态已趋成熟,但其他架构仍有探索空间,只
2025-05-29 14:53:14
1055
原创 LLM: 多模态LLM动态分辨率
本文分析了三种常见的VLLM(视觉语言模型)动态分辨率处理策略:Qwen VL、InternVL和Deepseek VL2。Qwen VL通过智能调整图像尺寸,确保其为28的倍数,同时保持宽高比,避免失真,并通过调整最大像素值来优化显存使用。InternVL则预设多种图像比例,选择最接近的比例进行resize,并按448的倍数进行patch切分,生成缩略图。Deepseek VL2借鉴了InternVL的思路,采用动态平铺策略处理不同长宽比的高分辨率图像,结合SigLIP和SAM-B进行特征提取。总体而言,
2025-05-20 14:37:32
640
原创 LLM: 探索LLM视觉缺陷
在使用多模态大模型时候是否会发现大模型对图像的细节理解很差,比如让他数数,让他识别理解复杂图像,VLLM给出的答案往往有些不尽人意。其实本质来讲还是幻觉问题!!!
2025-04-15 20:43:51
584
原创 CV method: YOLOv12(v11 进化!)
YOLOv12 来了,同样由ultralytics公司出品(这更新速度可是够快的了)1) 简单有效的区域注意力机制(area-attention)2)高效的聚合网络R-ELANYOLOv12总体来说改动不大,主要还是结构上的创新,其实注意力用在目标检测早就不是什么新鲜事了,主要YOLO12做到了使用它的同时依然保持实时目标检测(虽然感觉也没有太发挥注意力机制的潜力)。不过也是一次很棒的尝试,感觉YOLOv13很快就要来了,hhhhh。
2025-03-25 15:52:42
667
原创 LLM:强化学习DPO实现
Deepseek R1把强化学习又提升一个高度,最近也在尝试学习强化学习,在此记录一下DPO的学习过程与实现过程总的来说DPO是一种简单高效的强化学习方法,DPO 直接优化策略,使其输出结果更符合人类或模型的偏好,不再依赖于显式的奖励建模或复杂的策略梯度估计,训练更简单稳定。其主要思想是通过最大化策略对“更优偏好结果”与“较差结果”之间的概率比,从而优化策略。
2025-03-11 17:51:00
886
原创 LLM:BERT or BART 之BART
这次轮到BART了(在了解这两个之前还真分不太清)BERT解读可以参考我之前的文章LLM:BERT or BART 之BERTBART(Bidirectional and Auto-Regressive Transformers)是一种用于文本生成、序列到序列转换和文本填充的深度学习模型,由 Facebook AI 在 2019 年提出。
2025-02-14 16:33:49
1318
原创 LLM:BERT or BART 之BERT
NLP选手对这两个应该很熟,最近因为多模态的发展,作为cv选手还是很有必要了解一下这两个模型。这两个模型也算是LLM的先驱了。本文将对BERT做一个基本的介绍BERT是一个encoder-only模型,为NLU任务开发,作为预训练模型可应用于多种语义理解任务上。我觉得其预训练方式绝对是里程碑式的操作,甚至CV后面的MAE也是借鉴它的想法本文对不熟悉BERT的人做个简单介绍,想了解BERT的代码实现和更多应用可以参考原文和开源代码。BERT在NLP领域有着变革性的地位,为后续的研究提供了新的思路!
2025-01-26 11:13:24
1214
原创 CV method: YOLOv11 (YOLOv8的进化之旅)
YOLO已经出到v11,感觉这两年yolo的更新速度有点频繁啊!本文主要分析一下v11的核心改动!v11与v8相同出自ultralytics,不过v10也是基于v8的代码架构构建的。这一次YOLOv11的变化相对于ultralytics公司的上一代作品YOLOv8变化不是很大,主要变化在于模型的结构设计。2)引入C2PSA;3)head修改;4)模型深度宽度变化;模型架构如下YOLO v11 终于引入了MHA,也算是一个重要里程碑了,新的结构设计也为YOLO未来发展奠定基础。
2025-01-15 18:55:17
1221
原创 AIGC:生成图像动力学
让静态的风景图能够动起来真的很有意思,不得不说CVPR2024 best paper实质名归,创意十足的一篇文章!!!自然界中的场景总是处于运动状态,如风、水流、呼吸等自然节律产生的振动。虽然人类可以轻松地解释或想象场景中的运动,但训练模型来学习或生成真实的场景运动却极其困难。在现实世界中观察到的运动是场景底层物理动力学的结果,例如,施加在物体上的力根据它们独特的物理属性(如质量、弹性等)做出响应,这些量很难大规模测量和捕捉。文章实现从单个静止图像生成逼真的长时间像素轨迹。
2024-12-26 20:09:31
1059
原创 LLM: AI Mathematical Olympiad (下)
i = idxbreaki += 1整个AI Mathematical Olympiad 项目大概就这样,其实真正核心的point就是数据的丰富多样性,在这个数据驱动的时代,丰富的数据比起模型设计更加重要。作者收集数据的想法和推理的策略都很值得学习。这个推理策略还是很受启发的。
2024-11-22 18:51:04
960
1
原创 LLM: AI Mathematical Olympiad (上)
数学推理能力是人工智能的一个重要里程碑。数学推理是解决许多复杂问题的基础,从工程奇迹到复杂的金融模型。然而,目前人工智能在这一领域的能力有限。比赛包括110个类似中级高中数学挑战的问题。这些问题的Gemma 7B基准在公共和私人测试集中的得分是3/50。本次竞赛使用了一个由国际问题解决者团队创建的包含110个新颖数学问题的数据集,认识到需要一个透明和公平的评估框架。该数据集包含一系列难度等级,从简单的算术到代数思维和几何推理。
2024-11-14 20:44:30
2511
原创 多模态:MLLM模态对齐方法
目前多模态模型席卷AI领域,最近也在做一些对齐的工作,记录一下目前主流的模态对齐方法。想详细了解的也可以看看下面的综述论文。最近的代表性MLLM分为四类:(1)将LLM作为多模态特征的直接处理器;(2)利用多模态感知器的MLLM来处理多模态特征;(3)将LLM作为处理多模态特征的工具;(4)在特定格式的数据上学习,赋予LLM适应额外模态的能力本文主要介绍目前几个完成交互的经典方法。
2024-10-14 14:45:14
2888
原创 多模态:Florence2论文详解
Florence-2已经放出一段时间了,是一种新型的计算机视觉基础模型的统一、基于提示表征适用各种视觉任务或视觉语言任务。Florence-2设计是根据文本提示作为任务指令并以文本形式生成描述的结果,无论是描述、目标检测、grounding还是分割。最近在尝试用florence-2用于自己的任务,写个博客详细了解下florence2的具体结构和策略。多模态的出现打通了NLP和CV之间的壁垒,,先进模型展现出了对跨领域和任务的广泛知识的适应能力,只需简单的指令即可。
2024-09-29 14:08:50
1704
1
原创 多模态:DetCLIPv3解析
目前多模态目标检测逐渐成为检测领域的主要发力方向,从最初的检测大模型grounding dino, 到YOLO-world, 本文记录最新的多模态目标检测论文DetCLIPv3现有的开放词汇表目标检测器(OVD)通常需要用户提供预定义的类别集,这在实际应用场景中限制了它们的使用。与现有方法不同,人类认知能够以分层的方式理解不同粒度的对象,这在当前的OVD系统中尚未实现。为了解决这些限制,作者提出了 DetCLIPv3,这是一种新型的目标检测器,能够扩展开放词汇表目标检测的范围。
2024-09-04 15:03:15
1359
1
原创 多模态:Seed-story故事生成
伴随图像生成和文本生成的迅速发展,多模态故事生成以交错的方式生成叙事文本和生动形象为特征,已成为一种有价值的故事生成方式具有广泛应用的实际任务。该任务的主要难点在于文本和图像之间复杂的相互作用,以及生成连贯的且上下文相关的长序列的能力。github:文章提出Seed-story,一种利用多模态大语言模型生成扩展的多模态故事。
2024-08-12 11:22:41
1580
原创 CV Method:YOLOv10 vs YOLOv8
YOLOv10已经开源一段时间了,经过我实际使用测试,也确实性能更好一些,YOLOv10基于v8代码框架改进,so 之前v8可用的大部分trick在v10上可直接代码移植过去(我自己尝试了下,大部分code不需要改动,直接实现装备继承)。本文主要比较一下v10 和 v8之间的区别和改进。yolov10最重要的point就是它的 NMS-free 检测功能,我们知道NMS是检测发展中重要的一环,yolov10通过one-to-onehead实现了不需要NFS的检测模型,这可以有效提升模型的执行速度。
2024-07-24 16:58:42
3110
原创 多模态:Nougat详解
科学知识主要存储在书籍和科学期刊中,通常以PDF的形式。然而PDF格式会导致语义信息的损失,特别是对于数学表达式。文章提出Nougat,一种视觉transformer模型,它执行OCR任务,用于将科学文档处理成标记语言。Nougat尝试用一个端到端的方式来实现过去无数小模型+策略配合的结果。推理速度慢。虽然过去的pipeline设计多个模型,但每个模型都非常轻量化,组合起来的参数量甚至不到Nougat的1/10。定制化难。数据集构建成本高。(但是nougat的数据工程确实也很惊艳,非常值得学习!!
2024-07-09 18:34:22
1627
原创 多模态-大模型:MLLM综述(适用初学)
paper近年来,以GPT-4V为代表的多模态大语言模型(Multimodal Large Language Model, MLLM)成为一个新兴的研究热点。它使用强大的大型语言模型(llm)作为大脑来执行多模态任务。其表现出令人惊讶的突发能力,如基于图像和无ocr的数学推理编写故事,在传统的多模态方法中很少见。文章跟踪并总结MLMM的最新进展。论文讨论关键技术和应用,包括多模态指令调优(M-IT)、多模态上下文学习(M-ICL)、多模态思维链(M-CoT)和LLM辅助视觉推理(LAVR)。
2024-06-24 17:49:42
2868
原创 CV Method:超全学习率策略总结
在深度学习中,学习率对模型的训练过程起着很重要的作用,影响着损失函数的变化速度。学习率越低,可以确保不会错过任何局部最小值,但是也意味着将花费更长的训练时间来进行收敛,特别是陷入局部最优的情况下。学习率越高,就容易错过全局最小值导致结果不收敛。一般来说,batch-size的大小一般与学习率的大小成正比。batch-size越大一般意味着算法收敛方向的置信度越大,也可以选择较大的学习率来加快收敛速度。而小的batch-size规律性较差,需要小的学习率保证不出错。
2024-06-06 17:26:43
1092
原创 CV Method:经典CNN Backbone总结
Backbone作为一切深度学习任务的基础,不论是理论还是实际应用都有重要的意义,本文针对经典Backbone进行总结,这些Backbone也是面试常见的问题,卷积网络主要以ResNet和其各种变体为主。本文主要介绍这些年比较经典的backbone的一些优势和特点,目前主流的backbone都以transformer为框架进行迭代,不过CNN的backbone是基础中的基础,能很好的帮助初学者理解相关理论和设计理念,也是必须要掌握的技术。
2024-05-30 17:36:13
1281
原创 图像处理:文档矫正DocTr++
这段时间一直在搞文档矫正相关实验,阅读了大量相关论文,今天来记录一篇目前比较经典,实用性较好的方法,doctr++Doctr++除了提出一种新的architecture外,most importantly,提出了一种新的数据处理方式,解决了以前文档矫正只能处理带有边界信息的完整文档,文章通过数据处理定义了三种类型的训练数据。图1展示了三类常见的形变文档图像:(a) 包含完整文档边界,(b) 包含部分文档边界,(c ) 不包含文档边界。
2024-05-21 11:22:24
1279
1
原创 图像处理:图像噪声添加
本文主要介绍几种添加图像噪声的方法,用于数据增强等操作。目前主流的噪声添加就这么几种,最常用的是高斯和泊松,在数据增强中还是有很大帮助的。
2024-05-08 16:40:58
7430
2
原创 CV method:最新Backbone---TransNeXt
近几年,Vision Transformer(ViT)已成为各种CV任务的热门Backbone架构,也算是Transformer在CV领域的经典架构。注意力机制可以有效利用全局信息,获取每个像素间的相关性。但也由于这一特性,其平方复杂度和高内存消耗而面临挑战,这限制了其在高分辨率图像特征上的应用。作者基于生物模仿视杆细胞视觉设计的Token混合器聚合注意力和一种具有门控通道注意力的通道混合器卷积GLU。另外作者也在新结构中设计了很多最新技术,将它们结合起来,提出TransNeXt。
2024-04-17 11:38:54
1660
原创 图像生成:SD lora加载代码详解与实现
SD中lora的加载相信都不陌生,但是大家大多数都是利用SD webUI加载lora,本文主要梳理一下SD webUI中lora加载的代码逻辑。关于lora的原理,可以参考我之前的博客——图像生成:SD LoRA模型详解SD model结构一般分为几个部分,如下:SD webui使用pytorch lightning搭建,了解pl的同学可能知道,模型的相关配置一般都写在yaml文件中,因此其实可以根据yaml文件来判断模型的基本结构params:params:ddconfig:out_ch: 3。
2024-04-02 13:59:26
3143
3
原创 多模态:Vary-toy
Vary的提出让大模型在OCR相关任务的能力有了很大突破,通过提出额外的视觉词汇表模块来弥补单一CLIP编码能力的不足,详情可参考我之前的文章——多模态:Vary。最近Vary的团队开发了一个更小版本的Vary模型——1.8B Vary-toy,与Vary相比,Vary-toy除了小之外,还优化了新视觉词表。解决了原Vary只用新视觉词表做pdf ocr的网络容量浪费,以及吃不到SAM预训练优势的问题。
2024-03-19 15:00:16
1355
原创 图像处理:文档图像矫正DocReal
文档图像矫正在图像处理领域属于相对冷门但是很有用的一个任务,这个任务的相关文章还是比较少的,DocReal是2024 WACV的最新文档矫正文章,结合了之前一些技术的亮点,还是值得一看的。DocReal目前code暂未开源这篇文章建议看两个文章作为背景会更容易理解:图像处理:文档图像矫正DDCP文档图像矫正是计算机视觉中的一项重要任务,具有许多实际应用。控制点法(如DDCP)由于其简单高效而备受关注。然而,由于背景噪声和多种变形类型,不准确的控制点预测可能导致不令人满意的性能。
2024-03-08 17:40:52
2147
原创 AIGC应用:Face Editor插件使用(面部优化)
之前的文章讲了Stable diffusion的基本使用技巧——SD基本使用技巧,接下来主要介绍一下相关插件的使用。本文介绍Face Editor插件的使用和内部理论逻辑,该插件能够很大程度缓解面部崩坏的问题。感兴趣的同学可以仔细看一下整个pipeline,作者的思路还是挺有意思的。Face Editor插件效果还是很好的,我自己使用的情况还是很好,尤其对于生成的全身图像,脸崩的情况比较多,修复后还是很好的!!!
2024-02-27 15:21:14
1425
原创 多模态:YOLO-World详解
YOLO系列检测器已将自己确立为高效实用的工具。然而,它们依赖于预定义和训练的物体类别,这在开放场景中限制了它们的适用性。针对这一限制,作者引入了YOLO-World,这是一种创新的方法,通过视觉语言建模和在大型数据集上的预训练,将YOLO与开集检测能力相结合。具体来说,作者提出了一种新的可重参化的视觉语言路径聚合网络(RepVL-PAN)和区域文本对比损失,以促进视觉和语言信息之间的交互。作者的方法在以零样本方式检测具有很好的效果。
2024-02-26 18:47:45
8205
3
原创 AIGC应用:Stable diffusion webui基本使用技巧
Stable diffusion相信很多技术爱好者都了解,并且也尝试用过,目前在各路开源大佬的支持下,Stable diffusion的生图piepline越来越成熟,同时在各种新技术的加持下,可玩性越来越高。相比我以往的理论性文章,该系列文章主要讲解一下SD web ui的具体使用,以及一些拓展功能的使用,同时对自己应用SD有一个记录。SD webui目前的插件越来越多,玩法也越来越多,后面我会继续更新相关使用技巧和内容。
2024-02-20 16:27:26
1862
1
原创 多模态:CLIP详解
2.8: 首先为今天还在努力学习的人们献上🎆CLIP目前无论在CV领域还是NLP领域都是人尽皆知的,该模型的发布直接带动了整个多模态领域的飞速发展。Open AI提出Contrastive Language-Image Pre-training (CLIP),突破了文本-图像之间的限制。CLIP使用大规模的文本-图像配对预训练,并且可以直接迁移到Imagenet上,完全不需要图像标签微调即可实现zero-shot分类。
2024-02-08 13:07:12
7526
原创 多模态:图像分割SAM
图像生成领域爆发性的技术增长让传统计算机视觉技术再次崛起,如目标检测,图像分割,这些技术引入图像生成相关技术的pipeline中,可以设计出更多创新性的算法。而这些基础技术也有了一些大模型,如目标检测的GroundingDINO,图像分割的SAM(segment anything model)。本文主要对SAM进行介绍。SAM是一个交互式分割模型,可以根据提示词对目标进行分割。可有效解决通常自然图像的下游分割任务。整体上来说,SAM的模型结构说不上十分复杂,但其令人竟然的数据工程和训练方式实在让人赞叹。
2024-02-01 18:10:32
2972
3
原创 图像处理:文档图像矫正DDCP
文档图像矫正简单来说就是由于纸张的物理变形、拍摄环境和相机位置,相机捕获的文档图像经常会出现扭曲和背景问题。上述因素将显着增加信息提取和内容分析的难度。为了减少文档图像处理中失真的影响而采取的措施。本文要介绍的方法为。github:以往的研究将几何校正任务视为密集网格预测问题,将二维图像作为输入,输出一个正向映射(每个网格表示出扭曲输出图像中像素点的坐标,像素点对应出扭曲输入图像中的像素点)或反向映射(每个网格表示出扭曲输入图像中像素点的坐标)。
2024-01-23 20:54:59
2322
原创 多模态:Vary
目前大型视觉语言模型(LVLMs)在视觉处理方面通常使用CLIP来完成的。通过CLIP对图像进行编码,可以涵盖大多数常见的视觉语言任务。然而,对于一些需要密集和细粒度视觉感知的特殊视觉任务,例如文档级OCR或图表理解,尤其是在非英语场景中,CLIP风格的词汇在标记视觉知识方面可能会遇到效率低的问题,甚至会出现词汇外问题。因此,文章提出了一种有效扩展LVLMs视觉词汇的方法Vary。
2024-01-15 20:38:31
1801
原创 图像处理:空白patch过滤(空白图判断)
在进行训练相关任务时,有时会对图像进行裁决或取patch的操作,进行这种操作后,不可避免的会引入一些空白patch,或内容量很少的图像,这种图像通常会干扰模型的训练,因此最好过滤掉。本文提供了3种方法对图像进行过滤。本文提供了3种方法对图像进行过滤。本人比较喜欢用第三种,能够有效过滤掉一些没有任何意义的图像。
2024-01-09 16:04:05
889
原创 图像生成:Anydoor
你听说过任意门吗?通过任意门可以将一个物体转送到另一个空间中。其实在图像中,可以通过PS技术来实现这种效果,但是PS需要精细复杂的调整,最新提出的Anydoor算法能够无脑实现这种操作。它可以完成零样本图像自定义相关任务,诸如换装,移动物体等操作。随着扩散模型的兴起,图像生成领域出现了多种玩法,对于图像编辑来说,ControlNet已经能够根据mask和prompt在原图像的某些区域进行生图,但是这种生图只能针对不在训练数据内的新图象,泛化性较差。
2023-12-27 17:49:29
1220
3
原创 图像生成:GRL
伴随生成式模型的崛起,图像恢复超分也逐渐成为图生图相关任务pipeline中重要的一环。比如在Stable Diffusion Webui中集成的SwinIR和ESRGAN。本文介绍最新的图像恢复算法GRL(Efficient and Explicit Modelling of Image Hierarchies for Image Restoration)。文章提出一种全新的机制,在全局、区域和局部范围内高效、明确地对图像层次结构进行建模,从而完成图像恢复。文章首先分析了自然图像的两个重要属性 ——
2023-12-20 18:07:59
1376
原创 图像处理:动态模糊
动态模糊在实际拍照场景中出现较多,主要造成原因是在拍摄瞬间相机的突然抖动形成的,在数据增强方案中可以通过模拟这种退化来使模型适用于这种图片(在该类图片中产生更好的效果)。本文分别提供了用opencv,torch,numpy实现的code。
2023-12-12 16:09:45
1081
原创 图像生成:SD LoRA模型详解
相信在SD的生图过程中,我们对LoRA都不陌生,但是它的模型文件是什么样子的,保存的东西是什么,如何起作用的,接下来将详细探讨一下。
2023-11-29 20:08:05
5042
3
原创 图像生成:Consistency Models(一致性模型)
扩散模型在图像、音频和视频生成方面取得了重大突破,但它们依赖于迭代生成过程,导致采样速度较慢,限制了其实时应用的潜力。为了克服这一限制,我们提出了一致性模型,这是一种新的生成模型家族,可以在没有对抗性训练的情况下实现高样本质量。它们在设计上支持快速的一步生成,同时仍然允许少步采样以换取样本质量的计算。它们还支持零样本数据编辑,如图像修补、着色和超分辨率,而不需要对这些任务进行明确的训练。在SD中,
2023-11-28 18:12:50
3598
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人