- 博客(34)
- 收藏
- 关注

原创 综述 | YOLOv10的起源:YOLO系列的十年全面回顾【YOLOv1-YOLOv10】
在本文中,探讨了从初代YOLOv1到最新的YOLOv10模型的发展历程。同时预测,YOLO的发展将向多模态数据处理转变,利用大语言模型和自然语言处理的进步来增强目标检测系统。
2024-08-30 17:42:58
2603
原创 一文搞懂RAG技术范式演变及Agentic RAG:未来AI应用的基石
Agentic RAG,它就像给AI装上了“智能小助手”,能够实时检索最新数据,还能根据复杂任务灵活调整策略,让回答更准确、更贴近我们的需求!
2025-04-11 17:51:19
627
原创 开源项目 | olmOCR:解锁PDF文本的“黑科技”,让语言模型更强大!
olmOCR,一种用于将PDF文档转换为干净、线性化的纯文本的开源Python工具包。
2025-03-09 17:24:54
837
原创 2025年1月AIGC开源技术月刊:多模态融合与轻量化革命
本期导读:多模态融合持续深化,生成式AI迎来效率与质量双重突破,开源大模型生态呈现国产崛起之势。
2025-02-27 10:00:05
908
原创 一文搞懂DeepSeek的技术演进之路:大语言模型、视觉语言理解、多模态统一模型
本文意在初步梳理DeepSeek技术的演进及进化之路,主要包括三大方向:大语言模型、视觉语言理解模型、多模态统一模型!大语言模型系列论文:DeepSeek-LLM -> DeepSeek-V2 -> DeepSeek-V3 -> DeepSeek-R1视觉语言理解模型系列论文包括:DeepSeek-VL -> DeepSeek-VL2多模态统一模型系列论文包括:JanusFlow -> Janus -> Janus-Pro
2025-02-11 12:57:31
1207
原创 综述 | 一文读懂多模态大模型:强化学习技术全面解读 SFT、RLHF、RLAIF、DPO
本文从强化学习如何增强大语言模型(LLMs)的视角,进行系统性全面综述,涵盖强化学习的基础知识、流行的RL增强LLMs、基于奖励模型的RL技术(RLHF和RLAIF),以及直接偏好优化(DPO)方法。
2025-01-17 11:58:06
1271
原创 开源项目 | BrushEdit新型交互式图像编辑框架
BrushEdit,一种基于图像修复和指令引导的图像编辑框架。具体来说,编辑分类:使用预训练的多模态大语言模型(MLLM)解释用户的自由形式编辑指令,识别编辑类型(添加、删除、局部编辑等),并定位目标对象。调用预训练的检测模型,根据目标对象生成相关的编辑掩码。根据识别出的编辑类型和目标对象,生成编辑掩码和对应的目标图像描述。图像修复:使用双分支图像修复模型BrushNet,根据目标描述和编辑掩码进行图像修复。
2025-01-14 16:51:25
933
原创 AIGC月刊 | 再见2024,迎接2025(2024.12月第八期)【魔方AI新视界】
【魔方AI新视界】专栏致力于梳理和探索AIGC领域内的创新技术与有影响力的实际应用案例。我们计划以月刊的形式定期发布内容,目的是让读者站在AI时代的最前沿,紧跟时代发展的步伐,自信而坚定地跟随AI技术的最新趋势。
2025-01-04 20:34:46
1429
原创 AIGC月刊 | 坚持技术长期主义(2024.11月第七期)【魔方AI新视界】
【魔方AI新视界】专栏致力于梳理和探索AIGC领域内的创新技术与有影响力的实际应用案例。我们计划以月刊的形式定期发布内容,目的是让读者站在AI时代的最前沿,紧跟时代发展的步伐,自信而坚定地跟随AI技术的最新趋势。此外,猫先生也会根据读者的反馈,持续对专栏内容和版面设计进行更新和改进。我们非常欢迎读者提出宝贵的建议,一起交流和学习,共同推动专栏的完善和成长!💪
2025-01-04 20:18:23
675
原创 一文读懂多模态大模型:LLaVA系列 | 从图像到视频的内容理解
本文整体脉络将从LLaVA -> LLaVA1.5 -> LLaVA1.6 -> LLaVA-NeXT(Video)模型进行展开,分别介绍其各项技术亮点和模型架构,力求对多模态大模型在图像和视频内容理解上的应用进行深入浅出的解读!!
2024-12-14 21:37:39
3699
原创 开源项目 | Mochi:最强开源视频生成模型
Mochi 1 preview 是一个开源的、最先进的视频生成模型,具有高保真运动和初步评估中的强烈提示依从性。此模型极大地缩小了封闭和开放视频生成系统之间的差距。
2024-11-15 15:55:27
2317
原创 AIGC月刊 | 技术可及,顺势而为(2024.10月第六期)【魔方AI新视界】
【魔方AI新视界】专栏致力于梳理和探索AIGC领域内的创新技术与有影响力的实际应用案例。我们计划以月刊的形式定期发布内容,目的是让读者站在AI时代的最前沿,紧跟时代发展的步伐,自信而坚定地跟随AI技术的最新趋势。此外,猫先生也会根据读者的反馈,持续对专栏内容和版面设计进行更新和改进。我们非常欢迎读者提出宝贵的建议,一起交流和学习,共同推动专栏的完善和成长!💪。
2024-11-15 15:32:07
999
原创 开源项目 | 多模态大模型VideoGPT+:集成图像和视频编码器以增强视频理解
VideoGPT+:结合图像和视频编码器的优点,通过自适应池化策略提升视频理解性能,并在多个基准测试中表现优异。
2024-10-29 21:12:56
1109
原创 开源项目 | DiffIR2VR-Zero:模糊视频8K高清修复技术
DiffIR2VR-Zero:一种创新的零样本视频恢复技术,该技术利用预训练的图像恢复模型,解决了传统方法在不同场景下泛化能力不足的问题。
2024-10-14 19:28:33
1030
原创 开源项目 | 腾讯VTA-LDM:让你的视频自动生成完美音效
在这项工作中,VTA-LDM目标是提供对视频到音频生成范例的见解,重点关注三个关键方面:视觉编码器、辅助嵌入和数据增强技术。
2024-10-13 20:20:18
834
原创 AIGC月刊 | 多模态爆发,迅速迈向 AGI(2024.9月第五期)【魔方AI新视界】
【魔方AI新视界】专栏致力于梳理和探索AIGC领域内的创新技术与有影响力的实际应用案例。我们计划以月刊的形式定期发布内容,目的是让读者站在AI时代的最前沿,紧跟时代发展的步伐,自信而坚定地跟随AI技术的最新趋势。此外,猫先生也会根据读者的反馈,持续对专栏内容和版面设计进行更新和改进。我们非常欢迎读者提出宝贵的建议,一起交流和学习,共同推动专栏的完善和成长!💪。
2024-10-13 19:49:19
1140
原创 Yolo-World | 检测一切模型:高效实时开放词汇目标检测
YOLO-World旨在通过视觉语言建模和大规模数据集的预训练来增强 YOLO 的开放词汇检测功能。
2024-09-20 21:10:35
1177
原创 YOLOv10:毫秒级实时端到端目标检测开源模型
5月25日凌晨,由清华多媒体智能组开发的YOLOv10发布,毫秒级实时端到端目标检测开源模型。
2024-09-20 09:09:44
1534
原创 AIGC月刊 | 大模型/多模态/文生图/AI视频最新技术进展(2024.8月第四期)|【魔方AI新视界】
【魔方AI新视界】专栏致力于梳理和探索AIGC领域内的创新技术与有影响力的实际应用案例。我们计划以月刊的形式定期发布内容,目的是让读者站在AI时代的最前沿,紧跟时代发展的步伐,自信而坚定地跟随AI技术的最新趋势。此外,猫先生也会根据读者的反馈,持续对专栏内容和版面设计进行更新和改进。我们非常欢迎读者提出宝贵的建议,一起交流和学习,共同推动专栏的完善和成长!💪。
2024-09-08 10:23:46
1287
原创 综述 | 一文系统性全面了解“人体视频生成”技术:挑战、方法和见解
本综述首次全面回顾了人体视频生成的现状,分析了基于文本、音频和姿势的人体视频生成方法,并讨论常用的数据集和评估指标。最后,讨论了该领域的当前挑战,并提出未来的研究方向。
2024-08-16 22:04:31
1363
原创 AIGC月刊 | 技术革新与应用案例(2024.7月第三期)|【魔方AI新视界】
本文是《魔方AI新视界》专栏的第三期,周期为2024年7月1日-2024年7月31日。在本期中,我们将介绍7月份新发布的 AIGC 新技术!!!
2024-08-01 17:12:45
1160
原创 LLM大模型基础入门系列之:(六)Tokens 和 Embeddings
本文是LLM大模型基础入门系列的第6篇。在这篇文章中,我们重点介绍LLMs中的Tokens 和 Embeddings!
2024-07-21 15:29:48
1542
2
原创 LLM大模型基础入门系列之:(五)手动求解Transformer
本文是LLM基础入门系列的第5篇。在第3篇和第4篇文章中,详细介绍了Transformer架构,但我觉得有必要从另一个层面再写一篇文章来探讨它,这有助于我们认识并掌握它!
2024-07-08 10:41:43
1295
原创 AIGC月刊 | 技术革新与应用案例(2024.6月第二期)【魔方AI新视界】
本文是《魔方AI新视界》专栏的第二期,周期为2024年 6月1日-2024年6月30日。在本期中,猫先生将采用精炼而扼要的语言,对AIGC领域的前沿技术进行介绍,并提供详情链接,以便于您能够进一步探索和学习!
2024-07-02 10:59:03
1184
原创 AIGC月刊 | 技术革新与应用案例(2024.5月第一期)|【魔方AI新视界】
本文是《魔方AI新视界》专栏的第一期,周期为2024年5月1日-2024年5月31日。在本期中,猫先生将采用精炼而扼要的语言,对AI领域的前沿技术进行介绍,并提供详情链接,以便于您能够进一步探索和学习。
2024-06-30 22:08:09
969
原创 LLM大模型基础入门系列之:(三)Transformer 架构
本文是 LLM 基础入门系列的第 3 篇。在本文中,我们将介绍并解释基于 Transformer 的大语言模型的每个步骤。
2024-06-27 22:26:39
1341
原创 LLM大模型基础入门系列之:(二)大模型如何工作
读到这里,我相信您需要一段时间才能消化所有信息,特别是对于那些刚接触LLM的人来说。现在我相信我们已经在基本概念和背景信息方面涵盖了足够的基础。现在是我们开始准备构建我们自己的大语言模型的时候了。理论已经讲完了,我们将在下一篇文章中讨论Transformers 架构的关键组成部分。技术交流加入「AIGCmagic社区」群聊,一起交流讨论,涉及 AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向,可私信或添加微信号:【m_aigc2022。
2024-06-20 17:53:58
1012
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人