猫先生@魔方AI空间-CSDN博客

本文意在初步梳理DeepSeek技术的演进及进化之路，主要包括三大方向：大语言模型、视觉语言理解模型、多模态统一模型！大语言模型系列论文：DeepSeek-LLM -> DeepSeek-V2 -> DeepSeek-V3 -> DeepSeek-R1视觉语言理解模型系列论文包括：DeepSeek-VL -> DeepSeek-VL2多模态统一模型系列论文包括：JanusFlow -> Janus -> Janus-Pro

2025-02-11 12:57:31 1207

原创综述 | 一文读懂多模态大模型：强化学习技术全面解读 SFT、RLHF、RLAIF、DPO

本文从强化学习如何增强大语言模型（LLMs）的视角，进行系统性全面综述，涵盖强化学习的基础知识、流行的RL增强LLMs、基于奖励模型的RL技术（RLHF和RLAIF），以及直接偏好优化（DPO）方法。

2025-01-17 11:58:06 1271

原创开源项目 | BrushEdit新型交互式图像编辑框架

BrushEdit，一种基于图像修复和指令引导的图像编辑框架。具体来说，编辑分类:使用预训练的多模态大语言模型（MLLM）解释用户的自由形式编辑指令，识别编辑类型（添加、删除、局部编辑等），并定位目标对象。调用预训练的检测模型，根据目标对象生成相关的编辑掩码。根据识别出的编辑类型和目标对象，生成编辑掩码和对应的目标图像描述。图像修复:使用双分支图像修复模型BrushNet，根据目标描述和编辑掩码进行图像修复。

2025-01-14 16:51:25 933

原创 AIGC月刊 | 再见2024，迎接2025（2024.12月第八期）【魔方AI新视界】

【魔方AI新视界】专栏致力于梳理和探索AIGC领域内的创新技术与有影响力的实际应用案例。我们计划以月刊的形式定期发布内容，目的是让读者站在AI时代的最前沿，紧跟时代发展的步伐，自信而坚定地跟随AI技术的最新趋势。

2025-01-04 20:34:46 1429

原创 AIGC月刊 | 坚持技术长期主义（2024.11月第七期）【魔方AI新视界】

【魔方AI新视界】专栏致力于梳理和探索AIGC领域内的创新技术与有影响力的实际应用案例。我们计划以月刊的形式定期发布内容，目的是让读者站在AI时代的最前沿，紧跟时代发展的步伐，自信而坚定地跟随AI技术的最新趋势。此外，猫先生也会根据读者的反馈，持续对专栏内容和版面设计进行更新和改进。我们非常欢迎读者提出宝贵的建议，一起交流和学习，共同推动专栏的完善和成长！💪

2025-01-04 20:18:23 675

原创一文读懂多模态大模型：LLaVA系列 | 从图像到视频的内容理解

本文整体脉络将从LLaVA -> LLaVA1.5 -> LLaVA1.6 -> LLaVA-NeXT(Video)模型进行展开，分别介绍其各项技术亮点和模型架构，力求对多模态大模型在图像和视频内容理解上的应用进行深入浅出的解读！！

2024-12-14 21:37:39 3699

原创开源项目 | Mochi：最强开源视频生成模型

Mochi 1 preview 是一个开源的、最先进的视频生成模型，具有高保真运动和初步评估中的强烈提示依从性。此模型极大地缩小了封闭和开放视频生成系统之间的差距。

2024-11-15 15:55:27 2317

原创 AIGC月刊 | 技术可及，顺势而为（2024.10月第六期）【魔方AI新视界】

【魔方AI新视界】专栏致力于梳理和探索AIGC领域内的创新技术与有影响力的实际应用案例。我们计划以月刊的形式定期发布内容，目的是让读者站在AI时代的最前沿，紧跟时代发展的步伐，自信而坚定地跟随AI技术的最新趋势。此外，猫先生也会根据读者的反馈，持续对专栏内容和版面设计进行更新和改进。我们非常欢迎读者提出宝贵的建议，一起交流和学习，共同推动专栏的完善和成长！💪。

2024-11-15 15:32:07 999

原创开源项目 | 多模态大模型VideoGPT+：集成图像和视频编码器以增强视频理解

VideoGPT+：结合图像和视频编码器的优点，通过自适应池化策略提升视频理解性能，并在多个基准测试中表现优异。

2024-10-29 21:12:56 1109

原创开源项目 | 多模态大模型：Show-o 统一多模态理解和生成

Show-o，能够通过混合自回归和扩散建模同时处理多模态理解和生成任务。

2024-10-29 20:58:58 1442

原创开源项目 | DiffIR2VR-Zero：模糊视频8K高清修复技术

DiffIR2VR-Zero：一种创新的零样本视频恢复技术，该技术利用预训练的图像恢复模型，解决了传统方法在不同场景下泛化能力不足的问题。

2024-10-14 19:28:33 1030

原创开源项目 | 腾讯VTA-LDM：让你的视频自动生成完美音效

在这项工作中，VTA-LDM目标是提供对视频到音频生成范例的见解，重点关注三个关键方面：视觉编码器、辅助嵌入和数据增强技术。

2024-10-13 20:20:18 834

原创 AIGC月刊 | 多模态爆发，迅速迈向 AGI（2024.9月第五期）【魔方AI新视界】

【魔方AI新视界】专栏致力于梳理和探索AIGC领域内的创新技术与有影响力的实际应用案例。我们计划以月刊的形式定期发布内容，目的是让读者站在AI时代的最前沿，紧跟时代发展的步伐，自信而坚定地跟随AI技术的最新趋势。此外，猫先生也会根据读者的反馈，持续对专栏内容和版面设计进行更新和改进。我们非常欢迎读者提出宝贵的建议，一起交流和学习，共同推动专栏的完善和成长！💪。

2024-10-13 19:49:19 1140

原创 Yolo-World | 检测一切模型：高效实时开放词汇目标检测

YOLO-World旨在通过视觉语言建模和大规模数据集的预训练来增强 YOLO 的开放词汇检测功能。

2024-09-20 21:10:35 1177

原创 YOLOv10：毫秒级实时端到端目标检测开源模型

5月25日凌晨，由清华多媒体智能组开发的YOLOv10发布，毫秒级实时端到端目标检测开源模型。

2024-09-20 09:09:44 1534

原创 AIGC月刊 | 大模型/多模态/文生图/AI视频最新技术进展（2024.8月第四期）|【魔方AI新视界】

【魔方AI新视界】专栏致力于梳理和探索AIGC领域内的创新技术与有影响力的实际应用案例。我们计划以月刊的形式定期发布内容，目的是让读者站在AI时代的最前沿，紧跟时代发展的步伐，自信而坚定地跟随AI技术的最新趋势。此外，猫先生也会根据读者的反馈，持续对专栏内容和版面设计进行更新和改进。我们非常欢迎读者提出宝贵的建议，一起交流和学习，共同推动专栏的完善和成长！💪。

2024-09-08 10:23:46 1287

原创综述 | 一文系统性全面了解“人体视频生成”技术：挑战、方法和见解

本综述首次全面回顾了人体视频生成的现状，分析了基于文本、音频和姿势的人体视频生成方法，并讨论常用的数据集和评估指标。最后，讨论了该领域的当前挑战，并提出未来的研究方向。

2024-08-16 22:04:31 1363

原创 AIGC月刊 | 技术革新与应用案例（2024.7月第三期）|【魔方AI新视界】

本文是《魔方AI新视界》专栏的第三期，周期为2024年7月1日-2024年7月31日。在本期中，我们将介绍7月份新发布的 AIGC 新技术！！！

2024-08-01 17:12:45 1160

原创 LLM大模型基础入门系列之：（六）Tokens 和 Embeddings

本文是LLM大模型基础入门系列的第6篇。在这篇文章中，我们重点介绍LLMs中的Tokens 和 Embeddings！

2024-07-21 15:29:48 1542 2

原创 LLM大模型基础入门系列之：（五）手动求解Transformer

本文是LLM基础入门系列的第5篇。在第3篇和第4篇文章中，详细介绍了Transformer架构，但我觉得有必要从另一个层面再写一篇文章来探讨它，这有助于我们认识并掌握它！

2024-07-08 10:41:43 1295

原创 AIGC月刊 | 技术革新与应用案例（2024.6月第二期）【魔方AI新视界】

本文是《魔方AI新视界》专栏的第二期，周期为2024年 6月1日-2024年6月30日。在本期中，猫先生将采用精炼而扼要的语言，对AIGC领域的前沿技术进行介绍，并提供详情链接，以便于您能够进一步探索和学习！

2024-07-02 10:59:03 1184

原创 AIGC月刊 | 技术革新与应用案例（2024.5月第一期）|【魔方AI新视界】

本文是《魔方AI新视界》专栏的第一期，周期为2024年5月1日-2024年5月31日。在本期中，猫先生将采用精炼而扼要的语言，对AI领域的前沿技术进行介绍，并提供详情链接，以便于您能够进一步探索和学习。

2024-06-30 22:08:09 969

原创 LLM大模型基础入门系列之：(四）从头开始编写LLM代码

从头开始实现一个类 GPT 的 transformer。

2024-06-30 21:21:36 1907

原创 LLM大模型基础入门系列之：（三）Transformer 架构

本文是 LLM 基础入门系列的第 3 篇。在本文中，我们将介绍并解释基于 Transformer 的大语言模型的每个步骤。

2024-06-27 22:26:39 1341

原创 LLM大模型基础入门系列之：（二）大模型如何工作

读到这里，我相信您需要一段时间才能消化所有信息，特别是对于那些刚接触LLM的人来说。现在我相信我们已经在基本概念和背景信息方面涵盖了足够的基础。现在是我们开始准备构建我们自己的大语言模型的时候了。理论已经讲完了，我们将在下一篇文章中讨论Transformers 架构的关键组成部分。技术交流加入「AIGCmagic社区」群聊，一起交流讨论，涉及 AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向，可私信或添加微信号：【m_aigc2022。

2024-06-20 17:53:58 1012

原创 LLM大模型基础入门系列之：（一）什么是大语言模型？

从高层次全面概述大语言模型 (LLM) 的具体含义。

2024-06-14 13:09:07 1123

m_aigc2022的博客

原创 2025年开篇｜AI Agent 与多模态大模型：智能革命的新纪元

原创综述 | 一文读懂多模态大模型（MLLM）

原创综述 | YOLOv10的起源：YOLO系列的十年全面回顾【YOLOv1-YOLOv10】

原创 2025年3月AGI技术月评｜技术突破重构数字世界底层逻辑

原创一文搞懂RAG技术范式演变及Agentic RAG：未来AI应用的基石

原创 2025年2月AGI技术月评｜重构创作边界：从视频生成革命到多模态生态的全面爆发

原创开源项目 | olmOCR：解锁PDF文本的“黑科技”，让语言模型更强大！

原创 2025年1月AIGC开源技术月刊：多模态融合与轻量化革命

原创一文搞懂DeepSeek的技术演进之路：大语言模型、视觉语言理解、多模态统一模型

原创综述 | 一文读懂多模态大模型：强化学习技术全面解读 SFT、RLHF、RLAIF、DPO

原创开源项目 | BrushEdit新型交互式图像编辑框架

原创 AIGC月刊 | 再见2024，迎接2025（2024.12月第八期）【魔方AI新视界】

原创 AIGC月刊 | 坚持技术长期主义（2024.11月第七期）【魔方AI新视界】

原创一文读懂多模态大模型：LLaVA系列 | 从图像到视频的内容理解

原创开源项目 | Mochi：最强开源视频生成模型

原创 AIGC月刊 | 技术可及，顺势而为（2024.10月第六期）【魔方AI新视界】

原创开源项目 | 多模态大模型VideoGPT+：集成图像和视频编码器以增强视频理解

原创开源项目 | 多模态大模型：Show-o 统一多模态理解和生成

原创开源项目 | DiffIR2VR-Zero：模糊视频8K高清修复技术

原创开源项目 | 腾讯VTA-LDM：让你的视频自动生成完美音效

原创 AIGC月刊 | 多模态爆发，迅速迈向 AGI（2024.9月第五期）【魔方AI新视界】

原创 Yolo-World | 检测一切模型：高效实时开放词汇目标检测

原创 YOLOv10：毫秒级实时端到端目标检测开源模型

原创 AIGC月刊 | 大模型/多模态/文生图/AI视频最新技术进展（2024.8月第四期）|【魔方AI新视界】

原创综述 | 一文系统性全面了解“人体视频生成”技术：挑战、方法和见解

原创 AIGC月刊 | 技术革新与应用案例（2024.7月第三期）|【魔方AI新视界】

原创 LLM大模型基础入门系列之：（六）Tokens 和 Embeddings

原创 LLM大模型基础入门系列之：（五）手动求解Transformer

原创 AIGC月刊 | 技术革新与应用案例（2024.6月第二期）【魔方AI新视界】

原创 AIGC月刊 | 技术革新与应用案例（2024.5月第一期）|【魔方AI新视界】

原创 LLM大模型基础入门系列之：(四）从头开始编写LLM代码

原创 LLM大模型基础入门系列之：（三）Transformer 架构

原创 LLM大模型基础入门系列之：（二）大模型如何工作

原创 LLM大模型基础入门系列之：（一）什么是大语言模型？

空空如也

空空如也