AIGC_猫先生@魔方AI空间的博客-CSDN博客

AIGC

关注

文章平均质量分 95

关注数：文章数：25 文章阅读量：33432 文章收藏量：519

作者: 猫先生@魔方AI空间

AI技术从业者与爱好者，专注于AIGC、计算机视觉、多模态、大模型、AI绘画、AI视频、数字人、边缘智能等前沿科技成果的研究和技术分享！

展开

2025年3月AGI技术月评｜技术突破重构数字世界底层逻辑

站在奇点前夜：开源正在重写智能革命剧本！

原创 2025-04-24 14:25:04 · 1019 阅读 · 0 评论
一文搞懂RAG技术范式演变及Agentic RAG：未来AI应用的基石

Agentic RAG，它就像给AI装上了“智能小助手”，能够实时检索最新数据，还能根据复杂任务灵活调整策略，让回答更准确、更贴近我们的需求！

原创 2025-04-11 17:51:19 · 627 阅读 · 0 评论
开源项目 | olmOCR：解锁PDF文本的“黑科技”，让语言模型更强大！

olmOCR，一种用于将PDF文档转换为干净、线性化的纯文本的开源Python工具包。

原创 2025-03-09 17:24:54 · 837 阅读 · 0 评论
2025年1月AIGC开源技术月刊：多模态融合与轻量化革命

本期导读：多模态融合持续深化，生成式AI迎来效率与质量双重突破，开源大模型生态呈现国产崛起之势。

原创 2025-02-27 10:00:05 · 908 阅读 · 0 评论
一文搞懂DeepSeek的技术演进之路：大语言模型、视觉语言理解、多模态统一模型

本文意在初步梳理DeepSeek技术的演进及进化之路，主要包括三大方向：大语言模型、视觉语言理解模型、多模态统一模型！大语言模型系列论文：DeepSeek-LLM -> DeepSeek-V2 -> DeepSeek-V3 -> DeepSeek-R1视觉语言理解模型系列论文包括：DeepSeek-VL -> DeepSeek-VL2多模态统一模型系列论文包括：JanusFlow -> Janus -> Janus-Pro

原创 2025-02-11 12:57:31 · 1207 阅读 · 0 评论
综述 | 一文读懂多模态大模型：强化学习技术全面解读 SFT、RLHF、RLAIF、DPO

本文从强化学习如何增强大语言模型（LLMs）的视角，进行系统性全面综述，涵盖强化学习的基础知识、流行的RL增强LLMs、基于奖励模型的RL技术（RLHF和RLAIF），以及直接偏好优化（DPO）方法。

原创 2025-01-17 11:58:06 · 1271 阅读 · 0 评论
开源项目 | BrushEdit新型交互式图像编辑框架

BrushEdit，一种基于图像修复和指令引导的图像编辑框架。具体来说，编辑分类:使用预训练的多模态大语言模型（MLLM）解释用户的自由形式编辑指令，识别编辑类型（添加、删除、局部编辑等），并定位目标对象。调用预训练的检测模型，根据目标对象生成相关的编辑掩码。根据识别出的编辑类型和目标对象，生成编辑掩码和对应的目标图像描述。图像修复:使用双分支图像修复模型BrushNet，根据目标描述和编辑掩码进行图像修复。

原创 2025-01-14 16:51:25 · 933 阅读 · 0 评论
2025年开篇｜AI Agent 与多模态大模型：智能革命的新纪元

AI Agent，智能革命，才刚刚开始！！！

原创 2025-01-14 16:24:59 · 1079 阅读 · 0 评论
AIGC月刊 | 坚持技术长期主义（2024.11月第七期）【魔方AI新视界】

【魔方AI新视界】专栏致力于梳理和探索AIGC领域内的创新技术与有影响力的实际应用案例。我们计划以月刊的形式定期发布内容，目的是让读者站在AI时代的最前沿，紧跟时代发展的步伐，自信而坚定地跟随AI技术的最新趋势。此外，猫先生也会根据读者的反馈，持续对专栏内容和版面设计进行更新和改进。我们非常欢迎读者提出宝贵的建议，一起交流和学习，共同推动专栏的完善和成长！💪

原创 2025-01-04 20:18:23 · 676 阅读 · 0 评论
AIGC月刊 | 再见2024，迎接2025（2024.12月第八期）【魔方AI新视界】

【魔方AI新视界】专栏致力于梳理和探索AIGC领域内的创新技术与有影响力的实际应用案例。我们计划以月刊的形式定期发布内容，目的是让读者站在AI时代的最前沿，紧跟时代发展的步伐，自信而坚定地跟随AI技术的最新趋势。

原创 2025-01-04 20:34:46 · 1429 阅读 · 0 评论
一文读懂多模态大模型：LLaVA系列 | 从图像到视频的内容理解

本文整体脉络将从LLaVA -> LLaVA1.5 -> LLaVA1.6 -> LLaVA-NeXT(Video)模型进行展开，分别介绍其各项技术亮点和模型架构，力求对多模态大模型在图像和视频内容理解上的应用进行深入浅出的解读！！

原创 2024-12-14 21:37:39 · 3701 阅读 · 0 评论
综述 | 一文读懂多模态大模型（MLLM）

在本文中，旨在追踪和总结多模态大模型（MLLM ）的最新进展。

原创 2024-12-14 21:34:52 · 3391 阅读 · 0 评论
开源项目 | Mochi：最强开源视频生成模型

Mochi 1 preview 是一个开源的、最先进的视频生成模型，具有高保真运动和初步评估中的强烈提示依从性。此模型极大地缩小了封闭和开放视频生成系统之间的差距。

原创 2024-11-15 15:55:27 · 2318 阅读 · 0 评论
AIGC月刊 | 技术可及，顺势而为（2024.10月第六期）【魔方AI新视界】

【魔方AI新视界】专栏致力于梳理和探索AIGC领域内的创新技术与有影响力的实际应用案例。我们计划以月刊的形式定期发布内容，目的是让读者站在AI时代的最前沿，紧跟时代发展的步伐，自信而坚定地跟随AI技术的最新趋势。此外，猫先生也会根据读者的反馈，持续对专栏内容和版面设计进行更新和改进。我们非常欢迎读者提出宝贵的建议，一起交流和学习，共同推动专栏的完善和成长！💪。

原创 2024-11-15 15:32:07 · 999 阅读 · 0 评论
开源项目 | 多模态大模型VideoGPT+：集成图像和视频编码器以增强视频理解

VideoGPT+：结合图像和视频编码器的优点，通过自适应池化策略提升视频理解性能，并在多个基准测试中表现优异。

原创 2024-10-29 21:12:56 · 1109 阅读 · 0 评论
开源项目 | 多模态大模型：Show-o 统一多模态理解和生成

Show-o，能够通过混合自回归和扩散建模同时处理多模态理解和生成任务。

原创 2024-10-29 20:58:58 · 1442 阅读 · 0 评论
开源项目 | DiffIR2VR-Zero：模糊视频8K高清修复技术

DiffIR2VR-Zero：一种创新的零样本视频恢复技术，该技术利用预训练的图像恢复模型，解决了传统方法在不同场景下泛化能力不足的问题。

原创 2024-10-14 19:28:33 · 1030 阅读 · 0 评论
开源项目 | 腾讯VTA-LDM：让你的视频自动生成完美音效

在这项工作中，VTA-LDM目标是提供对视频到音频生成范例的见解，重点关注三个关键方面：视觉编码器、辅助嵌入和数据增强技术。

原创 2024-10-13 20:20:18 · 834 阅读 · 0 评论
AIGC月刊 | 多模态爆发，迅速迈向 AGI（2024.9月第五期）【魔方AI新视界】

【魔方AI新视界】专栏致力于梳理和探索AIGC领域内的创新技术与有影响力的实际应用案例。我们计划以月刊的形式定期发布内容，目的是让读者站在AI时代的最前沿，紧跟时代发展的步伐，自信而坚定地跟随AI技术的最新趋势。此外，猫先生也会根据读者的反馈，持续对专栏内容和版面设计进行更新和改进。我们非常欢迎读者提出宝贵的建议，一起交流和学习，共同推动专栏的完善和成长！💪。

原创 2024-10-13 19:49:19 · 1140 阅读 · 0 评论
综述 | 一文系统性全面了解“人体视频生成”技术：挑战、方法和见解

本综述首次全面回顾了人体视频生成的现状，分析了基于文本、音频和姿势的人体视频生成方法，并讨论常用的数据集和评估指标。最后，讨论了该领域的当前挑战，并提出未来的研究方向。

原创 2024-08-16 22:04:31 · 1363 阅读 · 0 评论
AIGC月刊 | 技术革新与应用案例（2024.7月第三期）|【魔方AI新视界】

本文是《魔方AI新视界》专栏的第三期，周期为2024年7月1日-2024年7月31日。在本期中，我们将介绍7月份新发布的 AIGC 新技术！！！

原创 2024-08-01 17:12:45 · 1160 阅读 · 0 评论
LLM大模型基础入门系列之：（六）Tokens 和 Embeddings

本文是LLM大模型基础入门系列的第6篇。在这篇文章中，我们重点介绍LLMs中的Tokens 和 Embeddings！

原创 2024-07-21 15:29:48 · 1542 阅读 · 1 评论
LLM大模型基础入门系列之：（五）手动求解Transformer

本文是LLM基础入门系列的第5篇。在第3篇和第4篇文章中，详细介绍了Transformer架构，但我觉得有必要从另一个层面再写一篇文章来探讨它，这有助于我们认识并掌握它！

原创 2024-07-08 10:41:43 · 1295 阅读 · 0 评论
AIGC月刊 | 技术革新与应用案例（2024.6月第二期）【魔方AI新视界】

本文是《魔方AI新视界》专栏的第二期，周期为2024年 6月1日-2024年6月30日。在本期中，猫先生将采用精炼而扼要的语言，对AIGC领域的前沿技术进行介绍，并提供详情链接，以便于您能够进一步探索和学习！

原创 2024-07-02 10:59:03 · 1184 阅读 · 0 评论
AIGC月刊 | 技术革新与应用案例（2024.5月第一期）|【魔方AI新视界】

本文是《魔方AI新视界》专栏的第一期，周期为2024年5月1日-2024年5月31日。在本期中，猫先生将采用精炼而扼要的语言，对AI领域的前沿技术进行介绍，并提供详情链接，以便于您能够进一步探索和学习。

原创 2024-06-30 22:08:09 · 969 阅读 · 0 评论

AIGC

作者: 猫先生@魔方AI空间

2025年3月AGI技术月评｜技术突破重构数字世界底层逻辑

一文搞懂RAG技术范式演变及Agentic RAG：未来AI应用的基石

开源项目 | olmOCR：解锁PDF文本的“黑科技”，让语言模型更强大！

2025年1月AIGC开源技术月刊：多模态融合与轻量化革命

一文搞懂DeepSeek的技术演进之路：大语言模型、视觉语言理解、多模态统一模型

综述 | 一文读懂多模态大模型：强化学习技术全面解读 SFT、RLHF、RLAIF、DPO

开源项目 | BrushEdit新型交互式图像编辑框架

2025年开篇｜AI Agent 与多模态大模型：智能革命的新纪元

AIGC月刊 | 坚持技术长期主义（2024.11月第七期）【魔方AI新视界】

AIGC月刊 | 再见2024，迎接2025（2024.12月第八期）【魔方AI新视界】

一文读懂多模态大模型：LLaVA系列 | 从图像到视频的内容理解

综述 | 一文读懂多模态大模型（MLLM）

开源项目 | Mochi：最强开源视频生成模型

AIGC月刊 | 技术可及，顺势而为（2024.10月第六期）【魔方AI新视界】

开源项目 | 多模态大模型VideoGPT+：集成图像和视频编码器以增强视频理解

开源项目 | 多模态大模型：Show-o 统一多模态理解和生成

开源项目 | DiffIR2VR-Zero：模糊视频8K高清修复技术

开源项目 | 腾讯VTA-LDM：让你的视频自动生成完美音效

AIGC月刊 | 多模态爆发，迅速迈向 AGI（2024.9月第五期）【魔方AI新视界】

综述 | 一文系统性全面了解“人体视频生成”技术：挑战、方法和见解

AIGC月刊 | 技术革新与应用案例（2024.7月第三期）|【魔方AI新视界】

LLM大模型基础入门系列之：（六）Tokens 和 Embeddings

LLM大模型基础入门系列之：（五）手动求解Transformer

AIGC月刊 | 技术革新与应用案例（2024.6月第二期）【魔方AI新视界】

AIGC月刊 | 技术革新与应用案例（2024.5月第一期）|【魔方AI新视界】