
开源项目
文章平均质量分 94
猫先生@魔方AI空间
AI技术从业者与爱好者,专注于AIGC、计算机视觉、多模态、大模型、AI绘画、AI视频、数字人、边缘智能等前沿科技成果的研究和技术分享!
展开
-
2025年4月AGI技术月评|开源创新如何重塑多模态生成的未来?
本文精选12项重磅开源技术,揭开AI生成范式革命的神秘面纱!原创 2025-05-05 16:45:05 · 977 阅读 · 0 评论 -
开源项目 | olmOCR:解锁PDF文本的“黑科技”,让语言模型更强大!
olmOCR,一种用于将PDF文档转换为干净、线性化的纯文本的开源Python工具包。原创 2025-03-09 17:24:54 · 856 阅读 · 0 评论 -
开源项目 | BrushEdit新型交互式图像编辑框架
BrushEdit,一种基于图像修复和指令引导的图像编辑框架。具体来说,编辑分类:使用预训练的多模态大语言模型(MLLM)解释用户的自由形式编辑指令,识别编辑类型(添加、删除、局部编辑等),并定位目标对象。调用预训练的检测模型,根据目标对象生成相关的编辑掩码。根据识别出的编辑类型和目标对象,生成编辑掩码和对应的目标图像描述。图像修复:使用双分支图像修复模型BrushNet,根据目标描述和编辑掩码进行图像修复。原创 2025-01-14 16:51:25 · 934 阅读 · 0 评论 -
开源项目 | Mochi:最强开源视频生成模型
Mochi 1 preview 是一个开源的、最先进的视频生成模型,具有高保真运动和初步评估中的强烈提示依从性。此模型极大地缩小了封闭和开放视频生成系统之间的差距。原创 2024-11-15 15:55:27 · 2336 阅读 · 0 评论 -
开源项目 | 多模态大模型VideoGPT+:集成图像和视频编码器以增强视频理解
VideoGPT+:结合图像和视频编码器的优点,通过自适应池化策略提升视频理解性能,并在多个基准测试中表现优异。原创 2024-10-29 21:12:56 · 1113 阅读 · 0 评论 -
开源项目 | 多模态大模型:Show-o 统一多模态理解和生成
Show-o,能够通过混合自回归和扩散建模同时处理多模态理解和生成任务。原创 2024-10-29 20:58:58 · 1448 阅读 · 0 评论 -
开源项目 | DiffIR2VR-Zero:模糊视频8K高清修复技术
DiffIR2VR-Zero:一种创新的零样本视频恢复技术,该技术利用预训练的图像恢复模型,解决了传统方法在不同场景下泛化能力不足的问题。原创 2024-10-14 19:28:33 · 1035 阅读 · 0 评论 -
开源项目 | 腾讯VTA-LDM:让你的视频自动生成完美音效
在这项工作中,VTA-LDM目标是提供对视频到音频生成范例的见解,重点关注三个关键方面:视觉编码器、辅助嵌入和数据增强技术。原创 2024-10-13 20:20:18 · 840 阅读 · 0 评论