
图像生成
文章平均质量分 95
Sherlock Ma
研究生在读,致力于分享编程技术。主要研究人工智能相关,包括大模型、AIGC等。偶尔也会更新Java内容
展开
-
Janus-Pro:Deepseek又一强力之作,统一多模态理解与生成!(包含论文代码详解)
本文介绍了 Janus-Pro,这是 Janus 模型的高级版本,通过优化训练策略、扩展训练数据和扩大模型规模,显著提升了多模态理解和文本到图像生成的能力。Janus-Pro 在多模态理解基准测试中超越了现有的先进模型,并在文本到图像指令遵循任务中表现出色。代码和模型已公开。方法1. 架构设计Janus-Pro 的架构与 Janus 保持一致,核心是将多模态理解任务和视觉生成任务的视觉编码进行解耦。对于多模态理解任务,使用 SigLIP 编码器提取图像的高维语义特征;原创 2025-02-01 12:19:41 · 2041 阅读 · 0 评论 -
LeDeCo:AI自动化排版、设计、美化海报
这篇文章的核心内容是介绍了一种名为LaDeCo的新型自动图形设计构图方法。LaDeCo通过将大型多模态模型(LMMs)与分层设计原则相结合,能够将多模态图形元素自动组合成一个整体、平衡且美观的图形设计。原创 2025-01-16 22:32:41 · 1765 阅读 · 0 评论 -
DiffSense:强大的漫画生成模型,一键生成漫画!(包含使用教程及论文代码分析)
本文介绍了DiffSensei,用于定制化漫画生成的AI模型。DiffSensei能够理解文本提示,动态调整角色特征和布局,创造出既符合描述又具有视觉吸引力的漫画内容。原创 2024-12-19 22:31:29 · 2171 阅读 · 0 评论 -
VAR:视觉生成新范式,投毒风波难掩NeurIPS2024最佳论文!(包含论文代码详解)
Visual AutoRegressive modeling (VAR),这是一种新一代范式,与标准光栅扫描“next-token预测”不同,它将图像上的自回归学习重新定义为从粗到细的“下一尺度预测”或“下一分辨率预测”。VAR首次使GPT风格的AR模型在图像生成方面超过DiT。除此之外,VAR还延续了LLM的两个重要特性:Scaling Laws and zero-shot泛化。原创 2024-12-16 22:03:36 · 1975 阅读 · 0 评论