🌐 社群导航
🔗 点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】 技术交流群
数源AI 最新论文解读系列
论文名:MMGDreamer: Mixed-Modality Graph for Geometry-Controllable 3D Indoor Scene Generation
论文链接:https://arxiv.org/pdf/2502.05874
开源代码:https://yangzhifeio.github.io/project/MMGDreamer
导读
可控场景生成是指根据输入提示生成逼真的3D场景,并允许对这些场景中的特定物体进行精确控制和调整。它广泛应用于虚拟现实、室内设计和具身智能,提供沉浸式体验并增强决策过程。在这些应用中,场景图作为一种强大的工具,通过简洁地抽象场景上下文和物体之间的相互关系,实现直观的场景操作和生成。
简介
可控的3D场景生成在虚拟现实和室内设计中有着广泛的应用,生成的场景应在几何方面表现出高度的真实感和可控性。场景图提供了一种合适的数据表示方式,便于这些应用的实现。然而,当前基于图的场景生成方法局限于基于文本的输入,对灵活的用户输入适应性不足,阻碍了对物体几何形状的精确控制能力。为解决这一问题,我们提出了MMGDreamer,这是一种用于场景生成的双分支扩散模型,它结合了一种新颖的混合模态图、视觉增强模块和关系预测器。混合模态图允许物体节点整合文本和视觉模态,节点之间存在可选关系。它增强了对灵活用户输入的适应性,并能够对生成场景中物体的几何形状进行精细控制。视觉增强模块通过使用文本嵌入构建视觉表示,丰富了仅含文本节点的视觉保真度。此外,我们的关系预测器利用节点表示来推断节点之间缺失的关系,从而产生更连贯的场景布局。大量实验结果表明,MMGDreamer在物体几何形状控制方面表现出色,实现了最先进的场景生成性能。
方法与模型
我们提出了 MMGDreamer,这是一个擅长处理多模态图(MMG)作为输入的室内场景合成任务框架,如图 2 所示。多模态图(MMG)是一种新颖的图结构,其中节点可以选择性地携带文本或视觉信息,从而更有效地适应灵活的用户输入。MMGDreamer 首先利用 CLIP 和嵌入层对多模态图(MMG)进行编码,生成潜在混合模态图(LMMG)。然后,我们应用视觉增强模块在潜在混合模态图(LMMG)的节点中构建视觉信息,得到视觉增强图。随后,利用关系预测器预测节点之间缺失的边,形成混合增强图。最后,我们使用图编码器对场景内的关系进行建模,并采用双分支扩散模型生成相应的布局和形状,合成 室内场景。
图2:MMGDreamer概述。我们的流程由潜在混合模态图、图增强模块和双分支扩散模型组成。在推理过程中,MMGDreamer从潜在混合模态图开始,该图通过视觉增强模块和关系预测器进行增强,从而形成视觉增强图和混合增强图。然后,将混合增强图输入到双分支扩散模型内的图编码器中进行关系建模,使用集成了回声机制的三元组图卷积网络(GCN)结构模块。随后,布局分支(C.2)和形状分支(C.3)分别使用以节点潜在表示为条件的去噪器来生成布局和形状。最终输出是一个合成的3D室内场景,其中生成的形状无缝集成到生成的布局中。
混合模态图
仅使用文本信息生成细粒度场景是不够的,因为它无法精确控制生成对象的几何形状。同时,用户的灵活输入应该是多模态的,允许根据特定需求选择性地输入文本或图像,如图 1.A 所示。然而,现有方法(胡等人,2024 年)不支持这种输入格式。图作为一种紧凑且灵活的结构表示,能够有效地对节点内的各种属性进行编码,便于多模态信息的无缝集成。此外,用户的文本描述通常缺乏所有对象之间关系的信息。虽然像 EchoScene(翟等人,2024b)和 CommoScenes(翟等人,2024c)等方法利用图来生成场景,但它们施加了严格的关系约束,不太方便用户使用。模仿自然语言的图结构应该具有稀疏的边关系。为了解决这些问题,我们提出了混合模态图,这是一种新颖的图,其中节点可以包含文本和视觉两种模态,并且边是可选的。
一个混合模态图 包含节点及其关系:
每个节点
表示一个具有文本类别信息 、图像信息 或同时具有文本类别和图像信息 的对象,如图 1.C 所示。尽管多模态图(MMG)通常比 3D 空间布局更容易获取(舒尔特等人,2024 年),但我们还设计了一个文本提示来查询视觉语言模型,如 GPT - 4V(阿奇姆等人,2023 年),从而能够从非结构化的文本和图像输入中解析出多模态图(MMG),如图 1.B 所示。
假设,我们利用嵌入层对类别信息和边的关系信息进行编码,分别将它们转换为和。为了在编码图像信息的同时丰富高级语义特征,我们利用预训练且固定参数的视觉语言模型CLIP(拉德福德等人,2021年),使用其文本编码器将转换为,并使用其图像编码器将转换为。为确保MMGDreamer内处理的一致性,我们对缺失的节点模态信息或两个节点之间的边关系在特征级别应用零填充。如图2.A所示,潜在混合模态图(LMMG)可以统一表示为:
其中表示节点特征集,表示边特征集。
视觉增强模块
在图节点中融入视觉特征可增强对象几何形状的生成。然而,在潜在混合模态图(LMMG)中,一些节点仅包含文本信息。我们引入了一个视觉增强模块来增强生成对象形状的能力。该模块采用了类似于矢量量化变分自编码器(VQ - VAE)的架构,包括一个编码器、一个解码器和一个码本,以有效地从潜在混合模态图中节点的文本特征构建视觉特征。编码器将文本特征处理为潜在向量。然后使用码本对这些潜在向量进行量化,码本包含一组嵌入向量。量化过程从码本中选择个最近的嵌入向量:
随后,解码器对量化后的潜在向量进行处理,以生成视觉特征。视觉增强模块的训练目标是最大化数据似然性的证据下界(ELBO):
其中 表示给定文本特征下的潜在向量分布, 是给定潜在向量下视觉特征的似然性, 表示 KL 散度(Kullback-Leibler divergence)。先验分布 通常是高斯分布, 是一个加权因子。为了解决量化过程的不可微性质,应用了 Gumbel-Softmax 松弛(Gumbel-Softmax relaxation,Jang、Gu 和 Poole,2016 年)技术来优化证据下界(ELBO)。利用这个基于矢量量化变分自编码器(VQ-VAE)的框架,视觉增强模块生成了一个视觉增强图 ,增强了大规模多模态图(LMMG)为场景生成任务生成准确且详细的物体几何形状的能力。
关系预测器
关系在室内场景生成中至关重要,因为它们会影响布局配置。为了解决大规模多模态图(LMMG)中节点之间关系缺失的挑战,我们开发了一个关系预测器来推断这些连接,从而能够生成更合理的布局。关系预测器以潜在表示的三元组 作为输入。在关系缺失的情况下, 用零填充,以确保特征空间的一致性。该模块包括一个图卷积网络(GCN)层,后面跟着一系列多层感知机(MLP)层。图卷积网络层处理输入的三元组,以捕捉节点之间的关系上下文,而多层感知机层进一步细化边的预测。关系预测器使用交叉熵损失进行训练,定义如下:
其中 是节点对的数量, 是边类别的数量, 是独热编码的真实标签, 是预测概率。关系预测器通过预测和整合缺失的节点关系,将图 细化为混合增强图 ,以提高整体布局的连贯性。
形状与布局分支
我们采用双分支扩散模型来生成物体形状和场景布局。为了在每个去噪过程中促进节点之间的有效信息交换和关系建模,如图 2.C.1 所示,我们采用了一个集成了回声机制(Zhai 等人,2024b)的三元组 - 图卷积网络(triplet - GCN)结构模块作为图编码器 。
形状分支。对于形状分支,如图 2.C.2 所示,我们使用截断有符号距离场(Truncated Signed Distance Field,Cur - less 和 Levoy,1996 年)作为形状表示,并使用预训练且冻结的矢量量化变分自编码器(VQ - VAE)将它们编码为潜在表示 并解码回来。在每个去噪步骤中,应用 来处理潜在代码 和潜在图 (其源自 ),产生更新后的表示 和 。 的更新节点,记为 ,用作去噪器 (3D - UNet)的条件。训练目标是最小化真实噪声 和预测噪声 之间的偏差。损失函数定义如下:
布局分支。我们利用对象边界框来表示场景的布局。每个边界框 由其位置 、大小 和旋转角度 来表征。具体而言,旋转角度 由 参数化。为了在训练期间确保适当的尺度和数值稳定性,对 和 进行归一化处理。如图 2.C 所示,布局分支利用 进行关系建模。这会得到更新后的潜在布局表示 和细化后的图节点嵌入 。基于更新后的节点嵌入,使用一维 UNet 作为去噪器 进行去噪过程。相应的损失函数公式如下:
布局和形状分支的总体训练目标表示为:
其中 和 是权重因子。
训练和推理策略
训练过程分为两个阶段。在第一阶段,使用损失函数 训练视觉增强模块,该损失函数利用节点的文本信息来构建相应的视觉特征。使用 基于图的三元组表示来训练关系预测器。在第二阶段,将 LMMG 作为输入,并使用损失函数 联合优化图编码器以及布局和形状分支,如图 2.A 和 C 所示。在推理过程中,如图 2 所示,LMMG 经过模块 B 和 C 处理以生成室内场景。更多详细信息请参阅补充材料。
实验与结果
实验设置
评估数据集。我们使用 SG - FRONT 数据集(翟等人,2024c)验证我们的方法,该数据集为室内场景提供了全面的场景图注释。该数据集包含 个对象实例以及卧室、餐厅和客厅内的 15 种关系类型。场景图中的节点表示对象类别,而边表示节点之间的关系。在我们的实验中,我们根据节点 ID 从 3D - FUTURE 数据集(傅等人,2021)中提取相应的图像,以构建全模态图(节点包含文本和图像)。然后,我们应用随机掩码对全模态图中的文本、图像和节点之间的关系进行掩码处理,从而生成混合模态图。
评估指标。我们评估合成 3D 场景的场景级和对象级保真度。使用弗雷歇 inception 距离(FID)(赫塞尔等人,2017)和核 inception 距离(KID)(比恩科夫斯基等人,2018)来量化场景级保真度,这两个指标用于衡量生成的俯视图渲染与真实场景渲染之间的相似度。对于对象级保真度,我们使用最小匹配距离(MMD)、覆盖率(COV)和 1 - 最近邻准确率(1 - NNA)(杨等人,2019)来评估生成的对象几何形状的质量,这些指标均源自倒角距离(CD)(范、苏和吉巴斯,2017)。
基线方法。我们将我们的方法与三种最先进的场景合成方法进行比较:1)图到三维(Graph-to-3D,Dhamo等人,2021年),该方法使用基于图卷积网络(GCN)的变分自编码器(VAE)直接从场景图生成三维场景;2)通用场景(CommonScenes,翟等人,2024c),该方法通过一个包含变分自编码器(VAE)和潜在扩散模型(LDM)的双分支框架将场景图转换为可控的三维场景;3)回声场景(EchoScene,翟等人,2024b),该方法采用具有信息回声机制的双分支扩散模型,从场景图生成全局连贯的场景。
实现细节。所有实验均在配备内存的单块英伟达A100 GPU上进行。我们使用AdamW优化器训练模型,将学习率初始化为,并采用128的批量大小。我们损失组件的权重因子和始终设置为1.0。
场景生成
定量比较。我们使用弗雷歇 inception 距离(FID)、和核 inception 距离(KID)分数评估生成场景的真实感,详情见表1。当场景图节点以混合模态表示时,MMG-Dreamer在所有指标上始终优于之前最先进的方法Echoscene。具体而言,在客厅生成任务中,MMG-Dreamer 取得了显著改进,将弗雷歇 inception 距离(FID)降低了(即),将核 inception 距离(KID)降低了,凸显了其在控制对象几何形状方面的卓越能力。
增强整体场景真实感。
定性比较。我们在图3中展示了不同方法在各种房间类型下的生成结果。在不同房间类型的比较中,我们的方法MMGDreamer在每个场景中始终展现出卓越的几何控制能力和视觉保真度。例如,在卧室场景中,MMGDreamer能够准确生成床和床头柜,具有更高的几何一致性,而其他方法如Graph-to-3D和EchoScene则出现明显的扭曲和不一致。在餐厅场景中,Graph-to-3D和EchoScene都存在显著缺陷,特别是在椅子靠背和餐具柜方面。相比之下,我们的方法MMGDreamer不仅保留了这些元素的正确几何形状,还成功生成了放置在餐具柜上物体的复杂细节。对于复杂的客厅场景,MMGDreamer准确生成了沙发、咖啡桌和台灯,保持了连贯的空间布局,并确保生成的物体与输入图像高度一致。相比之下,其他方法在几件家具(如台灯和椅子)上出现了几何误差。值得注意的是,EchoScene生成的沙发有许多明显的孔洞,与实际物体的几何形状有很大偏差。
图3:与其他方法的定性比较。第一列显示输入的混合模态图,仅可视化场景中最重要的边。红色矩形表示生成场景中不一致的区域,而绿色矩形表示生成一致的区域。
物体生成
我们遵循PointFlow(Yang等人,2019)的方法,将分析扩展到物体级别的保真度,通过报告最大平均差异(MMD )和1-最近邻准确率(1-NNA,%)指标来评估每个物体的生成情况。如表2所示,在MMD和COV指标方面,我们的方法在所有物体类别中始终优于先前的最先进方法。这一结果凸显了MMG-Dreamer的几何控制能力,确保了在各种类别中物体几何形状的精确生成。1-NNA衡量生成物体与真实物体之间的分布相似性,值接近表示更好地捕捉了形状分布。在大多数物体类别中,我们的方法在分布相似性方面始终优于EchoScene。总体而言,与先前的方法相比,MMGDreamer展示了卓越的几何控制能力,从而实现了更一致的物体级生成。
消融实验
我们利用场景级保真度(FID和KID)和平均场景图一致性(mSG)来定量评估MMGDreamer中不同模块的有效性,如表3所示。我们观察到,包含VEM的配置(第二行)与基线(第一行)相比,FID和KID显著降低,这表明VEM提高了场景生成的保真度。此外,当引入RP模块(第三行)时,mSG有显著改善,这表明RP有效地预测了物体之间的关系,从而产生了更连贯的场景布局。显然,同时包含VEM和RP在所有指标上都取得了最佳性能,凸显了这些模块在生成高质量场景方面的互补优势。
结论
我们提出了MMGDreamer,这是一种用于几何可控的3D室内场景生成的双分支扩散模型,利用了一种新颖的混合模态图,该图集成了文本和视觉两种模态。我们的方法通过视觉增强模块和关系预测器得到了增强,能够对物体几何形状进行精确控制,并确保场景布局的连贯性。大量实验表明,MMGDreamer显著优于现有方法,在场景保真度和物体几何可控性方面取得了最先进的成果。