腾讯混元开源Hunyuan 3D 2.0家族新模型推动3D UGC生态发展

tencent__open

于 2025-03-28 17:50:59 发布

阅读量120

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMzYwMjkzOQ==&mid=2247493789&idx=1&sn=e42c3712a3266a7e984b86cb6c2183b2&chksm=979cb0d08e50daf74eef6453fbc674677a9550467217e6f134c9098306307c2ccba237273d0b&scene=126&sessionid=0

版权

2025年3月18-19日腾讯混元在开源日活动上正式开源基于Hunyuan 3D 2.0技术框架的5款三维生成模型，进一步丰富了3D AIGC社区。

本次开源的Turbo加速系列、多视图推理模块及轻量级mini模型，均基于Hunyuan 3D 2.0模型，组成了包含6大模型的Hunyuan 3D 2.0 家族。

图丨腾讯混元 Hunyuan 3D 2.0 家族已有 6 款模型（来源：腾讯混元）

● 轻量级模型 Hunyuan3D-2mini：通过模型剪枝大幅度减少模型参数，与 1 月份开源版本相比参数量从 11 亿下降到 6 亿，并且具有更高的隐空间压缩率。该轻量版模型为低算力设备提供了高效解决方案，够大幅降低了 GPU 显存的占用，因此显著降低了硬件需求，最低支持 4060等消费级显卡。

● 多视图版本模型 Hunyuan3D-2mv：支持多视图输入信息（2 到 4 张图片），能够更精准地捕捉细节，更加符合原画师、设计师用户生产习惯，大幅降低游戏制作、3D 用户生成内容创作等场景的制作成本。

为了保持灵活性与鲁棒性，在训练过程中首先使用固定图片数量、固定角度的多视图训练模型；然后逐步增加渲染输入图的角度变化，提升鲁棒性；最后随机drop部分视图，以支持不同图片数量输入的3D生成。通过这种渐进式的训练方式，可以使得多视图版本模型支持不同数量的多视图输入，用户使用更加灵活便捷，对输入视角的角度敏感性更低。

多视图输入	生成结果

多视图模型生成效果对比 - 可输入不标准三视图（如第一行，输入侧后方视角）

● Turbo 系列模型：基于FlashVDM的3D原生模型加速框架，分别对DiT模型和VAE模型进行优化，大幅减小几何模型生成耗时，实现了数十倍的生成速度提升，将高精度模型的生成的时间压缩至秒级。通过将该加速框架应用到轻量的 mini 模型上，甚至最快可以做到 0.5 秒内生成白模。此外，通过加速后的模型可以在 Apple M1 Pro 等芯片上进行部署，速度与标准版在显卡上部署的速度相当。

FlashVDM加速框架 - 对3D生成中的关键模型DiT和VAE分别进行加速

生成速度对比 - Hunyuan3D-2（左）和 Hunyuan3D-2-turbo（右）生成速度对比明显，其中 turbo 模型在点击操作后很快生成

通过对Hunyuan3D-2 加速版模型（Turbo模型）和标准版（Hunyuan3D-2）进行用户双盲对比测试。结果显示，在5步迭代条件下，87.3%的生成结果对比组中，测试参与者无法从视觉上区分Turbo模型与标准版的输出差异。当迭代步数提升至8步时，无法区分差异的结果对比组比例上升至90.2%。