Unity批次合并渲染

最新推荐文章于 2025-03-24 23:43:44 发布

不再码农

最新推荐文章于 2025-03-24 23:43:44 发布

阅读量1.5k

点赞数 1

分类专栏： Unity知识点文章标签： unity

原文链接：https://zhuanlan.zhihu.com/p/196691845

版权

Unity知识点专栏收录该内容

14 篇文章

订阅专栏

Unity批次合并渲染

为了减少CPU与GPU交流的成本，减少DrawCall的数量，优化渲染，Unity提供了合并批次进行渲染的方式，其支持 动态批次合并、 静态批次合并、 GPU实例化三种合并批次方式，这些合并批次的方式是通过操作 顶点缓冲区对象（VBO）和 索引缓冲区对象（EBO）等数据来进行合并处理的。相较于手动合并，unity内置的批处理方法最大的优点是每一个物体仍然支持单独剔除。由于在Unity渲染优化过程中合并批次渲染非常重要，我们今天来探讨一下这三种批次渲染方法的原理与异同

关于渲染相关数据结构的说明

顶点缓冲区对象（VBO）：主要用于存储顶点以及顶点附带的各种属性信息，比如顶点位置、法线、颜色、UV等

顶点数组对象（VAO）：规定VBO中数据的格式。比如多少空间存储顶点坐标，多少空间存储顶点法线等等

索引缓冲区对象（EBO）：负责缓存VBO中顶点的索引，用来解决顶点数据重复使用的问题，避免顶点数据被重复存储。举个例子，绘制一个长方形需要四个顶点、两个三角形，在没有EBO的情况下需要在VBO中存储6个顶点的数据（其中两个是重复的）。存在EBO时，VBO中存储四个顶点的数据，通过EBO中的索引顺序重复调用VBO中相应顶点数据绘制三角形

参考链接：

你好，三角形 - LearnOpenGL CNlearnopengl-cn.github.io

批次合并的条件

只有使用了相同材质的物体才能够实现批处理。如果两个不同的物体，使用的两个材质，只是纹理上的差别，那就把他们的纹理合并到一起，这样就可以使用同一个材质。脚本中使用Render.material属性时，会重新生成一个原来材质的拷贝，所以用Render.sharedMaterial可以保持材质的一致性（但是使用同一个材质的物体，都会被改变）。关于阴影，只要材质中使用的是相同的Shadow Pass，就可以实现批处理，即便他们不是同一个材质

静态批次合并

原理：将所有静态合并批次中物体的顶点信息合并成一个大的VBO。不合并EBO，VBO直接提交给GPU，但EBO部分仅提供需要渲染的部分，避免执行不必要的渲染。在Player Setting中勾选了Opeimized Mesh Data以后，Unity在构建VBO时，会移除那些在所有shader变体中都没有被用到的顶点的属性。Unity通过一些特殊的关键字检查来实现这个操作，比如如果没有包含LIGHTMAP_ON，该批处理的顶点输入中就会删除lightmap UVs

缺点：VBO需要消耗更多的显存

实现：静态批次处理主要针对场景中静止的物体，将这些物体设置为Batching Static，引擎便会自动将其添加到静态合批的队列中

补充：静态批处理，并不是所有的模型都合并到同一个Mesh里，合并的时候仍然受限于mesh的顶点数要求，在大多数平台上，批处理限制是64k个顶点和64k个索引（OpenGLES上48k个索引，macOS上32k个索引）。如果几个模型的顶点总数超过了这个限制，就会被拆分成多个draw call，但是这样的拆分，并不会造成setpass call的变化，因为渲染状态没有变化，所以这些被分开的渲染批次仍然执行的很快

动态批次合并

原理：运行时将符合要求的物体动态地组成VBO并提交。因为组建VBO是有开销的（需要对顶点坐标和UV等进行一定的空间变换），所以对动态合批的物体的顶点数有一个限制。这些限制是为了控制VBO大小而设定的

缺点：CPU开销增加

实现：Unity内部自动实现

限制：处理对顶点的限制是顶点数900以下（Unity内置的球体就因顶点数过多而不能被动态批处理）；如果着色器使用了坐标、法线和单个UV信息，这个限制就会降到300；如果着色器使用了坐标、法线、两个UV，以及切线空间坐标信息，则这个数值就会降到180（Unity 2017.2版本）。

补充：当物体的缩放比为负时（镜像），不能进行批处理。

使用光照贴图的对象，光照贴图的相关参数一致才能进行批处理

多Pass的材质，如果两个对象使用的pass不同，也会中断批处理

动态批处理会在每帧将模型的顶点转换到世界坐标系，这部分计算发生在CPU，部分情况需要权衡这些消耗

对于每个兼容的渲染器类型，Unity将所有可批处理的内容构建到一个大的顶点缓存中

Renderer组件为批处理设置材质状态

Unity将顶点缓存绑定到图形设备

对于批处理中的每个Renderer，Unity会将偏移更新到顶点缓存中，然后提交一个新的绘制调用

在计算渲染成本时，渲染组件最慢的部分是材质状态的设置。相比之下，将不同偏移量的draw call提交到共享顶点缓存会非常快。这种方法更像是Unity在使用静态批处理时如何提交draw call

能够批处理的包括：Mesh Renderers,Trail Renderers,Line Renderers,Particle Systems,Sprite Renderers。其他的如Skinned Meshes,Cloth等渲染组件并能批处理

半透明物体在渲染时，使用的是从远到近的顺序，所以批处理对它的支持不如Opaque

手动合并（通过建模软件，或者Mesh.CombineMeshes方法）临近的物体，有时候也是不错的优化方式

GPU实例化

原理：只提交一个模型的VBO信息，但关于多个同种模型的不同信息（位置、大小和颜色等简单数据结构的信息）另外组成Per Instance Attribute(PIA)缓存并提供给GPU。当然，这个缓存是不能存储贴图信息的。GPU Instancing技术，在模型的批处理上相当有用，比如地形上大量的草，树等，当然对于这部分可以直接静态合批处理成一整个网格，但是顶点数目又会有65000个的限制。这时候GPU Instancing就有一定的优势（关键还支持材质球上属性的差异性，比如官网的例子中就提供了颜色值的差异性）

缺点：GPU instancing可以有效地减少CPU的占用率，降低显示驱动的CPU开销，但会在一定程度上增加GPU端的负担。同时，由于GPU实例化的原理，在同一批次处理的物体必须拥有相同的网格（动态合批没有这个限制）

补充：GPU实例化的简单应用：https://blog.csdn.net/Vitens/article/details/104879096

最后需要注意在Unity5.6版本后，材质选项中必须勾选Enable GPU Instancing选项，否则该材质无法参与GPU实例化