KlayGE中的延迟渲染_gbuffer分配-程序员宅基地

技术标签：图形引擎 shader 游戏引擎图形图像 KlayGE float 其它文章 each 引擎开发游戏技术理论 buffer 框架

KlayGE中的延迟渲染系列文章将讲述在KlayGE 3.11的Deferred Rendering例子中使用的延迟渲染方法，由5篇文章组成。

Deferred Lighting的框架

KlayGE 3.11的例子已经从Deferred Shading改成了更节省带宽的Deferred Lighting。这里先对Deferred Lighting作一个简要的介绍，并假设读者已经了解了Deferred Shading。

Deferred Lighting的渲染架构可以分为三个阶段：

G-Buffer的生成
for each light
{
Lighting pass
}
Shading pass

与Deferred Shading不同的是，shading（也就是和材质相关）的计算仅仅发生在最后一个阶段。所以，G-Buffer中需要保存的信息得到极大地减小，甚至不再需要MRT。

Lighting pass

Lighting pass在Deferred Lighting框架处于核心地位，在这里我打算先把lighting pass解析清楚。一旦lighting pass表达好了，G-Buffer所需要保存的信息，以及shading pass能得到的信息也都清楚了。

我以前的系列文章游戏中基于物理的渲染推出了渲染模型总公式：

$L_{o}(\mathbf{v})=\pi\rho(\mathbf{l_c}, \mathbf{v})\otimes \mathbf{c}_{light} (\mathbf{n} \cdot \mathbf{l_c})=(\mathbf{c}_{diff} + \frac {\alpha + 2} {8}(\mathbf{n} \cdot \mathbf{h})^{\alpha} F(\mathbf{c}_{spec}, \mathbf{l_c},\mathbf{h})) \otimes \mathbf{c}_{light} (\mathbf{n} \cdot \mathbf{l_c})$

再有N个光源的情况下，每个像素的光照响应就是

$L_{o}(\mathbf{v})=\pi\rho(\mathbf{l_{c1}}, \mathbf{v})\otimes \mathbf{c}_{light1} (\mathbf{n} \cdot \mathbf{l_{c1}})$

$+\pi\rho(\mathbf{l_{c2}}, \mathbf{v})\otimes \mathbf{c}_{light2} (\mathbf{n} \cdot \mathbf{l_{c2}})$

$+ \ldots$

$+\pi\rho(\mathbf{l_cN}, \mathbf{v})\otimes \mathbf{c}_{lightN} (\mathbf{n} \cdot \mathbf{l_{cN}})$

对于Deferred shading来说，每一个shading pass就是执行一个

$\pi\rho(\mathbf{l_cn}, \mathbf{v})\otimes \mathbf{c}_{lightn} (\mathbf{n} \cdot \mathbf{l_cn})$

而对于Deferred lighting来说，公式需要重新整理一下：

$L_{o}(\mathbf{v})=(\mathbf{c}_{diff} + \frac {alpha + 2} {8}(\mathbf{n} \cdot \mathbf{h_1})^{\alpha} F(\mathbf{c}_{spec}, \mathbf{l_{c1}},\mathbf{h_1})) \otimes \mathbf{c}_{light1} (\mathbf{n} \cdot \mathbf{l_{c1}})$

$+(\mathbf{c}_{diff} + \frac {\alpha + 2} {8}(\mathbf{n} \cdot \mathbf{h_2})^{\alpha} F(\mathbf{c}_{spec}, \mathbf{l_{c2}},\mathbf{h_2})) \otimes \mathbf{c}_{light2} (\mathbf{n} \cdot \mathbf{l_{c2}})$

$+\ldots$

$+(\mathbf{c}_{diff} + \frac {alpha + 2} {8}(\mathbf{n} \cdot \mathbf{h_N})^{\alpha} F(\mathbf{c}_{spec}, \mathbf{l_{cN}},\mathbf{h_N})) \otimes \mathbf{c}_{lightN} (\mathbf{n} \cdot \mathbf{l_{cN}})$

$=\mathbf{c}_{diff}\otimes (\mathbf{c}_{light1} (\mathbf{n} \cdot \mathbf{l_{c1}}) + \mathbf{c}_{light2} (\mathbf{n} \cdot \mathbf{l_{c2}}) + \ldots + \mathbf{c}_{lightN} (\mathbf{n} \cdot \mathbf{l_{cN}}))$

$+ \frac {\alpha + 2} {8}(((\mathbf{n} \cdot \mathbf{h_1})^{\alpha} F(\mathbf{c}_{spec}, \mathbf{l_{c1}},\mathbf{h_1})) \otimes \mathbf{c}_{light1} (\mathbf{n} \cdot \mathbf{l_{c1}})$

$+ ((\mathbf{n} \cdot \mathbf{h_2})^{\alpha} F(\mathbf{c}_{spec}, \mathbf{l_{c2}},\mathbf{h_2})) \otimes \mathbf{c}_{light2} (\mathbf{n} \cdot \mathbf{l_{c2}})$

$+ \ldots$

$+ ((\mathbf{n} \cdot \mathbf{h_N})^{\alpha} F(\mathbf{c}_{spec}, \mathbf{l_{cN}},\mathbf{h_N})) \otimes \mathbf{c}_{lightN} (\mathbf{n} \cdot \mathbf{l_{cN}}))$

由于c_diff是到最后的shading pass才计算，所以在每一个light pass里面，diffuse和specular必须分开才能保证结果正确：

$Diffuse: \mathbf{c}{lightn} (\mathbf{n} \cdot \mathbf{l_{cn}})$

$Specular: ((\mathbf{n} \cdot \mathbf{h_n})^{alpha} F(\mathbf{c}_{spec}, \mathbf{l_{cn}},\mathbf{h_n})) \otimes \mathbf{c}_{lightn} (\mathbf{n} \cdot \mathbf{l_{cn}})$

为了把diffuse和specular放入4个通道的buffer中，就只能牺牲specular的颜色，只剩下亮度，同时c_spec也简化成一个标量。所以，lighting pass的计算成了：

$float4(1, 1, 1, (\mathbf{n} \cdot \mathbf{h_n})^{\alpha} F(c_{spec}, \mathbf{l_{cn}},\mathbf{h_n})) \times \mathbf{c}_{lightn} (\mathbf{n} \cdot \mathbf{l_{cn}})$

本系列的第一篇暂告一段落，下一篇将介绍G-Buffer的分配。

G-Buffer分配

在Deferred Rendering的框架中，不管是Deferred Shading还是Deferred Lighting，G-Buffer的分配都是非常关键的。上一篇得出的lighting pass公式如下：

$float4(1, 1, 1, (\mathbf{n} \cdot \mathbf{h_n})^{\alpha} F(c_{spec}, \mathbf{l_{cn}},\mathbf{h_n})) \times \mathbf{c}_{lightn} (\mathbf{n} \cdot \mathbf{l_{cn}})$

从公式可以看出，在light pass里需要的量有n，h，alpha，c_spec，l_c。因为h = (v +l_c) / 2（见游戏中基于物理的渲染系列文章），而l_c = normalize(l –p)（l是光源位置，p是要计算的点位置），所以最终需要G-Buffer提供的量有：n，p，alpha和c_spec。要完整的保存这些量，一共需要8个通道，normal占3个，position占3个，alpha和c_spec分别占一个。这样对G-Buffer来说消耗太大了，必须要缩减。

显而易见的是，normal是经过归一化的，只需要保存2个分量。http://aras-p.info/texts/CompactNormalStorage.html比较了多种保存2分量的方法，其中Spheremap transform速度和效果综合起来最佳，Crytek也在用同样的方法，即：

float2 encode(float3 normal)
{
   return normalize(normal.xy) * sqrt(normal.z * 0.5 + 0.5);
}
float3 decode(float2 n)
{
   float3 normal;
   normal.z = dot(n, n) * 2 - 1;
   normal.xy = normalize(n) * sqrt(1 - normal.z * normal.z);
   return normal;
}

下一步是position。实际上像素所在的位置已经提供了x和y，需要保存的仅仅是z。position何以很好地从z和像素位置计算出来。这里保存的是 view space的z除以far plane。在lighting pass，pixel shader里拿到像素在view space的位置之后，做这样的计算：

p = view_dir * ((z * far_plane) / view_dir.z);

其中，view_dir是在vertex shader中计算之后传到pixel shader。对于把光源的几何体直接作为光源几何的情况（如果你不熟悉这个，请见下篇），那么view_dir就是顶点乘上world * view矩阵之后的结果。对于用全屏的四边形作为光源几何的情况，view_dir就是把view frustum在far plane上的四个点乘上inverse(projection)矩阵之后的结果。z * far_plane就还原出了该点在view space的z，然后根据相似三角形的定理很容易就能推出这个还原公式。现在，position成功地压缩到了1个通道。

剩下的就是alpha和c_spec。如果不需要fresnel，可以直接忽略c_spec，留到shading pass再做，这里直接存alpha就可以了。否则，就需要把alpha和c_spec放入同一个通道。我用的方法是，floor(c_spec * 100)作为整数部分，clamp(alpha, 0, 255) / 256座位小数部分。这样的限制是，alpha取值范围为[0, 256)，一般来说够用了。

由此，所有lighting pass需要的信息都被压进4个通道内，G-Buffer只需要1张texture，省去了MRT。

Shading Pass

shading pass需要把前面所有lighting pass积累出来的光照信息和物体本身的材质信息组合起来，得出最后的着色。物体材质中的c_spec已经存在G-Buffer，并在lighting pass中计算了，所以shading pass输入的材质有c_diff，c_spec，c_emit，alpha。别忘了在上一篇的公式中，specular号需要乘上归一化系数(alpha + 2) / 8。另一方面，在lighting pass的结果里，rgb存的是积累的diffuse，a存的是积累的specular亮度，如果还有计算AO，那么shading所用的公式就是：

$\mathbf{c}_{emit} + (lighting.rgb * \mathbf{c}_{diff} + \frac{alpha + 2}{8} * lighting.a) * ao$

如果在G-Buffer和lighting pass因为不考虑fresnel而至保存了alpha，那么shading pass的公式就变成：

$\mathbf{c}_{emit} + (lighting.rgb * \mathbf{c}_{diff} + \frac{alpha + 2}{8} * \mathbf{c}_{spec} * lighting.a) * ao$

现在Deferred Lighting的3个阶段都已经得到解释，下一篇将讲解如何更快地计算lighting pass。

Anti-Alias

从Deferred Shading发明的一天起，anti-alias的问题就一直困扰着所有Deferred的方法。虽然很多无良的游戏厂商直接在Deferred Rendering的游戏里不支持AA，但确实AA对提升画面质量很有帮助。

Edge AA

在Deferred的框架里，很自然会想到用Edge AA来处理AA。其过程不外乎：

边缘检测，得到每个像素“像边缘的程度”
在shader里根据“像边缘的程度”来控制采样坐标

这本身并不是个复杂的过程，尤其是第二步，非常直截了当了，所以这里集中讨论的是如何进行边缘检测。

GPU Gems 2的“Deferred Shading in STALKER”一文提供了一种边缘检测的方法，通过把周围像素的法线差和深度差的和来判断边缘，由e_barrier这个参数来定义阈值和比例，而这个参数和分辨率有关。GPU Gems 3的“Deferred Shading in Tabula Rasa”改进了这个过程，只判断法线差和深度差最大和最小的两组。由于只是局部的相对量而已，这样就做到了和分辨率无关的边缘检测。KlayGE目前用的也是这种方法，得到的边缘如下：

另一个可能用于边缘检测的方法是，第二篇文章提到了如何恢复出每个pixel的view space position，每个pixel取得周围4个pixel的位置之后，就可以直接cross得出一个normal，姑且称为screen space normal。如果一个像素是连续的，那么这个normal就会很接近于G-Buffer中保存的normal，否则它们的方向就会差别很大。下图为G-Buffer中的normal：

这是screen space计算出的normal：

把这两个normal做一次dot，小于某个阈值的就认为是边缘，得到：

利用硬件MSAA作边缘检测

前面提到的边缘检测结果虽然不错，但其实都是是参数相关的。能否就用硬件的MSAA来做边缘检测呢？在Shader model 3.0以上的GPU，vertex attribute插值的时候可以选择centroid这个modifier。开启了centroid的attribute，会选择覆盖到的sample中心来插值，而不是像素中心。所以，同一个属性，如果即有centroid又有不带centroid的版本都传给pixel shader，在pixel shader里面判断两者不一致，就表示这个pixel在边缘上。这样的话，边缘的情况就和硬件MSAA完全一致了。但其实MSAA会过渡判断边缘，所有三角形的边缘都会被认出来，即便只是物体内部的。所以谨慎使用。

能不能就用MSAA？

前面讨论了那么多都是基于Edge的AA。在Deferred Lighting框架下，难道就不能直接用MSAA？可以！这也是Deferred Lighting比Deferred Shading优秀的方面之一。Deferred Shading不能直接MSAA的本质原因是在G-Buffer之后，物体几何信息全部抛弃了。相比Deferred Lighting，在shading pass，物体会被再次渲染一遍，这个时候还是有几何信息的，如果在shading pass打开了MSAA，就可以像Forward shading那样利用硬件MSAA了。唯一不同的是，光照来自于lighting pass的texture，而不是从光源计算。就算硬件MSAA，也只是每个pixel执行一次pixel shader，在按照覆盖情况写入sample的，所以在这里视觉上几乎和Forward shading一样。

讲了这么多AA方面的事情，下一篇将讨论一些对Deferred Rendering的扩展，以及未来的工作。

展望未来

shading pass再次渲染物体的改进

Deferred Lighting最受争议的一点应属在shading pass需要再次渲染几何体了。如果物体很多，尤其是有tessellation和GS的，多渲一遍有可能抵消了lighting pass带来的性能提升。改进的方法之一就是在建立G-Buffer阶段，用类似Deferred Shading的fat G-Buffer。除了原先的一张纹理，还需要一张纹理用来存放diffuse信息。但是lighting pass和原来一样，不涉及diffuse。shading pass就变成画一个全屏四边形，从G-Buffer的第二章纹理读取diffuse，进行着色。甚至emit也这么处理。这种方法介于Deferred Shading和Deferred Lighting之间。

彩色的specular

在本系列的第一篇文章里，为了把lighting pass中的diffuse和specular都塞到4个通道里，就只能舍弃specular的颜色，只保存亮度。如果要RGB三个通道的 specular，近似的方法是通过diffuse积累结果的颜色来计算specular的颜色。这是个很粗糙的近似，虽然不是正确的，不过能骗骗眼睛：

$specular = diffuse(\frac{lum_{spec}}{lum_{diff} + \epsilon})$

其中lum_spec是累积出来的specular亮度，lum_diff是用累积出来的diffuse颜色计算出的亮度。epsilon是为了避免lum_diff为零。
另一种方法是lighting pass用6个通道。但是如果每个通道都是float 16的，也就是96bpp，带宽开销非常大，就不合适了。我的一个想法是把diffuse和specular都转换到YUV空间。这个空间的一个好处是Y 是float 16的，U和V都只要8 bit就可以了。所以可以这么安排MRT：第一张texture格式为G16R16F，保存diffuse和specular的Y；第二张texture 格式为ABGR8，分别保存两者的U和V。这样只有64bpp，但能保存正确的彩色diffuse和specular。由于YUV格式也是可以相加的，这个地方仍可以用原先的lighting pass积累方法。

inferred lighting

Lighting pass可以借用inferred lighting的核心思想来加速。也就是说，lighting pass不需要全尺寸，只需要在一个比较小的render target上执行即可（比如3/4大小）。G-Buffer仍是全尺寸的，并在G-Buffer生成后作一次边缘检测。Shading pass也是全尺寸的，在采样lighting pass texture的时候，利用边缘检测的结果进行保边缘的插值（一般称为Discontinuity Sensitive Filtering，DSF），得到全尺寸lighting的近似。

上图是使用了800×450的lighting直接拉伸到1280×720做shading的结果，关闭DSF，锯齿严重。下图打开了DSF，基本解决了锯齿问题。

Anti-alias

上一篇文章讲了很多AA的方法，但那些都是在空间上做AA，比较适合近处物体。对于远处物体来说，空间上AA得到的收益有限，必须在时间上进行AA。结合上MLAA的威力，应该能有很小的代价实现很接近16xMSAA的结果。

各向异性BRDF

Crytek的“CryENGINE 3: Reaching the speed of light”里提到了在Deferred Lighting框架下加入各向异性BRDF的方法。它用了Spherical Gaussian（SG）来近似出NDF（来自于SIGGRAPH Asia 2009的All-Frequency Rendering of Dynamic, Spatially-Varying Reflectance），但这个SG只是per-object的。在G-Buffer阶段，不保存normal，而保存SG展开成lobe的系数。而 BRDF的其他几个项，Fresnel term、Geometry term，都留到shading pass才计算。这种方法的好处是，对lighting pass来说一切都是透明的，它照样可以按原来的方法累积光照，因为Microfacet BRDF中除了NDF，其他都作为公因数提取出去了（Microfacet BRDF的详细讲解可以参见“游戏中基于物理的渲染（三）”）。实际上，Fresnel term的系数是l和h，必须在lighting pass做。这里相信Crytek是用了n和v来代替，这样不是物理正确的，只有在高光的中心点，dot(l,h)才等于dot(n, v)，其他地方dot (n,v)会更迅速地衰减，到边缘地方就非常明显了。如果不在乎这个，是可以把NDF都用SG来表示，并用统一的方法进行渲染。

保存lobe的G-Buffer是这个样子的：

各向异性BRDF渲染出来的结果：

KlayGE中的延迟渲染就介绍到这里了。

本文链接：https://blog.csdn.net/pizi0475/article/details/7521399

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

linux里面ping www.baidu.com ping不通的问题_linux桥接ping不通baidu-程序员宅基地

文章浏览阅读3.2w次，点赞16次，收藏90次。对于这个问题我也是从网上找了很久，终于解决了这个问题。首先遇到这个问题，应该确认虚拟机能不能正常的上网，就需要ping 网关，如果能ping通说明能正常上网，不过首先要用命令route -n来查看自己的网关，如下图：第一行就是默认网关。现在用命令ping 192.168.1.1来看一下结果：然后可以看一下电脑上面百度的ip是多少可以在linux里面ping 这个IP，结果如下：..._linux桥接ping不通baidu

android 横幅弹出权限,有关 android studio notification 横幅弹出的功能没有反应-程序员宅基地

文章浏览阅读512次。小妹在这里已经卡了2-3天了，研究了很多人的文章，除了低版本api 17有成功外，其他的不是channel null 就是没反应 (channel null已解决)拜托各位大大，帮小妹一下，以下是我的程式跟 gradle, 我在这里卡好久又没有人可问(哭)![image](/img/bVcL0Qo)public class MainActivity extends AppCompatActivit..._android 权限申请弹窗横屏

CNN中padding参数分类_cnn “相同填充”(same padding)-程序员宅基地

文章浏览阅读1.4k次，点赞4次，收藏6次。valid padding（有效填充）：完全不使用填充。half/same padding（半填充/相同填充）：保证输入和输出的feature map尺寸相同。full padding（全填充）：在卷积操作过程中，每个像素在每个方向上被访问的次数相同。arbitrary padding（任意填充）：人为设定填充。..._cnn “相同填充”(same padding)

Maven的基础知识，java技术栈-程序员宅基地

文章浏览阅读790次，点赞29次，收藏28次。手绘了下图所示的kafka知识大纲流程图（xmind文件不能上传，导出图片展现），但都可提供源文件给每位爱学习的朋友一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！[外链图片转存中…(img-Qpoc4gOu-1712656009273)][外链图片转存中…(img-bSWbNeGN-1712656009274)]

getFullYear()和getYear()有什么区别_getyear和getfullyear-程序员宅基地

文章浏览阅读469次。Date对象取得年份有getYear和getFullYear两种方法经测试var d=new Date;alert(d.getYear())在IE中返回 2009，在Firefox中会返回109。经查询手册，getYear在Firefox下返回的是距1900年1月1日的年份，这是一个过时而不被推荐的方法。而alert(d.getFullYear())在IE和FF中都会返回2009。因此，无论何时都应使用getFullYear来替代getYear方法。例如：2016年用 getFullYea_getyear和getfullyear

Unix传奇（上篇）_unix传奇pdf-程序员宅基地

文章浏览阅读182次。Unix传奇(上篇) 陈皓了解过去，我们才能知其然，更知所以然。总结过去，我们才会知道我们明天该如何去规划，该如何去走。在时间的滚轮中，许许多的东西就像流星一样一闪而逝，而有些东西却能经受着时间的考验散发着经久的魅力，让人津津乐道，流传至今。要知道明天怎么去选择，怎么去做，不是盲目地跟从今天各种各样琳琅满目前沿技术，而应该是去 —— 认认真真地了解和回顾历史。 Unix是目前还在存活的操作系_unix传奇pdf

随便推点

ACwing 哈希算法入门：_ac算法哈希-程序员宅基地

文章浏览阅读308次。哈希算法：将字符串映射为数字形式，十分巧妙，一般运用为进制数，进制据前人经验，一般为131，1331时重复率很低，由于字符串的数字和会很大，所以一般为了方便，一般定义为unsigned long long,爆掉时，即为对 2^64 取模，可以对于任意子序列的值进行映射为数字进而进行判断入门题目链接：AC代码：#include<bits/stdc++.h>using na..._ac算法哈希

VS配置Qt和MySQL_在vs中如何装qt5sqlmysql模块-程序员宅基地

文章浏览阅读952次，点赞13次，收藏27次。由于觉得Qt的编辑界面比较丑，所以想用vs2022的编辑器写Qt加MySQL的项目。_在vs中如何装qt5sqlmysql模块

【渝粤题库】广东开放大学互联网营销形成性考核_画中画广告之所以能有较高的点击率,主要由于它具有以下特点-程序员宅基地

文章浏览阅读1k次。选择题题目：下面的哪个调研内容属于经济环境调研？（）题目：（）的目的就是加强与客户的沟通，它是是网络媒体也是网络营销的最重要特性。题目：4Ps策略中4P是指产品、价格、顾客和促销。题目：网络市场调研是目前最为先进的市场调研手段，没有任何的缺点或不足之处。题目：市场定位的基本参数有题目：市场需求调研可以掌握（）等信息。题目：在开展企业网站建设时应做好以下哪几个工作。（）题目：对企业网站首页的优化中，一定要注意下面哪几个方面的优化。（）题目：（）的主要作用是增进顾客关系，提供顾客服务，提升企业_画中画广告之所以能有较高的点击率,主要由于它具有以下特点

爬虫学习（1）：urlopen库使用_urlopen the read operation timed out-程序员宅基地

文章浏览阅读1k次，点赞2次，收藏5次。以爬取CSDN为例子：第一步：导入请求库第二步：打开请求网址第三步：打印源码import urllib.requestresponse=urllib.request.urlopen("https://www.csdn.net/?spm=1011.2124.3001.5359")print(response.read().decode('utf-8'))结果大概就是这个样子：好的，继续，看看打印的是什么类型的：import urllib.requestresponse=urllib.r_urlopen the read operation timed out

分享读取各大主流邮箱通讯录(联系人)、MSN好友列表的的功能【升级版(3.0)】-程序员宅基地

文章浏览阅读304次。修正sina.com/sina.cn邮箱获取不到联系人，并精简修改了其他邮箱代码，以下就是升级版版本的介绍：完整版本，整合了包括读取邮箱通讯录、MSN好友列表的的功能，目前读取邮箱通讯录支持如下邮箱：gmail(Y)、hotmail(Y)、 live(Y)、tom(Y)、yahoo(Y)(有点慢)、 sina(Y)、163(Y)、126(Y)、yeah(Y)、sohu(Y) 读取后可以发送邮件(完..._通讯录应用读取邮件的相关

云计算及虚拟化教程_云计算与虚拟化技术教改-程序员宅基地

文章浏览阅读213次。云计算及虚拟化教程学习云计算、虚拟化和计算机网络的基本概念。此视频教程共2.0小时，中英双语字幕，画质清晰无水印，源码附件全课程英文名：Cloud Computing and Virtualization An Introduction百度网盘地址：https://pan.baidu.com/s/1lrak60XOGEqMOI6lXYf6TQ?pwd=ns0j课程介绍：https://www.aihorizon.cn/72云计算：概念、定义、云类型和服务部署模型。虚拟化的概念使用 Type-2 Hyperv_云计算与虚拟化技术教改