3

我正在用 openGL 编写一个 2D 游戏,在渲染覆盖整个窗口的几个纹理时遇到了一些性能问题。

我所做的实际上是创建一个具有屏幕大小的纹理,使用 FBO 将我的场景渲染到该纹理上,然后使用不同的偏移量渲染纹理几次以获得一种“阴影”。但是当我这样做时,我在使用集成显卡时性能会大幅下降。

所以总而言之,我在整个屏幕上渲染了 7 个四边形(背景图像、5 个带有黑色“色调”的“阴影图像”和具有相同纹理的真实颜色)。我正在使用大小为 1024x1024 的 RGBA 纹理,并将它们放在 900x700 的窗口中。当我不渲染纹理时,我得到 200 FPS 和 34 FPS(在这两种情况下,我实际上都创建了纹理并将场景渲染到它上面)。我觉得这很奇怪,因为我基本上只渲染 7 个四边形。一个奇怪的事情是,当我运行 CPU 分析器时,它并没有表明这是瓶颈(我知道 opengl 使用管道架构,这可能会发生,但大多数时候不会发生)。

当我使用我的外部视频卡时,当我进行上述测试时,我得到一致的 200 FPS。但是当我禁用场景渲染到纹理上并禁用纹理渲染到屏幕上时,我得到了 ~1000 FPS。这只发生在我的外部显卡上——当我使用集成显卡禁用 FBO 时,我得到相同的 200 FPS。这真的让我很困惑。

谁能解释发生了什么以及上述数字是否正确?

集成显卡 - Intel HD Graphics 4000

外接显卡 - NVIDIA GeForce GTX 660M

PS 我正在用 C# 编写我的游戏——所以如果有帮助的话,我会使用 OpenTK。

编辑:

首先感谢所有的回复——它们在某种程度上都非常有帮助,但不幸的是,我认为除了“简化/优化你的代码”之外,还有更多的东西。让我分享一些我的渲染代码:

//fields defined when the program is initialized

Rectangle viewport;
//Texture with the size of the viewport
Texture fboTexture;
FBO fbo;

//called every frame
public void Render()
{
    //bind the texture to the fbo
    GL.BindFramebuffer(FramebufferTarget.Framebuffer, fbo.handle);
    GL.FramebufferTexture2D(FramebufferTarget.Framebuffer, fboTexture,
       TextureTarget.Texture2D, texture.TextureID, level: 0);

    //Begin rendering in Ortho 2D space
    GL.MatrixMode(MatrixMode.Projection);
    GL.PushMatrix();
    GL.LoadIdentity();
    GL.Ortho(viewport.Left, viewport.Right, viewport.Top, viewport.Bottom, -1.0, 1.0);
    GL.MatrixMode(MatrixMode.Modelview);
    GL.PushMatrix();
    GL.LoadIdentity();

    GL.PushAttrib(AttribMask.ViewportBit);
    GL.Viewport(viewport);

    //Render the scene - this is really simple I render some quads using shaders
    RenderScene();

    //Back to Perspective
    GL.PopAttrib(); // pop viewport
    GL.MatrixMode(MatrixMode.Projection);
    GL.PopMatrix();
    GL.MatrixMode(MatrixMode.Modelview);
    GL.PopMatrix();

    //Detach the texture
    GL.FramebufferTexture2D(FramebufferTarget.Framebuffer, fboTexture, 0,
                    0, level: 0);
    //Unbind the fbo
    GL.BindFramebuffer(FramebufferTarget.Framebuffer, 0);

    GL.PushMatrix();
    GL.Color4(Color.Black.WithAlpha(128)); //Sets the color to (0,0,0,128) in a RGBA format

    for (int i = 0; i < 5; i++)
    {
        GL.Translate(-1, -1, 0);
        //Simple Draw method which binds the texture and draws a quad at (0;0) with
        //its size
        fboTexture.Draw();
    }
    GL.PopMatrix();
    GL.Color4(Color.White);
    fboTexture.Draw();
}

所以我认为 fbo 和渲染到纹理上实际上没有任何问题,因为这不会导致程序在我的两张卡上变慢。以前我每帧都初始化 fbo,这可能是我的 Nvidia 卡变慢的原因,但现在当我预初始化所有内容时,无论有没有 fbo,我都会得到相同的 FPS。

我认为问题不在于一般的纹理,因为如果我禁用纹理并只渲染无纹理的四边形,我会得到相同的结果。而且我仍然认为我的集成卡在屏幕上仅渲染 7 个四边形时运行速度应该超过 40 FPS,即使它们覆盖了整个屏幕。

你能给我一些关于如何实际分析这个并回发结果的提示吗?那真的很有用。

编辑2:

好的,我进行了一些实验,并设法获得了更好的性能。首先,我尝试使用着色器渲染最终的四边形——这并没有像我预期的那样对性能产生任何影响。

然后我尝试运行分析器。但据我所知,SlimTune 只是一个 CPU 分析器,它并没有给我想要的结果。然后我尝试了 gDEBUgger。它与 Visual Studio 集成,后来我发现它不支持 .NET 项目。我尝试运行外部版本,但它似乎不起作用(但也许我只是玩得不够多)。

真正起到作用的是,我不是直接将 7 个四边形渲染到屏幕上,而是首先将它们渲染到纹理上,再次使用 fbo,然后将最终纹理渲染到屏幕上一次。这使我的 fps 从 40 提高到 120。至少可以说,这似乎是一种古玩。为什么渲染到纹理方式比直接渲染到屏幕更快?尽管如此,感谢大家的帮助 - 看来我已经解决了我的问题。如果有人对这种情况提出合理的解释,我将不胜感激。

4

3 回答 3

6

显然这是一个猜测,因为我没有看到或分析您的代码,但我猜集成卡只是在为您的后期处理而苦苦挣扎(多次绘制纹理以实现您的“阴影”效果)。

我不知道你对这些概念的熟悉程度,如果我在这里有点冗长,很抱歉。

关于后处理

后期处理是在将完成的场景显示在屏幕上之前,将完成的场景渲染到纹理,并对图像应用效果的过程。后处理的典型用途包括:

  • Bloom - 通过将明亮像素“渗透”到相邻的较暗像素中,更自然地模拟亮度。

  • 高动态范围渲染 - Bloom 的大哥。场景被渲染为浮点纹理,允许更大的颜色范围(而不是通常的黑色 0 和全亮度 1)。屏幕上显示的最终颜色是使用屏幕上所有像素的平均亮度计算的。所有这一切的效果是相机的行为有点像人眼 - 在黑暗的房间里,明亮的光线(例如,透过窗户)看起来非常明亮,但是一旦你到外面,相机就会调整并且光线看起来只是如果你直视太阳,它会很亮。

  • Cel-shading - 修改颜色以提供类似卡通的外观。

  • 运动模糊

  • 景深 - 游戏中的相机接近真实的(或你的眼睛),其中只有一定距离的物体是焦点,其余的都是模糊的。

  • 延迟着色 - 一种相当先进的后处理应用程序,在渲染场景后计算照明。这会消耗大量视频 RAM(它通常使用多个全屏纹理),但允许将大量灯光快速添加到场景中。

简而言之,您可以将后期处理用于许多巧妙的技巧。很遗憾...

后期处理是有成本的

后期处理最酷的地方在于它的成本与场景的几何复杂性无关——无论是绘制一百万个三角形还是绘制十几个三角形,都将花费相同的时间。然而,这也是它的缺点。即使您只是一遍又一遍地渲染四边形来进行后处理,渲染每个像素也是有成本的。如果要使用更大的纹理,成本会更高。

专用显卡显然有更多的计算资源来应用后处理,而集成卡通常可以应用的资源要少得多。正是由于这个原因,视频游戏上的“低”图形设置通常会禁用许多后期处理效果。这不会显示为 CPU 分析器的瓶颈,因为延迟发生在显卡上。CPU 正在等待显卡完成后再继续执行程序(或者更准确地说,CPU 在等待显卡完成时正在运行另一个程序)。

如何加快速度?

  • 使用更少的通行证。如果将通行证减半,则进行后处理所需的时间减半。为此,

  • 使用着色器。由于我没有看到您在任何地方提及它们,因此我不确定您是否使用着色器进行后期处理。着色器本质上允许您使用类 C 语言编写函数(因为您在 OpenGL 中,您可以使用 GLSL 或 Cg),该函数在对象的每个渲染像素上运行。它们可以采用您喜欢的任何参数,并且对于后期处理非常有用。您使用着色器设置要绘制的四边形,然后您可以插入您希望在场景的每个像素上运行的任何算法。

于 2012-10-30T01:07:45.630 回答
1

看到一些代码会很好。如果两者之间的唯一区别是是否使用外部 GPU,则区别可能在于内存管理(即创建 FBO 的方式和时间等),因为将数据流式传输到 GPU 可能会很慢。尝试移动任何创建任何类型的 OpenGL 缓冲区或向其发送任何类型的数据以进行初始化的东西。如果没有确切地看到你在做什么,我真的无法给出更详细的建议。

于 2012-10-30T00:25:07.710 回答
1

这不仅仅是您渲染的四边形数量,我相信在您的情况下,它与填充视频卡的三角形数量有关。

如前所述,进行全屏后期处理的常用方法是使用着色器。如果您想在集成卡上获得更好的性能并且不能使用着色器,那么您应该简化渲染程序。

确保您确实需要 Alpha 混合。在某些卡/驱动程序上,使用 Alpha 通道渲染纹理会显着降低性能。

一种降低全屏填充量的低质量方法是首先在另一个较小的纹理(例如,256x256 而不是 1024x1024)上执行所有阴影绘制。然后,您将使用该复合阴影纹理绘制一个四边形到您的缓冲区。这种方式而不是 7 个 1024x1024 四边形,您只需要 6 个 256x256 和一个 1024x1024。但你会失去决心。

Another technique, and I'm not sure it can be applied in your case, is to pre-render your complex background so you'll have to do less drawing in your rendering loop.

于 2012-10-30T03:05:19.857 回答