7

我通常SpriteBatch在 XNA/Monogame 中为 2d 游戏工作,并且最近刚刚研究了诸如DrawUserIndexedPrimatives之类的 3D 绘图方法。我正在做一个项目,我们的动画师希望能够剪切精灵和纹理。

随着您可以在开始剪切对象SpriteBatch时传入一个矩阵。SpriteBatch就像是:

//translate object to origin
Matrix translate1 = Matrix.CreateTranslation(-rectangle.X, -rectangle.Y, 0);

//skew the sprite 33 degrees on the X and Y axis
Matrix skew = Matrix.Identity;
skew.M12 = (float)Math.Tan(33 * 0.0174532925f);
skew.M21 = (float)Math.Tan(33 * 0.0174532925f);

//translate object back
Matrix translate2 = Matrix.CreateTranslation(rectangle.X, rectangle.Y, 0);
Matrix transform = translate1 * skew * translate2;

_spriteBatch.Begin(SpriteSortMode.Deferred, BlendState.NonPremultiplied,
                    SamplerState.PointWrap, DepthStencilState.Default,
                    RasterizerState.CullCounterClockwise, null, transform);
_spriteBatch.Draw(_texture, rectangle, Color.White);
_spriteBatch.End();

这样做的明显缺点是它需要您SpriteBatch为每个剪切的精灵进行新的开始和结束调用。我们目前只需要 2 次调用即可SpriteBatch开始我们的游戏。一个用于 UI,一个用于 World 的东西。我们的美工想要使用剪切来处理摇摆的树木或为生物的腿和四肢设置动画,所以如果我们给他们选择的话,我可以看到这个数字会跃升至 10 多个单独的批次。

平均水平有大约 250 个元素,每个元素包含 10-20 个精灵。

我已经为 Android 编写了一个测试,该测试调用了 1000 个精灵。在没有任何倾斜的情况下,它可以在大约 11 秒或大约 53fps 内绘制全部 1000、600 次。但如果我每十个精灵倾斜一次(添加 100 个新SpriteBatch调用),则需要 47 秒,或大约 12fps。

这真的很糟糕。即使只有 200 个精灵(每十分之一倾斜),测试也会下降到 28fps。

因此,我还使用使用DrawUserIndexedPrimitives. 每个 Quad 使用BasicEffect在 Game 类中创建并通过Sprite类构造函数传入的共享。我在每个之前设置了世界矩阵和纹理,pass.Apply()如下所示:

if (_basicEffect != null)
{
     foreach (EffectPass pass in _basicEffect.CurrentTechnique.Passes)
     {
        _basicEffect.World = Transform;
        _basicEffect.Texture = _texture;
        pass.Apply();

        GraphicsDevice.DrawUserIndexedPrimitives
            <VertexPositionNormalTexture>(
            PrimitiveType.TriangleList,
            _quad.Vertices, 0, 4,
            _quad.Indices, 0, 2);
}

对于 1000 个精灵,没有歪斜,这给了我 12fps(我想这就像拨打 1000 次spriteBatch电话)。这真的很糟糕。但是对于每 10 个精灵倾斜的只有 200 个精灵,我得到 46fps,这明显好于SpriteBatch(即使我调用了DrawUserIndexedPrimitives200 次)。

- -我的问题 - -

我怎么能批量调用DrawUserIndexedPrimitives(或类似的东西),同时保持我的精灵每个都包含在他们自己的继承类中DrawableGameComponent?由于我们游戏引擎的性质以及它处理动画、碰撞和其他东西的方式,最后一部分非常重要。

我已经阅读了有关 Vertex Buffers 和的内容DrawIndexedPrimitives,但并没有完全理解它,也不知道如何为以这种方式绘制的精灵分配新的纹理和世界变换。

SpriteBatch我是否应该期望与批处理这些调用相比具有相似/更好的性能?

4

1 回答 1

2

在我看来,你有几个选择,在这里。请注意,我主要熟悉 PC 上的 XNA 4.0,因此在您的情况下,并非所有这些都是可能的/高性能的。

简单,黑客的方式

绘制精灵时,您似乎没有使用颜色通道;此技术假定您的示例代表您的真实代码。

如果您不需要精灵颜色来为精灵着色,您可以劫持它作为将每个精灵数据传递到自定义顶点/像素着色器的一种方式。例如,您可以这样做:

var shearX = MathHelper.ToRadians(33) / MathHelper.TwoPi;
var shearY = MathHelper.ToRadians(33) / MathHelper.TwoPi;
var color = new Color(shearX, shearY, 0f, 0f);
_spriteBatch.Draw(_texture, rectangle, color);

这将 x 和 y 剪切值表示为分别2 * pi存储在红色和绿色通道中的因子。

然后,您可以创建一个自定义顶点着色器来检索这些值并动态执行剪切计算。有关如何执行此操作的信息,请参阅此处的Shawn Hargreaves 文章。

混合方法

另一个相对简单的可能性是将传统的精灵批处理与您的DrawUserIndexedPrimitives代码结合起来。

良好性能的关键是最大限度地减少状态变化,因此仔细排列你的 sprite 可以有很长的路要走。组织你的精灵,这样你就可以在一次使用中绘制所有非倾斜的精灵SpriteBatch,然后只使用较慢的DrawUserIndexedPrimitives技术来绘制真正需要它的精灵。假设给定帧中的大多数精灵没有倾斜,这应该会显着减少发送到 GPU 的批次数量。

批处理 + 自定义顶点格式

这可能是最好的技术,但它也涉及编写最多的代码。并不是说其中任何一个都特别复杂。

内部工作的方式SpriteBatch是它维护一个动态顶点缓冲区,该缓冲区填充在 CPU 上,然后在一次调用中全部绘制。肖恩·哈格里夫斯 (Shawn Hargreaves) 提供了有关如何在此处完成此类事情的高级概述。

扩展您DrawUserIndexedPrimitives使用此技术的问题是讨厌的世界矩阵;着色器并没有一个很好的方法将特定的世界矩阵附加到特定的精灵(除非您使用的是硬件实例化,我认为您的平台不支持)。所以,你可以做什么?

如果您创建自定义顶点格式,您可以将剪切值附加到每个顶点,并使用这些值在顶点着色器中执行剪切,就像第一种技术一样。这将允许您在一次调用中绘制所有游戏的精灵,这应该非常快。

您可以在此处找到有关自定义顶点声明的信息。

于 2013-01-25T20:30:52.657 回答