data-oriented-design - 什么是面向数据的设计？

Question

我正在阅读这篇文章，这个人继续谈论每个人都可以如何从混合面向数据的设计和 OOP 中受益匪浅。但是，他没有显示任何代码示例。

我用谷歌搜索了这个，找不到任何关于这是什么的真实信息，更不用说任何代码示例了。有没有人熟悉这个术语并可以提供一个例子？这可能是其他东西的不同词吗？

score 360 · Accepted Answer

首先，不要将此与数据驱动设计混淆。

我对面向数据的设计的理解是，它是关于组织数据以进行有效处理。特别是关于缓存未命中等。另一方面，数据驱动设计是关于让数据控制程序的许多行为（ Andrew Keith 的回答很好地描述了）。

假设您的应用程序中有球对象，其属性包括颜色、半径、弹性、位置等。

面向对象的方法

在 OOP 中，您会这样描述球：

class Ball {
    Point  position;
    Color  color;
    double radius;

    void draw();
};

然后你会创建一个这样的球集合：

vector<Ball> balls;

面向数据的方法

然而，在面向数据的设计中，您更有可能编写如下代码：

class Balls {
    vector<Point>  position;
    vector<Color>  color;
    vector<double> radius;

    void draw();
};

如您所见，不再有一个单位代表一个球。球对象仅隐式存在。

在性能方面，这可以有很多优点。通常，我们希望同时对多个球进行操作。硬件通常需要大量连续的内存块来高效运行。

其次，您可能会执行仅影响球的部分属性的操作。例如，如果您以各种方式组合所有球的颜色，那么您希望缓存仅包含颜色信息。但是，当所有球的属性都存储在一个单元中时，您也将拉入球的所有其他属性。即使你不需要它们。

缓存使用示例

假设每个球占用 64 个字节，一个点占用 4 个字节。一个高速缓存槽也需要 64 个字节。如果我想更新 10 个球的位置，我必须将 10 x 64 = 640 字节的内存拉入缓存并获得 10 个缓存未命中。但是，如果我可以将球的位置作为单独的单元来处理，那将只需要 4 x 10 = 40 个字节。这适合一次缓存提取。因此，我们只有 1 个缓存未命中来更新所有 10 个球。这些数字是任意的——我假设缓存块更大。

但它说明了内存布局如何对缓存命中和性能产生严重影响。随着 CPU 和 RAM 速度之间的差异扩大，这只会增加重要性。

如何布局内存

在我的例子中，我简化了很多问题，因为通常对于任何普通应用程序，您可能会同时访问多个变量。例如位置和半径可能会经常一起使用。那么你的结构应该是：

class Body {
    Point  position;
    double radius;
};

class Balls {
    vector<Body>  bodies;
    vector<Color>  color;

    void draw();
};

您应该这样做的原因是，如果一起使用的数据被放置在单独的数组中，那么它们可能会竞争缓存中的相同插槽。因此加载一个会抛出另一个。

因此，与面向对象编程相比，您最终创建的类与您的问题心理模型中的实体无关。由于数据是根据数据使用情况汇总在一起的，因此在面向数据的设计中，您不会总是有合理的名称来为您的类命名。

与关系数据库的关系

面向数据设计背后的思想与您对关系数据库的看法非常相似。优化关系数据库还可以更有效地使用缓存，尽管在这种情况下，缓存不是 CPU 缓存，而是内存中的页面。一个好的数据库设计者也可能会将不经常访问的数据拆分到一个单独的表中，而不是创建一个包含大量列的表，而其中只有少数列被使用过。他还可能选择对某些表进行非规范化，以便不必从磁盘上的多个位置访问数据。就像面向数据的设计一样，这些选择是通过查看数据访问模式是什么以及性能瓶颈在哪里来做出的。

score 23 · Accepted Answer

Mike Acton最近公开谈论了面向数据的设计：

我对它的基本总结是：如果你想要性能，那么考虑数据流，找到最有可能与你纠缠的存储层并努力优化它。Mike 专注于 L2 缓存未命中，因为他正在实时处理，但我想这同样适用于数据库（磁盘读取）甚至 Web（HTTP 请求）。我认为这是一种进行系统编程的有用方法。

请注意，它并不能免除您对算法和时间复杂性的思考，它只是将您的注意力集中在找出最昂贵的操作类型上，然后您必须使用您疯狂的 CS 技能来瞄准。

score 15 · Accepted Answer

我只想指出，Noel 专门谈论了我们在游戏开发中面临的一些特定需求。我想其他正在进行实时软仿真的部门会从中受益，但它不太可能成为一种对一般商业应用程序有显着改进的技术。这种设置是为了确保从底层硬件中挤出最后一点性能。

score 1 · Accepted Answer

面向数据的设计是一种设计，其中应用程序的逻辑是由数据集而不是过程算法构建的。例如

程序方法。

int animation; // this value is the animation index

if(animation == 0)
   PerformMoveForward();
else if(animation == 1)
  PerformMoveBack();
.... // etc

数据设计方法

typedef struct
{
   int Index;
   void (*Perform)();
}AnimationIndice;

// build my animation dictionary
AnimationIndice AnimationIndices[] = 
  {
      { 0,PerformMoveForward }
      { 1,PerformMoveBack }
  }

// when its time to run, i use my dictionary to find my logic
int animation; // this value is the animation index
AnimationIndices[animation].Perform();

像这样的数据设计促进使用数据来构建应用程序的逻辑。它更容易管理，尤其是在可能有数千条基于动画或其他因素的逻辑路径的视频游戏中。

score 1 · Accepted Answer

如果你想利用现代处理器架构，你需要以某种方式在内存中布局你的数据。CPU 非常擅长处理在内存中按顺序排列的简单类型。任何其他布局都具有更高的处理成本。

在面向对象的方法中，您总是考虑一个实例，然后通过将对象分组到集合中来将其扩展到多个实例。但从硬件的角度来看，这会带来额外的成本。

在面向数据的方法中，您没有像在面向对象编程中那样的“实例”。您的实例可以有一个标识符，类似于关系数据库中的数据，但除此之外，与您的实例相关的数据可以拆分为多个表（表被实现为向量），以实现高效处理。

一个例子：假设你有 class Student { int id; 标准::字符串名称；浮动平均值；布尔毕业；}。在 OOP 的情况下，您会将所有学生放在一个向量中。

在面向数据的设计中，你首先会问自己，你想对这些数据做什么样的处理。假设您要计算所有尚未毕业的学生的平均分数。因此，您将创建一个表，其中仅包含已毕业的学生和未毕业的学生。您不会将学生姓名保留在该表中，因为它不用于处理。但是你会在表格中保留一个学生证和一个平均分。

现在计算未毕业学生的平均分数将意味着遍历未毕业的表格并执行计算。由于平均标记在内存中是相邻的，因此您的 CPU 将使用 SIMD 并以最有效的方式处理数据。由于我们没有查询 boolgraded 来测试学生是否已经毕业，因此没有数据缓存未命中。

这在理论上听起来不错，但我从未在现实世界的项目中进行过这种开发。如果有人有任何经验，请与我联系，我有很多问题。

data-oriented-design - 什么是面向数据的设计？

5 回答 5

面向对象的方法

面向数据的方法

缓存使用示例

如何布局内存

与关系数据库的关系

Related

Reference