apache-spark - 大 RDD 与多个小 RDD

Question

历史数据：

例子

 Activity1 {Geography, TimePeriod, GRP, CPP}

 Activity2 {TimePeriod, GRP, CPP}

 Activity3 {Primary_Message, TimePeriod, GRP, CPP}

用例：

我必须设计 RDD，以便我的所有用例都能有效地工作。

在任何给定的时间点，每项工作都将迎合一个单一的活动。

我有两个选择——

我的问题是哪个选项在给定用例和假设的情况下设计 RDD 更有效。

蒂亚！

score 0 · Accepted Answer

单个 RDD 的优点是添加另一种活动类型（活动 4）将是很少的工作。单独的 RDD 的优点是，当您只想访问一种活动类型时，您不必遍历其他类型的数据。

正如你在评论中所说：

在 UI 上，将显示所有活动的数据。为了实现这一点，我们将运行多个作业（每个活动一个作业）并跨时间段计算它们的值。

如果您有 N 个活动类型和 M 个总记录，如果您有单独的 RDD，您将通过 M 个记录来呈现 UI。如果您有一个 RDD，您将遍历 N×M 记录。

1 回答 1