r - 使用 SparkR 和 Sparklyr 对 Spark 数据帧进行操作 - 不切实际的设置？

问问题 2016-11-22T11:34:30.510

275 次

我目前正在使用 SparkR 和 sparklyr 包，我认为它们不适合高维稀疏数据集。

这两个包都有一个范例，您可以通过几列或几行的简单逻辑条件来选择/过滤数据框的列和行。但这通常不是您在如此大的数据集上会做的事情。在那里，您需要根据数百个行或列条目的值来选择行和列。通常，您首先必须计算每行/列的统计数据，然后将这些值用于选择。或者，您只想处理数据框中的某些值。

例如，

如何选择缺失值少于 75% 的所有行或列？
如何使用从每一列或每一行派生的特定于列或行的值来估算缺失值？
为了解决（#2），我需要分别对数据框的每一行或每一列执行函数。然而，即使像 SparkR 的 dapplyCollect 这样的函数也没有真正的帮助，因为它们太慢了。

也许我遗漏了一些东西，但我想说 SparkR 和 sparklyr 在这些情况下并没有真正的帮助。我错了吗？

附带说明一下，如果存在如此严重的限制（例如处理缺失值），我不明白如何将 MLlib 或 H2O 等库与 Sparklyr 集成。

0 回答 0