2

我目前正在使用 SparkR 和 sparklyr 包,我认为它们不适合高维稀疏数据集。

这两个包都有一个范例,您可以通过几列或几行的简单逻辑条件来选择/过滤数据框的列和行。但这通常不是您在如此大的数据集上会做的事情。在那里,您需要根据数百个行或列条目的值来选择行和列。通常,您首先必须计算每行/列的统计数据,然后将这些值用于选择。或者,您只想处理数据框中的某些值。

例如,

  1. 如何选择缺失值少于 75% 的所有行或列?

  2. 如何使用从每一列或每一行派生的特定于列或行的值来估算缺失值?

  3. 为了解决(#2),我需要分别对数据框的每一行或每一列执行函数。然而,即使像 SparkR 的 dapplyCollect 这样的函数也没有真正的帮助,因为它们太慢了

也许我遗漏了一些东西,但我想说 SparkR 和 sparklyr 在这些情况下并没有真正的帮助。我错了吗?

附带说明一下,如果存在如此严重的限制(例如处理缺失值),我不明白如何将 MLlib 或 H2O 等库与 Sparklyr 集成。

4

0 回答 0