1

我正在通过“sparklyr”和“SparkR”对 R 中的火花进行基准测试。我在不同的 Testdata 上测试不同的功能。在两种特殊情况下,我计算一列中零的数量和一列中 NA 的数量,我意识到无论数据有多大,结果都会在不到一秒的时间内出现。所有其他计算都随着数据的大小而变化。所以我不认为 Spark 在那里计算任何东西,但这些案例存储在元数据的某个地方,并且它在加载数据时计算了这些结果。我测试了我的功能,它们总是给我正确的结果。

任何人都可以确认列中零的数量和空值的数量是否存储在数据帧的元数据中,如果没有,为什么它会这么快返回正确的值?

4

1 回答 1

0

没有与包含列数据的 Spark DataFrame 关联的元数据;因此,我的猜测是您测量的性能差异是由其他原因引起的。没有可重复的例子很难说。

于 2017-08-03T18:12:44.703 回答