数据科学新手,使用考拉和 Spark 框架。所以问题来了。
我从 s3 文件以镶木地板格式加载初始考拉数据框。我也将 default_index 设置为distributed
索引,并确认底层 rdd 分区的数量超过 300。
当我调用形状函数来检查行数和列数时,需要以下时间
CPU times: user 223 ms, sys: 44.6 ms, total: 268 ms
Wall time: 5min 18s
我的问题是为什么 cpu 时间和墙时间之间存在如此显着的差异。对于底层的火花执行器,不应该直接计算行数。我希望数据不需要在不同的分区之间进行混洗,因此 cpu 时间和 wall 时间不应该有太大的差异。如果我错了,请纠正我。