performance - 有没有办法在读取多个文件时并行化 spark.read.load(string*) ？

Question

我注意到在 spark-shell (spark 2.4.4) 中，当我做一个简单spark.read.format(xyz).load("a","b","c",...)的 .它们是通往 hdfs 的路径）。

这是预期的吗？

我问的原因是，就我而言，我正在尝试加载 50K 文件，并且顺序加载需要很长时间。

谢谢

score 0 · Accepted Answer

可能不是我最初问题的确切“答案”，但我发现了我的特殊情况的原因：从名称节点的审核日志中，发现有一些与名称节点挂钩的失控作业，这大大减慢了 rpc 调用. 杀掉这些坏工作后，火花的加载速度有了很大的提升。

1 回答 1