3

我注意到在 spark-shell (spark 2.4.4) 中,当我做一个简单spark.read.format(xyz).load("a","b","c",...)的 .它们是通往 hdfs 的路径)。

这是预期的吗?

我问的原因是,就我而言,我正在尝试加载 50K 文件,并且顺序加载需要很长时间。

谢谢

PS,我试图在源代码中看到它,但不确定这是否是一个: https ://github.com/apache/spark/blob/branch-2.4/sql/core/src/main/scala/ org/apache/spark/sql/DataFrameReader.scala#L180

4

1 回答 1

0

可能不是我最初问题的确切“答案”,但我发现了我的特殊情况的原因:从名称节点的审核日志中,发现有一些与名称节点挂钩的失控作业,这大大减慢了 rpc 调用. 杀掉这些坏工作后,火花的加载速度有了很大的提升。

于 2020-05-28T21:31:03.510 回答