我使用火花 1.6.1。
我的 spark 应用程序读取存储在 s3 中的 10000 多个 parquet 文件。
val df = sqlContext.read.option("mergeSchema", "true").parquet(myPaths: _*)
myPaths
是一个Array[String]
包含 10000 个镶木地板文件的路径。每条路径都是这样的s3n://bucketname/blahblah.parquet
Spark 会发出如下警告消息。
WARN TaskSetManager:第 4 阶段包含一个非常大的任务(108KB)。建议的最大任务大小为 100KB。
无论如何,Spark 已经设法运行并完成了这项工作,但我想这会减慢 Spark 处理工作的速度。
有人对这个问题有好的建议吗?