pyspark - EMR 集群大小对于使用 spark 从 S3 读取数据是否重要

Question

设置：最新 (5.29) AWS EMR、spark、1 个主节点 1 个节点。

第 1 步。我使用 S3Select 解析文件并收集所有文件密钥以从 S3 中提取。步骤 2. 使用 pyspark 在循环中迭代键并执行以下操作

火花 .read .format("s3selectCSV") .load(key) .limit(superhighvalue) .show(superhighvalue)

花了 x 分钟。

当我将集群增加到 1 个主节点和 6 个节点时，我没有看到时间差异。在我看来，我没有使用增加的核心节点。
其他一切，明智的配置都是开箱即用的默认设置，我没有设置任何东西。

所以，我的问题是集群大小对于使用 EMR、Spark 从 S3 读取和检查（比如日志或打印）数据是否重要？

score 0 · Accepted Answer

几件事情要记住。

你确定执行者确实因为节点的增加而增加了吗？或者您可以在 spark submit 期间指定它们 --num-executors 6。更多节点并不意味着没有执行器被旋转。
接下来，csv文件的大小是多少？一些1MB？那么你不会看到太大的不同。确保至少有 3-4 GB

score 0 · Accepted Answer

是的，大小确实很重要。对于我的用例，sc.parallelize(s3fileKeysList)并行化是关键。

2 回答 2