pyspark - 如何在 EMR 5.x 的 pyspark shell / pyspark 脚本中运行“s3-dist-cp”命令

Question

我在我的 pyspark 脚本中运行 s3-dist-cp" 命令时遇到了一些问题，因为我需要将一些数据从 s3 移动到 hdfs 以提高性能。所以我在这里分享这个。

score 1 · Accepted Answer

import os

os.system("/usr/bin/s3-dist-cp --src=s3://aiqdatabucket/aiq-inputfiles/de_pulse_ip/latest/ --dest=/de_pulse/  --groupBy='.*(additional).*'  --targetSize=64 --outputCodec=none")

注意： - 请确保您提供 s3-dist-cp 的完整路径，例如 (/usr/bin/s3-dist-cp)

另外，我认为我们可以使用子进程。

score 0 · Accepted Answer

如果您正在运行 pyspark 应用程序，则必须先停止 spark 应用程序。将s3-dist-cp挂起，因为 pyspark 应用程序被阻塞。

spark.stop()  # spark context
os.system("/usr/bin/s3-dist-cp ...")

pyspark - 如何在 EMR 5.x 的 pyspark shell / pyspark 脚本中运行“s3-dist-cp”命令

2 回答 2

Related

Reference