1

我在我的 pyspark 脚本中运行 s3-dist-cp" 命令时遇到了一些问题,因为我需要将一些数据从 s3 移动到 hdfs 以提高性能。所以我在这里分享这个。

4

2 回答 2

1
import os

os.system("/usr/bin/s3-dist-cp --src=s3://aiqdatabucket/aiq-inputfiles/de_pulse_ip/latest/ --dest=/de_pulse/  --groupBy='.*(additional).*'  --targetSize=64 --outputCodec=none")

注意: - 请确保您提供 s3-dist-cp 的完整路径,例如 (/usr/bin/s3-dist-cp)

另外,我认为我们可以使用子进程。

于 2017-01-23T12:49:55.863 回答
0

如果您正在运行 pyspark 应用程序,则必须先停止 spark 应用程序。将s3-dist-cp挂起,因为 pyspark 应用程序被阻塞。

spark.stop()  # spark context
os.system("/usr/bin/s3-dist-cp ...")
于 2019-08-13T15:42:32.683 回答