我在我的 pyspark 脚本中运行 s3-dist-cp" 命令时遇到了一些问题,因为我需要将一些数据从 s3 移动到 hdfs 以提高性能。所以我在这里分享这个。
问问题
1624 次
2 回答
1
import os
os.system("/usr/bin/s3-dist-cp --src=s3://aiqdatabucket/aiq-inputfiles/de_pulse_ip/latest/ --dest=/de_pulse/ --groupBy='.*(additional).*' --targetSize=64 --outputCodec=none")
注意: - 请确保您提供 s3-dist-cp 的完整路径,例如 (/usr/bin/s3-dist-cp)
另外,我认为我们可以使用子进程。
于 2017-01-23T12:49:55.863 回答
0
如果您正在运行 pyspark 应用程序,则必须先停止 spark 应用程序。将s3-dist-cp
挂起,因为 pyspark 应用程序被阻塞。
spark.stop() # spark context
os.system("/usr/bin/s3-dist-cp ...")
于 2019-08-13T15:42:32.683 回答