我创建了一个 pyspark 脚本(胶水作业)并尝试使用 cli 命令 aws glue start-job-run --arguments 通过 EC2 实例运行(这里我正在传递参数列表)。我已经尝试使用简写语法和 json 语法来使用上述 cli 命令传递参数,但我收到错误“GlueArgumentError: argument --input_file_path is required”(输入文件路径是我试图在pyspark 脚本如下所示)
spark = SparkSession.builder.getOrCreate()
args = getResolvedOptions(sys.argv, ['input_file_path', 'CONFIG_FILE_PATH', 'SELECTED_RECORD_FILE_PATH', 'REJECTED_RECORD_FILE_PATH']
我用来运行该作业的 cli 命令如下:
1] aws glue start-job-run --job-name dsb_clng_and_vldtn --arguments input_file_path="s3://dsb-lfnsrn-001/lndg/data/CompanyData_UK.csv"
2] aws glue start-job-run --job-name dsb_clng_and_vldtn --arguments "file://$JSON_FILES_PATH/job_arguments_list.json"
(JSON_FILES_PATH is shell variable)
在方法 2] 我使用 json 语法来执行作业。json文件内容如下:
{
"input_file_path":"s3://dsb-lfnsrn-001/lndg/data/CompanyData_UK.csv",
"CONFIG_FILE_PATH":"s3://htcdsb-dev/wrkspc/src/dsb-lfnsrn-001-config.json",
"SELECTED_RECORD_FILE_PATH":"s3://dsb-lfnsrn-001/pckpby/processed/Valid_UK.csv",
"REJECTED_RECORD_FILE_PATH":"s3://dsb-lfnsrn-001/pckpby/processed/Invalid_UK.csv"
}
请给我建议,因为我在几个小时内都在努力解决上述问题。