我正在尝试将 S3 目录作为参数传递给弹性 mapreduce 流作业,但似乎 EMR 将我作为参数传递的目录与流映射器本身混淆了。
即当我运行以下它工作正常:
"-mapper","perl sams_to_vcf.pl -ref ./ref_genome.fa -vars-only -no-dups",
但是,如果我添加目录参数:
"-mapper", "perl sams_to_vcf.pl -ref ./ref_genome.fa -vars-only -outdir s3://ht-out/Fd09/combined -no-dups",
我得到以下信息:
"LastStateChangeReason": "Streaming mapper doesn't exist: s3:\/\/ht-out\/Fd09\/combined",
我很确定这是 EMR 或 hadoop 中的错误,但以防万一这不应该起作用的原因?