我一直在从单个 JAR 文件在 hadoop 集群上运行几个 map reduce 作业。JAR 的 Main 接受 XML 文件作为命令行参数。XML 文件包含每个作业的输入和输出路径(名称-值属性对),我使用它们来配置每个 mapreduce 作业。我可以像这样将路径加载到配置中
Configuration config = new Configuration(false);
config.addResource(new FileInputStream(args[0]));
我现在正在尝试使用 Amazon 的 Elastic MapReduce 运行 JAR。我尝试将 XML 文件上传到 S3,但当然使用 FileInputStream 从 S3 加载路径数据不起作用(FileNotFound 异常)。
使用 EMR 时如何将 XML 文件传递到 JAR?
(我查看了引导操作,但据我所知,这是指定 hadoop 特定的配置)。
任何见解将不胜感激。谢谢。