我正在尝试在我的 hadoop 作业的主要方法中读取文件。不在映射器或减速器中。我正在使用带有 CUSTOM JAR 的 EMR Amazon
The command line is arguments: -files s3://[path]#source.xml
在我正在做的主要功能内部:
File file = new File("source.xml")
我不知道分布式缓存是否可用于主要功能或仅在映射器/减速器功能中。我需要使用 DistributedCache API 吗?
AWS 正在执行的行代码:
hadoop jar /mnt/var/lib/hadoop/steps/s-1YBXTPYJ2YK44/JobTeste_SomenteLeitura.jar -files s3://stoneagebrasil/TesteBVS/sources.xml
怎么能做到这一点?