我已经阅读了很多 spring-data-hadoop 参考文档。但是,我无法理解这个框架架构(或用法,必要)
我期望的最有用的一点是在我的本地机器上编写 map-reduce 作业以在远程集群上运行作业。(即使在 spring-data-hadoop 参考指南中,看起来也是可能的!)
事实上,我必须制作包含一些映射器、reducers 的 jar,部署(或复制)到 hdfs 上,然后将 jar 配置为分布式缓存作为类路径。
像这样
// '/tmp/test/classpath' is a path on hdfs
<hadoop:cache>
<hadoop:classpath value="/tmp/test/classpath/*.jar"/>
</hadoop:cache>
至少我可以理解,包含一些运行作业所需的类的 jar 必须部署在 hdfs 上。但我不明白为什么“spring-data-hadoop”不提供自动部署。
我阅读了纱线本地资源部分并尝试了它。但它没有用。我猜'yarn'上的mapreduce框架不支持东西(localyzer ..等)
'spring-data-hadoop'有什么好的(有用的)点吗?