0

我已经阅读了很多 spring-data-hadoop 参考文档。但是,我无法理解这个框架架构(或用法,必要)

我期望的最有用的一点是在我的本地机器上编写 map-reduce 作业以在远程集群上运行作业。(即使在 spring-data-hadoop 参考指南中,看起来也是可能的!)

事实上,我必须制作包含一些映射器、reducers 的 jar,部署(或复制)到 hdfs 上,然后将 jar 配置为分布式缓存作为类路径。

像这样

// '/tmp/test/classpath' is a path on hdfs
<hadoop:cache>
    <hadoop:classpath value="/tmp/test/classpath/*.jar"/>
</hadoop:cache>

至少我可以理解,包含一些运行作业所需的类的 jar 必须部署在 hdfs 上。但我不明白为什么“spring-data-hadoop”不提供自动部署。

我阅读了纱线本地资源部分并尝试了它。但它没有用。我猜'yarn'上的mapreduce框架不支持东西(localyzer ..等)

'spring-data-hadoop'有什么好的(有用的)点吗?

4

0 回答 0