spring-data-hadoop - 为什么“spring-data-hadoop”需要制作jar以避免“类未找到异常”

翻译自：https://stackoverflow.com/questions/28671275 2015-02-23T10:10:31.733

149 次

我已经阅读了很多 spring-data-hadoop 参考文档。但是，我无法理解这个框架架构（或用法，必要）

我期望的最有用的一点是在我的本地机器上编写 map-reduce 作业以在远程集群上运行作业。（即使在 spring-data-hadoop 参考指南中，看起来也是可能的！）

事实上，我必须制作包含一些映射器、reducers 的 jar，部署（或复制）到 hdfs 上，然后将 jar 配置为分布式缓存作为类路径。

像这样

// '/tmp/test/classpath' is a path on hdfs
<hadoop:cache>
    <hadoop:classpath value="/tmp/test/classpath/*.jar"/>
</hadoop:cache>

至少我可以理解，包含一些运行作业所需的类的 jar 必须部署在 hdfs 上。但我不明白为什么“spring-data-hadoop”不提供自动部署。

我阅读了纱线本地资源部分并尝试了它。但它没有用。我猜'yarn'上的mapreduce框架不支持东西（localyzer ..等）

'spring-data-hadoop'有什么好的（有用的）点吗？

0 回答 0