1

我正在尝试使用流媒体运行 hadoop。我有两个文件。一个是mapper的java文件,另一个是reducer的python脚本。

MerkleMapper.java

Class MerkleMapper extends MapREduceBase并定义map()功能。对于输入拆分的每条记录,它读取传入的key(byte_offset)value(line)对并输出行的byte_offset和散列。

Reducer 是一个 python 脚本,它结合了所有的散列并产生一个顶部散列。

是否可以将两者结合起来(java和python)。如何使用 Streaming 将我的 java 文件指定为映射器。

4

1 回答 1

0

你可以把它分成2个工作。

第一份工作只有一个映射器(你的 Java 映射器),你把它的输出传递给一个 python 流式作业,你的 Mapper 是身份映射器,你的 reducer 是 python Reducer。目前,据我所知,您无法将流媒体和 java 结合起来。

于 2012-02-16T13:01:18.607 回答