我正在尝试使用流媒体运行 hadoop。我有两个文件。一个是mapper的java文件,另一个是reducer的python脚本。
MerkleMapper.java
Class MerkleMapper extends MapREduceBase
并定义map()
功能。对于输入拆分的每条记录,它读取传入的key(byte_offset)
、value(line)
对并输出行的byte_offset
和散列。
Reducer 是一个 python 脚本,它结合了所有的散列并产生一个顶部散列。
是否可以将两者结合起来(java和python)。如何使用 Streaming 将我的 java 文件指定为映射器。