1

我希望将一种格式的二进制文件转换为 SequenceFile。

我有一个 Python 脚本,它在标准输入上采用这种格式,可以输出我想要的任何内容。

输入格式不是基于行的。各个记录本身是二进制的,因此输出格式不能用 \t 分隔或用 \n 分成几行。

我可以使用 Hadoop Streaming 接口来使用二进制格式吗?如何生成二进制输出格式?

我假设答案是“不”,除非我听到其他情况。

4

1 回答 1

0

您可以考虑使用 NullWritable 作为输出,并直接在您的 python 脚本中生成 SequenceFile。您可以在 github 中查找 hadoop-python 项目以查看候选代码:尽管它确实有点大/重,但它确实处理了序列文件的生成。

于 2013-03-03T00:44:45.377 回答