我希望将一种格式的二进制文件转换为 SequenceFile。
我有一个 Python 脚本,它在标准输入上采用这种格式,可以输出我想要的任何内容。
输入格式不是基于行的。各个记录本身是二进制的,因此输出格式不能用 \t 分隔或用 \n 分成几行。
我可以使用 Hadoop Streaming 接口来使用二进制格式吗?如何生成二进制输出格式?
我假设答案是“不”,除非我听到其他情况。
我希望将一种格式的二进制文件转换为 SequenceFile。
我有一个 Python 脚本,它在标准输入上采用这种格式,可以输出我想要的任何内容。
输入格式不是基于行的。各个记录本身是二进制的,因此输出格式不能用 \t 分隔或用 \n 分成几行。
我可以使用 Hadoop Streaming 接口来使用二进制格式吗?如何生成二进制输出格式?
我假设答案是“不”,除非我听到其他情况。