hadoop - 将文本文件转换为序列文件

翻译自：https://stackoverflow.com/questions/21424673 2014-01-29T07:25:43.330

610 次

我是 Hadoop 和 Mahout 的新手。我想知道如何将包含一组向量的简单文本文件转换为序列文件。我已经尝试了 MR 框架并将 outputFormat 更改为 SequenceFileOutputFormat，我得到了以下输出

SEQorg.apache.hadoop.io.Textorg.apache.hadoop.io.Text��.�U_v�;�Vs�'�sample0 1 2 3 4 5sample1 6 7 8 9 10sample211 12 13 14 15sample316 17 18 19 20

这些模糊字符在二进制文件中，因此无法读取，但我的问题是如何获取 sample0 1 2 3 4 ，与 SequenceFile 格式（二进制格式）类似。

我相信可以通过更改映射器函数的输出来完成，但是我无法弄清楚。

-谢谢你的时间。

0 回答 0