0

我是 Hadoop 和 Mahout 的新手。我想知道如何将包含一组向量的简单文本文件转换为序列文件。我已经尝试了 MR 框架并将 outputFormat 更改为 SequenceFileOutputFormat,我得到了以下输出

SEQorg.apache.hadoop.io.Textorg.apache.hadoop.io.Text��.�U_v�;�Vs�'�sample0 1 2 3 4 5sample1 6 7 8 9 10sample211 12 13 14 15sample316 17 18 19 20

这些模糊字符在二进制文件中,因此无法读取,但我的问题是如何获取 sample0 1 2 3 4 ,与 SequenceFile 格式(二进制格式)类似。

我相信可以通过更改映射器函数的输出来完成,但是我无法弄清楚。

-谢谢你的时间。

4

0 回答 0