我是 Hadoop 和 Mahout 的新手。我想知道如何将包含一组向量的简单文本文件转换为序列文件。我已经尝试了 MR 框架并将 outputFormat 更改为 SequenceFileOutputFormat,我得到了以下输出
SEQorg.apache.hadoop.io.Textorg.apache.hadoop.io.Text��.�U_v�;�Vs�'�sample0 1 2 3 4 5sample1 6 7 8 9 10sample211 12 13 14 15sample316 17 18 19 20
这些模糊字符在二进制文件中,因此无法读取,但我的问题是如何获取 sample0 1 2 3 4 ,与 SequenceFile 格式(二进制格式)类似。
我相信可以通过更改映射器函数的输出来完成,但是我无法弄清楚。
-谢谢你的时间。