vector - 如何将下面的文本转换为序列文件，该文件又将转换为 mahout kmeans 的矢量？

Question

大家下午好，

我的数据格式如下：

ID : VALUE（用户分配的标签）

0001：“PC、THINKPAD、T500”

0002：“电话、手机、IPHONE、苹果、IPHONE5”

.......等等。

我怎样才能编写代码：

1）首先，将它们转换成key:value格式的序列文件。

2）然后，将上面的序列文件转换为将用于kmeans聚类的向量？

我正在检查 SequenceFileFromdDirectory 和 SparseVectorFromSequenceFiles，但现在这些似乎有点复杂并且有点难以阅读。

所以，我想知道这里是否有人可以给我一个关于如何进行上述两种转换的简单示例代码？

非常感谢！

score 0 · Accepted Answer

这两个过程完全按照您的意愿进行，现在只需使输出可读，而不是序列文件，您将使用该seqdumper功能。

如果您需要更清晰的图片，请看这里，非常好的介绍。