大家下午好,
我的数据格式如下:
ID : VALUE(用户分配的标签)
0001:“PC、THINKPAD、T500”
0002:“电话、手机、IPHONE、苹果、IPHONE5”
.......等等。
我怎样才能编写代码:
1)首先,将它们转换成key:value格式的序列文件。
2)然后,将上面的序列文件转换为将用于kmeans聚类的向量?
我正在检查 SequenceFileFromdDirectory 和 SparseVectorFromSequenceFiles,但现在这些似乎有点复杂并且有点难以阅读。
所以,我想知道这里是否有人可以给我一个关于如何进行上述两种转换的简单示例代码?
非常感谢!