我创建了如下的大文本文件(4 GB)。
0 1 2 3 2 1
3 6 2 0 6 4
3 0 6 3 0 0
1 6 7 3 9 4
每行描述一个向量,每列表示向量的每个元素。每个元素由一个空格分隔。
现在,我想使用 Apache Mahout 对所有向量执行 K-Means 聚类,但我收到了错误"not a SequenceFile"
。
如何创建格式符合 mahout 要求的文件?
我创建了如下的大文本文件(4 GB)。
0 1 2 3 2 1
3 6 2 0 6 4
3 0 6 3 0 0
1 6 7 3 9 4
每行描述一个向量,每列表示向量的每个元素。每个元素由一个空格分隔。
现在,我想使用 Apache Mahout 对所有向量执行 K-Means 聚类,但我收到了错误"not a SequenceFile"
。
如何创建格式符合 mahout 要求的文件?