0

假设我有一个要在其上运行 Mahout 集群作业的数据集。我希望每个数据点都有一个唯一的标识符,例如 ID 号。我不想将 ID 附加到向量,因为这样它将包含在聚类计算中。如果算法在计算中不包含 ID 号,如何在数据中包含标识符?有没有办法让输入成为键值对,其中键是 ID,值是我要运行算法的向量?

4

1 回答 1

0

艾莉森在担心这个之前,先看看输出。很多时候,您有几行assignedCLusterID,其中输入和输出文件中的行顺序是相同的。例如,输入文件第一行的节点将位于输出文件的第一行。因此,您可以将 id 保存在单独的文件中,将它们的向量保存在输入文件中。然后你可以结合单独的文件和输出文件来查看哪个节点分配了哪个集群。

于 2012-07-20T19:02:02.430 回答