假设我有一个要在其上运行 Mahout 集群作业的数据集。我希望每个数据点都有一个唯一的标识符,例如 ID 号。我不想将 ID 附加到向量,因为这样它将包含在聚类计算中。如果算法在计算中不包含 ID 号,如何在数据中包含标识符?有没有办法让输入成为键值对,其中键是 ID,值是我要运行算法的向量?
问问题
78 次
假设我有一个要在其上运行 Mahout 集群作业的数据集。我希望每个数据点都有一个唯一的标识符,例如 ID 号。我不想将 ID 附加到向量,因为这样它将包含在聚类计算中。如果算法在计算中不包含 ID 号,如何在数据中包含标识符?有没有办法让输入成为键值对,其中键是 ID,值是我要运行算法的向量?